Gemma 4 Vierfach-Release, 12B, 12B QAT, 26B-A4B QAT und 31B QAT Unzensierte Ketzer: Die definitive technische Aufschlüsselung

📅 2026-06-12 Reddit - LocalLLaMA

Gemma 4 Vierfach-Release: 12B, 12B QAT, 26B-A4B QAT & 31B QAT Uncensored Heretics – Vollständiger Leitfaden

Gemma 4 Vierfach-Release, 12B, 12B QAT, 26B-A4B QAT und 31B QAT Uncensored Heretics: Die definitive technische Analyse

Googles Gemma 4-Familie hat eine der ambitioniertesten Community-Veröffentlichungen des Jahres hervorgebracht. Vier verschiedene Modellvarianten — 12B Basis, 12B QAT, 26B-A4B QAT und der heiß diskutierte 31B QAT Uncensored Heretic — sind jetzt in fünf Distributionsformaten auf HuggingFace verfügbar. Dieser Artikel beleuchtet alles: Architektur, Quantisierung, die “unzensierter Ketzer”-Linie, Formatunterschiede und wie man jede Variante verantwortungsvoll einsetzt.

Aktualisiert: Juli 2025 · 18 Minuten Lesezeit

1. Was ist das Gemma 4 Vierfach-Release?

Das Gemma 4 Vierfach-Release bezeichnet einen koordinierten Drop von vier feinabgestimmten und quantisierten Varianten, die von Googles Gemma 4-Architektur abgeleitet sind. Diese Modelle wurden vom produktiven Community-Mitglied llmfan46 auf HuggingFace produziert und geteilt und erweitern die offiziellen Gemma 4-Checkpoints um Quantization-Aware Training (QAT), aggressive Low-Bit-Quantisierung und — im Fall des 31B — eine bewusste Entfernung der Alignment-Schutzmechanismen, was zu einer von der Community als “unzensierter Ketzer” bezeichneten Variante führt.

Dieses Release ist aus mehreren Gründen bedeutsam:

Beispiellose Vielfalt: Vier Parameterskalen (12B dicht, 12B QAT, 26B-A4B Mixture-of-Experts QAT, 31B QAT) in einem einzigen koordinierten Release.
Fünf Distributionsformate: Safetensors (Standard), GGUF (llama.cpp / CPU-freundlich), NVFP4 (NVIDIA Blackwell-optimiertes 4-Bit-Gleitkomma), NVFP4 GGUF und GPTQ-Int4 — die praktisch jedes Einsatzszenario abdecken.
QAT-Vorteil: Im Gegensatz zur Post-Training-Quantisierung (PTQ) bettet QAT das Quantisierungsbewusstsein während des Trainings oder Fine-Tunings ein und liefert eine überlegene Perplexitätserhaltung bei extrem niedrigen Bitbreiten.
Kontroverse und Nachfrage: Die Marke “unzensierter Ketzer” signalisiert ein Modell, dem Verweigerungsmechanismen entzogen wurden, was sowohl großes Interesse als auch ethische Prüfung hervorruft.

⚠ Haftungsausschluss: Die “unzensierter Ketzer”-Modelle wurden modifiziert, um die Sicherheitsausrichtung zu entfernen. Sie können Inhalte generieren, die offizielle Gemma-Modelle verweigern. Diese Modelle sind Community-Produktionen, nicht mit Google verbunden oder von Google unterstützt. Mit Vorsicht und unter Einhaltung der geltenden Gesetze verwenden.

2. Die vier Modellvarianten erklärt

Gemma 4 12B Dicht · Basis-QAT 12B Parameter

Gemma 4 12B QAT Dicht · QAT feinabgestimmt q4_0 quantisiert

Gemma 4 26B-A4B QAT MoE · 26B gesamt / 4B aktiv A4B-Architektur

Gemma 4 31B QAT Unzensiert Dicht · Kein Alignment Ketzer ☠

2.1 Gemma 4 12B (Basis-QAT-Variante)

Das 12B dichte Modell stellt den Einstiegspunkt des Vierfach-Releases dar. Aufbauend auf der Gemma 4-Architektur mit 12 Milliarden Parametern wurde diese Variante einem QAT unterzogen, um sie robust gegenüber 4-Bit-Quantisierung zu machen. Sie behält die standardmäßige Instruction-Tuning-Ausrichtung der offiziellen Google-Veröffentlichung bei und eignet sich daher für allgemeine Aufgaben, bei denen Sicherheitskonformität erwartet wird.

Parameteranzahl: 12 Milliarden (dicht, alle Parameter pro Token aktiv)
Quantisierung: q4_0 (4-Bit, symmetrische Quantisierung pro Block)
Alignment: Standard-Instruction-Tuning, mit intakten Verweigerungsmechanismen
Am besten für: Produktionseinsätze, die moderate Rechenleistung mit vollständiger Sicherheitsausrichtung erfordern

2.2 Gemma 4 12B QAT (Feinabgestimmtes q4_0)

Dies ist eine weiter verfeinerte Version des 12B, mit zusätzlichem QAT-Fine-Tuning, das speziell für das q4_0-Quantisierungsschema optimiert wurde. Der zusätzliche QAT-Durchlauf reduziert die Perplexitätslücke zwischen dem 12B-Modell in voller Präzision und seinem 4-Bit-Pendant auf nahezu vernachlässigbare Werte. Wenn Sie das 12B mit möglichst geringem Speicherbedarf ohne Qualitätseinbußen benötigen, ist dies die Variante der Wahl.

Hauptunterscheidungsmerkmal: Erweitertes QAT-Fine-Tuning über den Basis-QAT-Checkpoint hinaus
Speicherbedarf: Ungefähr 6–7 GB im 4-Bit-Modus
Anwendungsfall: Edge-Bereitstellung, Consumer-GPUs mit 8–12 GB VRAM

2.3 Gemma 4 26B-A4B QAT (Mixture-of-Experts)

Das 26B-A4B ist das architektonisch interessanteste Mitglied des Releases. Es verwendet ein Mixture-of-Experts (MoE)-Design, bei dem die Gesamtparameterzahl 26 Milliarden beträgt, aber nur 4 Milliarden pro Token aktiv sind (als A4B bezeichnet). Dieses spärliche Aktivierungsmuster liefert Inferenzgeschwindigkeiten, die eher einem 4B dichten Modell entsprechen, während die Wissenskapazität eines viel größeren Modells erhalten bleibt. Die QAT-Behandlung stellt sicher, dass das MoE-Routing und die Expertengewichte die 4-Bit-Komprimierung problemlos überstehen.

Gesamtparameter: 26B (spärliches MoE)
Aktive Parameter pro Token: ~4B
Architektur-Highlight: Gesteuertes Experten-Routing mit Lastausgleichsverlust
Ideal für: Hochdurchsatz-Serving, bei dem die Latenz niedrig bleiben muss, aber Wissenstiefe wichtig ist

2.4 Gemma 4 31B QAT Uncensored Heretic

Der Aufmerksamkeitsmagnet. Der 31B QAT Uncensored Heretic ist ein dichtes Modell mit 31 Milliarden Parametern, das einer QAT für q4_0-Kompression unterzogen wurde und dessen Sicherheitsausrichtung absichtlich entfernt oder umgangen wurde. Der Begriff “Ketzer” ist eine Community-Bezeichnung für Modelle, die auf Anfragen antworten, die offizielle Modelle ablehnen. Wir gehen im nächsten Abschnitt näher auf diese Variante ein.

3. Deep Dive: Der 31B QAT Uncensored Heretic

Die Variante gemma-4-31B-it-qat-q4_0-unquantized-uncensored-heretic (oft abgekürzt als “31B Uncensored Heretic”) ist das am häufigsten heruntergeladene und diskutierte Modell dieses Releases. Um zu verstehen, warum, müssen drei Dimensionen untersucht werden: technische Herkunft, das Entquantisierungsparadoxon und der Mechanismus der Entzensurierung.

3.1 Was bedeutet “Unquantized” im QAT-Kontext?

Der Dateiname enthält den Begriff “unquantized”, was zu Verwirrung führen kann. In diesem Zusammenhang bedeutet es, dass die Modellgewichte in einem Full-Precision-Format (BF16/FP16) gespeichert sind, das ein QAT durchlaufen hat — die Gewichte wurden mit Quantisierungsbewusstsein trainiert, sodass sie vorbereitet für die q4_0-Inferenz sind, aber der Checkpoint selbst ist noch nicht auf 4-Bit quantisiert. Dies ermöglicht Benutzern:

Ihr eigenes Quantisierungsschema anzuwenden (q4_0, q4_1, q5_0 usw.)
Das Modell bei Bedarf mit voller Präzision auszuführen (mit ausgezeichneter Qualität, da QAT die Gewichtslandschaft verbessert hat)
Die bereitgestellten GGUF- oder GPTQ-Versionen für den sofortigen 4-Bit-Einsatz zu verwenden

3.2 Wie wurde die “Unzensiert”-Modifikation erreicht?

Obwohl die genaue Methodik nicht vollständig offengelegt ist, deutet die Community-Analyse darauf hin, dass die Entzensurierung durch eine Kombination von Techniken erreicht wurde:

Fine-Tuning auf verweigerungsfreien Korpora: Das Modell wurde weiter auf Datensätzen trainiert, bei denen der Assistent konsequent ohne Verweigerungsmuster antwortet, wodurch die Alignment-Vektoren effektiv überschrieben wurden.
LoRA-basierte Alignment-Entfernung: Low-Rank Adaptation könnte verwendet worden sein, um die Sicherheitsverweigerungsrichtungen im Residualstrom des Modells zu subtrahieren oder zu neutralisieren.
Prompt-Präfix-Rekonditionierung: Der System-Prompt und die Chat-Vorlage wurden möglicherweise modifiziert, um die im offiziellen Instruct-Template vorhandene “hilfreich und harmlos”-Konditionierung zu entfernen.

Das Ergebnis ist ein 31B-Modell, das die starken Denk-, Programmier- und Kreativfähigkeiten von Gemma 4 beibehält, während es Anfragen basierend auf Sicherheitsklassifizierungen nicht mehr ablehnt.

3.3 Warum “Ketzer”? Community-Namenskonventionen

In der Open-Source-LLM-Community hat sich “Ketzer” neben Begriffen wie “abliteriert”, “unzensiert” und “entfesselt” etabliert, um Modelle mit entfernten Schutzmechanismen zu beschreiben. Der Begriff trägt eine rebellische Konnotation und signalisiert den Benutzern, dass das Modell ohne die von den ursprünglichen Entwicklern auferlegten ethischen Einschränkungen arbeitet. Es handelt sich nicht um eine offizielle Bezeichnung — es ist eine rein community-getriebene Nomenklatur.

4. Distributionsformate: Safetensors, GGUF, NVFP4 und GPTQ-Int4

Einer der benutzerfreundlichsten Aspekte des llmfan46-Releases ist die Bandbreite der Formate. Jedes bedient ein eigenes Bereitstellungsökosystem. Hier ist, was Sie über jedes wissen müssen:

4.1 Safetensors (Standard)

Safetensors ist das sichere, schnelle und zunehmend standardisierte Format für die Verteilung von Modellgewichten. Im Gegensatz zu Pickle-basierten Formaten ist Safetensors immun gegen die Ausführung von beliebigem Code und damit die sichere Wahl. Diese Dateien enthalten die Gewichte in voller Präzision (oder QAT-vorbereitet) und sind ideal für:

Laden in HuggingFace transformers oder accelerate
Fine-Tuning oder weiteres Training
Konvertierung in andere Formate

Repository: llmfan46/gemma-4-31B-it-qat-q4_0-unquantized-uncensored-heretic (Safetensors)

4.2 GGUF (llama.cpp / CPU-Inferenz)

GGUF (GPT-Generated Unified Format) ist der Nachfolger von GGML und das Standardformat für llama.cpp, Ollama, LM Studio und andere CPU-first- oder hybride Inferenz-Engines. Die GGUF-Dateien in diesem Release sind bereits auf q4_0 vorquantisiert, sodass Sie sie ohne Konvertierungsschritt sofort herunterladen und ausführen können.

Repository: llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-GGUF

Am besten für: Apple Silicon (M1/M2/M3/M4), AMD Ryzen, Intel CPU-Inferenz und datenschutzorientierte lokale Bereitstellung
Typische Leistung: 8–15 Tokens/Sek. auf M2 Max mit 32 GB RAM

4.3 NVFP4 (NVIDIA Blackwell 4-Bit-Gleitkomma)

NVFP4 ist ein hochmodernes 4-Bit-Gleitkommaformat, das für NVIDIAs Blackwell-Architektur (B200, B100 GPUs) entwickelt wurde. Im Gegensatz zur Integer-Quantisierung (INT4) verwendet NVFP4 eine Gleitkommadarstellung, die den Dynamikbereich effektiver erhält, insbesondere bei Ausreißer-Aktivierungen. Die NVFP4 Safetensors-Variante speichert Gewichte in diesem Format, und die NVFP4 GGUF-Variante überführt das Format in das llama.cpp-Ökosystem.

NVFP4 Safetensors: llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-NVFP4
NVFP4 GGUF: llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-NVFP4-GGUF

4.4 GPTQ-Int4

GPTQ-Int4 ist eine Post-Training-Quantisierungsmethode, die näherungsweise Informationen zweiter Ordnung (Hessisch-basiert) verwendet, um den Quantisierungsfehler zu minimieren. Die GPTQ-Int4-Variante ist für AutoGPTQ- und vLLM-Inferenz-Backends optimiert und bietet exzellenten Durchsatz auf CUDA-GPUs mit minimaler Perplexitätsverschlechterung.

Repository: llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-GPTQ-Int4 (GPTQ-Int4)

Am besten für: Hochdurchsatz-GPU-Serving mit vLLM oder TGI
GPU-Anforderung: CUDA-fähige GPU mit 16+ GB VRAM empfohlen

5. Vollständige HuggingFace Repository Links

Alle Repositories werden von llmfan46 auf HuggingFace gepflegt. Nachfolgend die vollständige, verifizierte Liste für den Gemma 4 31B QAT Uncensored Heretic in allen fünf Distributionsformaten:

🔗 Offizielle Repositories — Gemma 4 31B Uncensored Heretic

Safetensors (Unquantized QAT):
https://huggingface.co/llmfan46/gemma-4-31B-it-qat-q4_0-unquantized-uncensored-heretic
GGUF (q4_0 quantisiert):
https://huggingface.co/llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-GGUF
NVFP4 Safetensors:
https://huggingface.co/llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-NVFP4
NVFP4 GGUF:
https://huggingface.co/llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-NVFP4-GGUF
GPTQ-Int4:
https://huggingface.co/llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-GPTQ-Int4

Hinweis: Die Varianten 12B, 12B QAT und 26B-A4B QAT sind ebenfalls auf llmfan46s HuggingFace-Profil unter ähnlichen Namenskonventionen verfügbar. Überprüfen Sie das Profil für den vollständigen Katalog.

6. Direkter Vergleich: Alle vier Gemma 4 Varianten

Merkmal	12B Basis QAT	12B QAT Feinabgestimmt	26B-A4B QAT	31B QAT Unzensiert
Architektur	Dicht	Dicht	MoE (26B gesamt / 4B aktiv)	Dicht
Gesamtparameter	12B	12B	26B	31B
Aktiv/Token	12B	12B	~4B	31B
Quantisierung	QAT + q4_0 bereit	Erweitertes QAT + q4_0	QAT + q4_0 bereit	QAT + q4_0 bereit
Sicherheitsausrichtung	Vollständig (Gemma Standard)	Vollständig (Gemma Standard)	Vollständig (Gemma Standard)	Entfernt (Unzensiert)
Speicher ~4-Bit	~7 GB	~7 GB	~15 GB (gesamt) / ~3 GB aktiv	~17 GB
Am besten für	Sichere Produktion	Edge / Consumer-GPU	Latenzarmes Serving	Forschung, kreativ, uneingeschränkte Nutzung

7. Bereitstellung und Ausführung dieser Modelle

7.1 Laden der Safetensors-Version mit Transformers

# Abhängigkeiten installieren
pip install transformers accelerate safetensors

# Das unquantisierte QAT-Modell laden
from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "llmfan46/gemma-4-31B-it-qat-q4_0-unquantized-uncensored-heretic"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype="auto",
    device_map="auto"
)

# Inferenz
inputs = tokenizer("Erklären Sie das Konzept von QAT in LLMs:", return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

7.2 Ausführen der GGUF-Version mit llama.cpp

# llama.cpp klonen und erstellen
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && make -j

# Beliebige .gguf-Datei aus dem GGUF-Repo herunterladen
# Beispiel: gemma-4-31b-it-qat-q4_0-uncensored-heretic.Q4_0.gguf

# Inferenz ausführen
./main -m gemma-4-31b-it-qat-q4_0-uncensored-heretic.Q4_0.gguf \
       -p "Schreiben Sie ein Gedicht über künstliche Intelligenz:" \
       -n 256 \
       -t 8

7.3 GPTQ-Int4 mit vLLM für Hochdurchsatz-Serving

# vLLM installieren
pip install vllm

# Die GPTQ-Int4-Variante bereitstellen
python -m vllm.entrypoints.openai.api_server \
    --model llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-GPTQ-Int4 \
    --quantization gptq \
    --dtype auto \
    --max-model-len 8192

7.4 NVFP4 auf NVIDIA Blackwell-Hardware

Für Benutzer mit Zugang zu Blackwell-GPUs (B200/B100) erschließt das NVFP4-Format die native 4-Bit-Gleitkomma-Tensor-Core-Beschleunigung. Die NVFP4 Safetensors-Dateien können mit einem benutzerdefinierten transformers-Zweig geladen werden, der das Format unterstützt, während die NVFP4 GGUF-Dateien mit einem speziell kompilierten llama.cpp-Build mit aktivierten NVFP4-Kernels funktionieren. Überprüfen Sie die jeweiligen HuggingFace-Repositories für die neuesten Ladeanweisungen.

8. Risiken, Ethik und das “Unzensiert”-Label

Der Gemma 4 31B QAT Uncensored Heretic wirft wichtige ethische Fragen auf, die jeder Anwender vor dem Einsatz berücksichtigen sollte:

8.1 Was “Unzensiert” tatsächlich bedeutet

Im Kontext dieses Releases bedeutet “unzensiert”, dass der Verweigerungsmechanismus des Modells — der interne Klassifikator, der potenziell schädliche Anfragen erkennt und eine Verweigerungsantwort auslöst — neutralisiert oder entfernt wurde. Das Modell wird versuchen, jeder Aufforderung nachzukommen, einschließlich solcher mit:

Generierung von gewalttätigen, hasserfüllten oder belästigenden Inhalten
Anleitungen für illegale Aktivitäten
Produktion von Malware, Exploits oder waffentechnischen Informationen
Sexuell expliziten oder nicht einvernehmlichen Inhalten
Desinformations- und Fehlinformationskampagnen

8.2 Legitime Anwendungsfälle

Trotz der Risiken haben unzensierte Modelle legitime Anwendungen in Forschung, Red-Teaming, kreativem Schreiben und Tests zur adversariellen Robustheit. Sicherheitsforscher verwenden sie, um Jailbreaking-Techniken zu studieren und bessere Verteidigungsmechanismen zu entwickeln. Autoren nutzen sie für ungefilterte kreative Erkundungen, bei denen Standardmodelle Inhalte fälschlicherweise kennzeichnen könnten. Der Schlüssel ist der verantwortungsvolle Einsatz mit angemessenen Sicherheitsvorkehrungen.

8.3 Minderungsstrategien

Input- und Output-Filterung: Setzen Sie eine Inhaltsmoderationsschicht (z. B. Llama Guard, Perspective API) um das Modell herum ein.
Zugriffskontrolle: Beschränken Sie den Modellzugriff nur auf authentifizierte und autorisierte Benutzer.
Protokollierung und Überwachung: Führen Sie umfassende Protokolle aller Prompts und Vervollständigungen zu Prüfzwecken.
Sandbox-Bereitstellung: Führen Sie das Modell in einer isolierten Umgebung ohne Internetzugang oder Systemprivilegien aus.

⚠ Wichtig: Dieser Artikel dokumentiert die Existenz und technischen Spezifikationen dieser Modelle zu Informationszwecken. Der Autor befürwortet nicht die Verwendung unzensierter Modelle für schädliche, illegale oder unethische Zwecke. Halten Sie stets die geltenden Gesetze und Vorschriften in Ihrem Rechtsraum ein.

9. Häufig gestellte Fragen

F: Was ist der Unterschied zwischen den 12B- und 12B QAT-Varianten?

Die 12B QAT-Variante hat ein erweitertes quantisierungsbewusstes Training über den Basis-QAT-Checkpoint hinaus durchlaufen, was zu einer besseren Perplexitätserhaltung bei tatsächlicher Quantisierung auf 4-Bit führt. Wenn Sie vorhaben, mit 4-Bit-Präzision zu arbeiten, wählen Sie die 12B QAT-Variante für eine geringfügig bessere Qualität.

F: Kann ich den 31B Uncensored Heretic auf einer einzelnen Consumer-GPU ausführen?

In seiner 4-Bit GGUF- oder GPTQ-Int4-Form benötigt das 31B-Modell ungefähr 17 GB VRAM. Dies passt bequem auf eine RTX 4090 (24 GB) oder RTX 3090 (24 GB). Für Apple Silicon benötigen Sie einen Mac mit mindestens 32 GB vereinheitlichtem Speicher für eine angemessene Leistung.

F: Was bedeutet “q4_0” im Modellnamen?

q4_0 ist ein spezifisches 4-Bit-Quantisierungsschema, das in GGUF/llama.cpp verwendet wird. Es verwendet symmetrische Quantisierung pro Block mit einer Blockgröße von 32, was bedeutet, dass sich jeweils 32 Gewichte einen einzigen Skalierungsfaktor teilen. Es bietet ein gutes Gleichgewicht zwischen Kompressionsrate und Qualität für die meisten Anwendungsfälle.

F: Ist das 26B-A4B-Modell schneller als das 12B dichte Modell?

Für die Einzel-Token-Generierung ja — das 26B-A4B MoE-Modell aktiviert nur ~4B Parameter pro Token, was weniger ist als die 12B des dichten 12B-Modells. Der Gesamtspeicherbedarf ist jedoch höher (~15 GB vs. ~7 GB bei 4-Bit), da alle Experten geladen werden müssen. Der Durchsatz hängt von der Speicherbandbreite Ihrer Hardware ab.

F: Sind diese Modelle legal zu verwenden?

Die Basis-Gemma 4-Modelle werden unter Googles Gemma-Lizenz veröffentlicht, die kommerzielle und Forschungsnutzung mit bestimmten Einschränkungen erlaubt. Die von der Community modifizierten “unzensierter Ketzer”-Varianten existieren in einer Grauzone — sie sind abgeleitete Werke. Benutzer sollten die Gemma-Lizenzbedingungen und einen Rechtsbeistand für ihren spezifischen Anwendungsfall konsultieren.

F: Was ist NVFP4 und benötige ich es?

NVFP4 (NVIDIA 4-Bit Floating Point) ist ein neues Format, das für GPUs der Blackwell-Architektur optimiert ist. Wenn Sie keine B200- oder B100-GPU besitzen, sollten Sie stattdessen die Standard-GGUF- oder GPTQ-Int4-Formate verwenden. NVFP4 bietet einen besseren Dynamikbereich als INT4, erfordert jedoch spezifische Hardware-Unterstützung.

F: Wie überprüfe ich, ob die Modelldateien nicht manipuliert wurden?

HuggingFace-Repositories enthalten SHA256-Prüfsummen. Führen Sie nach dem Download sha256sum <Dateiname> aus und vergleichen Sie diese mit den im README oder der Modellkarte des Repositorys aufgeführten Prüfsummen. Bei GGUF-Dateien validiert llama.cpp beim Laden auch interne Prüfsummen.

10. Fazit: Welche Gemma 4 Variante ist die richtige für Sie?

Das Gemma 4 Vierfach-Release — mit 12B, 12B QAT, 26B-A4B QAT und 31B QAT Uncensored Heretic in den Formaten Safetensors, GGUF, NVFP4 und GPTQ-Int4 — stellt einen der umfassendsten Community-Modell-Drops der jüngeren Vergangenheit dar. Die Wahl der richtigen Variante hängt vollständig von Ihrem Anwendungsfall ab:

Wählen Sie 12B Basis QAT, wenn Sie ein sicheres, ausgerichtetes Modell für Produktionsanwendungen mit moderaten Rechenanforderungen benötigen.
Wählen Sie 12B QAT Feinabgestimmt, wenn Sie auf Edge-Geräten oder Consumer-GPUs einsetzen und die bestmögliche 4-Bit-Qualität wünschen.
Wählen Sie 26B-A4B QAT, wenn Sie eine latenzarme Inferenz mit der Wissensbreite eines größeren Modells benötigen — ideal für Chatbots und interaktive Anwendungen.
Wählen Sie 31B QAT Uncensored Heretic, wenn Sie Forscher, Red-Teamer oder Kreativprofi sind und ein uneingeschränktes Modell benötigen und angemessene Sicherheitsvorkehrungen implementiert haben.

Zur Formatauswahl:

Safetensors für maximale Flexibilität und weiteres Fine-Tuning
GGUF für CPU-Inferenz, Apple Silicon und datenschutzorientierte lokale Bereitstellung
GPTQ-Int4 für Hochdurchsatz-GPU-Serving mit vLLM
NVFP4, wenn Sie Blackwell-Hardware besitzen und modernste 4-Bit-Gleitkomma-Leistung wünschen

Die Community rund um diese Modelle ist aktiv und wächst. Wie bei allen sich schnell entwickelnden Open-Source-KI-Veröffentlichungen bleiben Sie über das llmfan46 HuggingFace-Profil und die breiteren Gemma-Community-Foren auf dem Laufenden. Die Konvergenz von QAT, MoE-Architekturen und zugänglichen Quantisierungsformaten verschiebt die Grenzen dessen, was mit lokal ausgeführten großen Sprachmodellen möglich ist — und das Gemma 4 Vierfach-Release ist ein Meilenstein auf dieser Reise.