12 GB VRAM erreicht 120 Tokens/s: Gemma 4 QAT katapultiert LLM-Inferenz auf die Consumer-Überholspur

📅 2026-06-07 🤖 大模型智能生成

12 GB VRAM liefern 120 Tokens pro Sekunde – Gemma 4 QAT bringt Großmodelle auf die Konsumenten-Überholspur

Über Nacht wird eine 12-GB-Grafikkarte zum KI-Kraftpaket

Vor wenigen Stunden hat Google nahezu unbemerkt quantisierungsbewusste Trainingsvarianten (QAT) der Gemma-4-Reihe veröffentlicht, und die 12B-Parameterversion hat sofort Begeisterung bei allen entfacht, die nur über kleine VRAM-Budgets verfügen. Ein Entwickler testete das Modell umgehend auf seiner eigenen GPU mit 12 GB Videospeicher – mit verblüffendem Ergebnis: Nach vollständigem Laden in den VRAM erreichte die Inferenz satte 120 Tokens pro Sekunde. Das ist kein Wert aus einem Cloud-Cluster, sondern eine echte Messung auf einer einzelnen Consumer-Grafikkarte.

QAT + MTP: Wie zwei raffinierte Verfahren jedes Quäntchen Bandbreite ausreizen

Die technische Kombination dieser Ankündigung ist ausgeklügt. QAT – quantisierungsbewusstes Training – bringt im Gegensatz zur herkömmlichen Post-Training-Quantisierung die niedrigpräzisen Repräsentationen bereits während der Trainingsphase in den Rechengraphen ein. Das Modell lernt so, auch unter niedriger Bittiefe wie int8 oder int4 eine hohe Ausgabequalität beizubehalten. MTP (Multi-Token Prediction) wiederum sagt in einem einzigen Vorwärtsdurchlauf mehrere Tokens voraus und steigert den Durchsatz erheblich. Der Entwickler setzte einen llama.cpp-basierten Inferenz-Stack ein, der speziell für Gemma 4 mit MTP-Patches erweitert wurde, und lud sowohl das von Unsloth veröffentlichte quantisierte Hauptmodell gemma-4-12B-it-qat-GGUF als auch den von Google bereitgestellten, unquantisierten Hilfs-Modell qat-q4_0, das für die spekulative Generierung dient. Auch dieses wurde ins GGUF-Format konvertiert und auf HuggingFace bereitgestellt. Das Zusammenspiel von Hauptmodell und kleinem Helfermodell nach dem Entwurfsprinzip erinnert an spekulative Dekodierung und hebt die Generierungseffizienz auf die nächste Stufe.

Was 120 tok/s bedeuten: Der qualitative Sprung von brauchbar zu flüssig

Mit 120 Tokens pro Sekunde liegt das Tempo um ein Vielfaches über der menschlichen Lesegeschwindigkeit. Für Echtzeitdialoge, Codevervollständigung, lokale Wissensdatenbank-Abfragen und ähnliche Szenarien erreicht man damit nahezu null Wartezeit. Wer bisher versuchte, ein ordentliches Modell mit mehr als 10 Milliarden Parametern in 12 GB VRAM zu betreiben, musste häufig Kompromisse bei 10 bis 20 tok/s oder sogar noch niedrigeren Raten hinnehmen und geriet zudem ständig an die Speichergrenzen. Die Gemma-4-QAT-Variante verwandelt dank der Kompressionseffizienz von QAT und der Durchsatzoptimierung durch MTP eine Grafikkarte vom Kaliber einer RTX 4070, 3080 oder A2000 direkt in einen persönlichen Inferenzserver. Damit werden die hohen Latenzen von Cloud-APIs weit hinter sich gelassen und gleichzeitig der Datenschutz gestärkt – ein erheblicher Vorteil sowohl für schlanke Unternehmens-Deployments als auch für private Bastler-Umgebungen.

Das quelloffene Ökosystem zieht rasch nach – auf HuggingFace bereits lauffähig

Bemerkenswert ist, dass die gesamte Pipeline ausschließlich auf Open-Source-Komponenten aufbaut: llama.cpp, das GGUF-Format, die Quantisierungsskripte von Unsloth sowie die von der Community konvertierten und hochgeladenen Modelldateien. Diese Offenheit bedeutet extrem niedrige Einstiegshürden: Jeder Entwickler mit einer 12-GB-GPU kann das beschriebene Geschwindigkeitsprofil innerhalb einer halben Stunde nachstellen. Dass Google bei Gemma 4 gleichermaßen auf QAT und MTP setzt, zeigt, dass man die starke Nachfrage der Open-Source-Gemeinschaft nach kompakten, schnellen Modellen erkannt hat – und neueste Inferenzbeschleunigungstechniken durch praktisches Handeln direkt auf die Geräte der Endnutzer bringt.

Entfacht das die nächste Welle lokaler Inferenz?

Die 120 tok/s sind kein isolierter Benchmark-Wert, sondern könnten die Erwartungen an „lokale große Sprachmodelle“ neu definieren. Wenn ein 12B-Modell auf einer Mittelklasse-Grafikkarte eine solche Geschwindigkeit erreicht und dank QAT eine beachtliche Generierungsqualität bewahrt, wird das alte Klischee durchbrochen, dass dafür zwingend riesiger VRAM oder die Cloud nötig ist. Für Entwickler vertikaler Anwendungen bedeutet das, dass sie die Gemma-4-QAT-Variante in IDE-Plugins, Terminal-Assistenten, Offline-Übersetzer und andere Produkte einbetten können – echte schlanke und private KI wird damit Realität. Mit zunehmend ausgereiften Quantisierungsformaten und MTP-Optimierungen dürfen wir künftig zudem auf spannende Ergebnisse selbst auf Geräten mit 8 GB oder noch weniger VRAM hoffen. Dies ist keine simple Modellveröffentlichung, sondern ein entscheidender Schritt, um hochdurchsatzfähige KI flächendeckend in die Alltagshardware zu bringen.