12 Go de VRAM pour 120 tok/s : Gemma 4 QAT lance l'inférence des grands modèles sur la voie rapide grand public

📅 2026-06-07 🤖 大模型智能生成

Un GPU de 12 Go délivre 120 tok/s : la version QAT de Gemma 4 propulse l’inférence des grands modèles sur les machines grand public

Du jour au lendemain, les cartes graphiques de 12 Go sont devenues les alliées idéales des grands modèles

Il y a quelques heures à peine, Google a discrètement publié une variante de la série Gemma 4 bénéficiant d’un entraînement sensible à la quantification (QAT), dont la version à 12 milliards de paramètres a immédiatement enthousiasmé les utilisateurs disposant de peu de mémoire vidéo. Un développeur a rapidement testé cette version sur son GPU doté de 12 Go de VRAM, et les résultats sont stupéfiants : une fois le modèle entièrement chargé en mémoire, la vitesse d’inférence a atteint 120 tokens par seconde. Il ne s’agit pas de chiffres issus d’un cluster cloud, mais bien d’une performance réelle tournant sur une seule carte graphique grand public.

QAT + MTP : comment cette double magie exploite chaque parcelle de bande passante

La combinaison technique évoquée dans cette annonce est particulièrement astucieuse. Le QAT, ou entraînement sensible à la quantification, se distingue de la quantification post-entraînement classique en intégrant dès la phase d’entraînement des représentations en basse précision dans le graphe de calcul, ce qui apprend au modèle à préserver une qualité de sortie élevée même dans des environnements à faible nombre de bits comme int8 ou int4. Quant au MTP (Multi-Token Prediction), il permet de prédire plusieurs tokens en une seule passe avant, ce qui améliore sensiblement le débit. Le développeur a utilisé une pile d’inférence basée sur llama.cpp, spécialement patchée pour Gemma 4 avec le support du MTP, tout en chargeant le modèle quantifié principal gemma-4-12B-it-qat-GGUF publié par Unsloth, ainsi qu’un modèle assistant non quantifié qat-q4_0 fourni par Google et spécialement destiné à la génération auxiliaire, lui aussi converti au format GGUF et téléversé sur HuggingFace. Cette association d’un modèle principal et d’un petit assistant pour les ébauches rappelle le principe du speculative decoding, ce qui accroît encore l’efficacité de la génération.

Ce que signifient 120 tok/s : un saut qualitatif de l’« utilisable » au « parfaitement fluide »

Une vitesse de 120 tokens par seconde dépasse déjà de plusieurs fois la vitesse de lecture humaine. Pour des cas d’usage comme la conversation en temps réel, la complétion de code ou l’interrogation de bases de connaissances locales, l’attente devient quasiment nulle. Auparavant, faire tenir un modèle correct de plus de 10 milliards de paramètres dans 12 Go de VRAM obligeait souvent à accepter des vitesses compromises de 10 à 20 tok/s, voire moins, avec des risques fréquents de dépassement de la mémoire. Aujourd’hui, grâce à l’efficacité de compression du QAT et à l’optimisation du débit apportée par le MTP, la version QAT de Gemma 4 transforme une carte graphique de type RTX 4070, 3080 ou A2000 en un véritable serveur d’inférence personnel. Cela laisse loin derrière les latences des API cloud tout en protégeant la confidentialité des données, ce qui constitue un atout majeur pour le déploiement léger en entreprise comme pour l’environnement personnel des passionnés.

L’écosystème open source suit à vive allure : ça tourne déjà sur HuggingFace

Il est intéressant de noter que l’ensemble de la chaîne ne fait appel qu’à des composants open source : llama.cpp, le format GGUF, les scripts de quantification d’Unsloth, ainsi que les fichiers de modèles rapidement convertis et mis en ligne par la communauté. Ce degré d’ouverture signifie une barrière d’entrée extrêmement basse : tout développeur disposant de 12 Go de VRAM peut reproduire cette courbe de vitesse en moins d’une demi-heure. En misant à la fois sur le QAT et le MTP avec Gemma 4, Google a visiblement pris la mesure de l’appétit de la communauté open source pour des modèles compacts et très rapides, et joint le geste à la parole en apportant les techniques d’accélération d’inférence les plus avancées directement sur les appareils grand public.

Cela va-t-il déclencher une nouvelle vague d’inférence locale ?

Le score de 120 tok/s n’est pas un simple chiffre de benchmark isolé : il pourrait redéfinir ce que l’on attend d’un « grand modèle local ». Lorsqu’un modèle de 12 milliards de paramètres atteint une telle vitesse sur une carte graphique de milieu de gamme tout en conservant une qualité de génération remarquable grâce au QAT, l’idée reçue selon laquelle il faut une mémoire vidéo énorme ou recourir au cloud vole en éclats. Pour les développeurs d’applications verticales, cela signifie qu’ils peuvent intégrer cette version QAT de Gemma 4 dans des extensions d’IDE, des assistants en terminal, des traducteurs hors ligne ou d’autres produits, rendant ainsi possible une privatisation légère complète. Par la suite, avec la maturation d’autres formats de quantification et l’optimisation du MTP, on peut raisonnablement s’attendre à des performances sur des appareils dotés de seulement 8 Go, voire moins. Ce n’est pas une simple sortie de modèle, mais une étape décisive pour démocratiser l’intelligence à haut débit.