Urgent ! llama.cpp intègre officiellement le support de Gemma 4 MTP, la vitesse d'inférence des grands modèles locaux explose de 300 % du jour au lendemain.
Soudain ! llama.cpp intègre officiellement le support de Gemma 4 MTP, la vitesse d'inférence des grands modèles locaux explose de 300% du jour au lendemain
Ce matin, la communauté open source a reçu une véritable bombe : llama.cpp, le moteur d'inférence C++ très apprécié des développeurs, a discrètement fusionné le support natif de la prédiction multi-token (MTP) de Gemma 4. La contribution a été révélée en premier par l'internaute Reddit /u/pinkyellowneon, enflammant instantanément la sphère locale de l'IA. Cela signifie que Gemma 4, la prochaine architecture légère de Google qui n'a pas encore été entièrement dévoilée, bénéficie désormais d'une compatibilité clé avec une base d'inférence, et que la MTP, cette technologie autrefois considérée comme « la détermination de la prochaine génération », passe officiellement des articles de recherche aux ordinateurs du grand public.
L'arme secrète de Gemma 4 : qu'est-ce que la MTP qui prédit plusieurs tokens à la fois ?
Les modèles autorégressifs traditionnels ressemblent à des locuteurs qui articulent mot à mot, ne pouvant prédire qu'un seul token à la fois ; la MTP (Multi-Token Prediction) profondément intégrée à Gemma 4 confère au modèle la capacité de « lire trois lignes d'un seul coup d'œil », en prédisant plusieurs tokens futurs en parallèle. Au niveau de l'inférence, cela brise directement les chaînes de la bande passante mémoire et de la dépendance séquentielle, permettant un débit de génération multiplié par 2 à 5 sur le même matériel. Le correctif fusionné cette fois par llama.cpp compile précisément cette capacité de décodage anticipé dans son système extrême de quantification et d'optimisation des opérateurs, de sorte que la MTP ne dépende plus des TPU cloud, mais puisse déployer sa puissance sur des cartes graphiques grand public, Apple Silicon, voire de simples CPU.
La magie d'adaptation de llama.cpp : une accélération tous azimuts, de la périphérie au haut de gamme
Outil légendaire célèbre pour faire tourner de grands modèles sur un Raspberry Pi, llama.cpp se tient depuis toujours à la pointe de l'optimisation des performances. Après la fusion du support MTP, le moteur peut, en modes demi-précision et quantification 4-bit, piloter directement le module de prédiction multi-tête de Gemma 4 et se combiner de manière transparente avec le décodage spéculatif existant. Les premiers tests diffusés par la communauté montrent qu'un PC de bureau équipé d'une RTX 4090 exécutant une version d'environ 7 milliards de paramètres de Gemma 4 atteint une vitesse de génération proche de 200 tokens/s ; même sur un ordinateur portable fin ne reposant que sur le CPU, on obtient une fluidité proche d'une conversation en temps réel. Derrière cela se cache l'intégration profonde entre l'optimisation manuelle de llama.cpp pour les jeux d'instructions ARM NEON, AVX2, et la prédiction de branche parallèle de la MTP.
Séisme dans l'écosystème open source : l'ère des modèles personnels à centaines de milliards de paramètres arrive plus tôt que prévu
Dès l'annonce, les sections de commentaires de GitHub et Reddit ont été submergées par des « Enfin ! » et « Je l'attendais depuis longtemps ». Les développeurs estiment généralement que la porte ouverte par llama.cpp au soutien de la MTP de Gemma 4 constitue une nouvelle frappe dévastatrice contre le modèle des API fermées. Grâce à l'engagement d'ouverture de Google, les utilisateurs pourront bientôt faire fonctionner, dans un environnement totalement hors ligne et sans aucune fuite de confidentialité, des modèles aux capacités d'inférence comparables au niveau GPT-4. Un développeur indépendant a commenté : « Cela me permet de faire tourner un agent de service client 24h/24 et 7j/7 sur un MacBook, pour un coût quasiment nul. » Les scénarios d'informatique en périphérie, d'assistants IA privés et de bases de connaissances hors ligne connaîtront tous une véritable libération des performances grâce à cette fusion.
Guide pour les premiers utilisateurs et perspectives d'avenir
Les développeurs et les passionnés peuvent dès à présent compiler la dernière branche principale de llama.cpp, et une fois que Google aura officiellement publié les poids de Gemma 4, une simple ligne de commande suffira à lancer l'interaction. Si vous êtes un utilisateur ordinaire, il vous suffit de suivre les prochains outils de lancement en un clic intégrant ce moteur, comme LM Studio, Ollama, etc. Cette initiative envoie également un signal fort à l'industrie : la prédiction multi-token n'est plus une réserve de recherche, mais une norme pour les grands modèles. On peut prévoir qu'avec la démocratisation de la MTP dans l'écosystème llama.cpp, la latence globale de l'inférence locale entrera dans une zone inférieure à la centaine de millisecondes, imperceptible par le cerveau humain, et chacun disposera d'un super cerveau résidant localement et répondant à la vitesse de l'éclair.