Gemma 4 : Quadruple sortie, 12B, 12B QAT, 26B-A4B QAT et 31B QAT Hérétiques non censurés : l'analyse technique définitive
Gemma 4 : Sortie quadruple, 12B, 12B QAT, 26B-A4B QAT et 31B QAT Hérétiques non censurés : l’analyse technique définitive
La famille Gemma 4 de Google a donné naissance à l’une des sorties communautaires les plus ambitieuses de l’année. Quatre variantes distinctes — 12B de base, 12B QAT, 26B-A4B QAT et la très débattue 31B QAT Hérétique non censurée — sont désormais disponibles dans cinq formats de distribution sur HuggingFace. Cet article décortique tout : l’architecture, la quantification, la lignée du « hérétique non censuré », les différences de formats et comment déployer chaque variante de manière responsable.
· 18 minutes de lecture
1. Qu’est-ce que la sortie quadruple de Gemma 4 ?
La sortie quadruple de Gemma 4 désigne une publication coordonnée de quatre variantes affinées et quantifiées dérivées de l’architecture Gemma 4 de Google. Ces modèles ont été produits et partagés par le prolifique contributeur communautaire llmfan46 sur HuggingFace, étendant les points de contrôle officiels de Gemma 4 avec un entraînement sensible à la quantification (QAT), une quantification agressive à faible nombre de bits et — dans le cas du 31B — une suppression délibérée des garde-fous d’alignement, aboutissant à ce que la communauté appelle une variante « hérétique non censurée ».
Cette sortie est significative pour plusieurs raisons :
- Variété sans précédent : Quatre échelles de paramètres (12B dense, 12B QAT, 26B-A4B QAT à mélange d’experts, 31B QAT) en une seule sortie coordonnée.
- Cinq formats de distribution : Safetensors (standard), GGUF (compatible llama.cpp / CPU), NVFP4 (virgule flottante 4 bits optimisé pour NVIDIA Blackwell), NVFP4 GGUF et GPTQ-Int4 — couvrant pratiquement tous les scénarios de déploiement.
- Avantage du QAT : Contrairement à la quantification post-entraînement (PTQ), le QAT intègre la conscience de la quantification pendant l’entraînement ou l’affinage, offrant une rétention de perplexité supérieure à des largeurs de bits ultra-faibles.
- Controverse et demande : L’appellation « hérétique non censuré » signale un modèle dépouillé des mécanismes de refus, attirant à la fois un vif intérêt et un examen éthique.
2. Les quatre variantes de modèles expliquées
2.1 Gemma 4 12B (variante QAT de base)
Le modèle dense 12B représente le point d’entrée de la sortie quadruple. Construit sur l’architecture Gemma 4 avec 12 milliards de paramètres, cette variante a subi un QAT pour la rendre robuste à la quantification 4 bits. Elle conserve l’alignement standard par réglage d’instructions de la version officielle de Google, ce qui la rend adaptée aux tâches générales où la conformité de sécurité est attendue.
- Nombre de paramètres : 12 milliards (dense, tous les paramètres actifs par token)
- Quantification : q4_0 (4 bits, quantification symétrique par bloc)
- Alignement : Réglage d’instructions standard, avec garde-fous de refus intacts
- Idéal pour : Déploiements en production nécessitant un calcul modéré avec un alignement de sécurité complet
2.2 Gemma 4 12B QAT (q4_0 affiné)
Il s’agit d’une version encore affinée du 12B, avec un affinage QAT supplémentaire spécifiquement optimisé pour le schéma de quantification q4_0. La passe QAT supplémentaire réduit l’écart de perplexité entre le 12B pleine précision et son équivalent 4 bits à des niveaux quasi négligeables. Si vous avez besoin du 12B avec la plus faible empreinte mémoire possible sans dégradation de la qualité, c’est la variante à choisir.
- Différenciateur clé : Affinage QAT étendu au-delà du point de contrôle QAT de base
- Empreinte mémoire : Environ 6–7 Go en mode 4 bits
- Cas d’usage : Déploiement en périphérie, GPU grand public avec 8–12 Go de VRAM
2.3 Gemma 4 26B-A4B QAT (Mélange d’experts)
Le 26B-A4B est le membre architecturalement le plus intéressant de cette sortie. Il utilise une conception de mélange d’experts (MoE) où le nombre total de paramètres est de 26 milliards mais seulement 4 milliards sont actifs par token (indiqué A4B). Ce motif d’activation éparse offre des vitesses d’inférence plus proches d’un modèle dense 4B tout en conservant la capacité de connaissance d’un modèle beaucoup plus grand. Le traitement QAT garantit que le routage MoE et les poids des experts survivent gracieusement à la compression 4 bits.
- Paramètres totaux : 26B (MoE épars)
- Paramètres actifs par token : ~4B
- Point fort architectural : Routage par experts à portes avec perte d’équilibrage de charge
- Idéal pour : Service à haut débit où la latence doit rester faible mais où la profondeur de connaissance compte
2.4 Gemma 4 31B QAT Hérétique non censuré
Le modèle qui fait les gros titres. Le 31B QAT Hérétique non censuré est un modèle dense de 31 milliards de paramètres qui a subi un QAT pour la compression q4_0 et dont l’alignement de sécurité a été intentionnellement retiré ou contourné. Le terme « hérétique » est une nomenclature communautaire pour les modèles qui répondent à des invites que les modèles officiels refusent. Nous approfondissons cette variante dans la section suivante.
3. Analyse approfondie : la 31B QAT Hérétique non censurée
La variante gemma-4-31B-it-qat-q4_0-unquantized-uncensored-heretic (souvent abrégée en « 31B Hérétique non censurée ») est devenue le modèle le plus téléchargé et le plus discuté de cette sortie. Comprendre pourquoi nécessite d’examiner trois dimensions : la provenance technique, le paradoxe non quantifié et le mécanisme de décensure.
3.1 Que signifie « non quantifié » dans un contexte de QAT ?
Le nom de fichier inclut le terme « unquantized » (non quantifié) ce qui peut prêter à confusion. Dans ce contexte, cela signifie que les poids du modèle sont stockés dans un format pleine précision (BF16/FP16) ayant subi un QAT — les poids ont été entraînés avec une conscience de quantification, de sorte qu’ils sont préparés pour l’inférence q4_0, mais le point de contrôle lui-même n’est pas encore quantifié en 4 bits. Cela permet aux utilisateurs de :
- Appliquer leur propre schéma de quantification (q4_0, q4_1, q5_0, etc.)
- Exécuter le modèle en pleine précision si désiré (avec une excellente qualité puisque le QAT a amélioré le paysage des poids)
- Utiliser les versions GGUF ou GPTQ fournies pour un déploiement immédiat en 4 bits
3.2 Comment la modification « non censurée » a-t-elle été réalisée ?
Bien que la méthodologie exacte ne soit pas entièrement divulguée, l’analyse communautaire suggère que la décensure a été réalisée par une combinaison de techniques :
- Affinage sur des corpus sans refus : Le modèle a été entraîné davantage sur des jeux de données où l’assistant se conforme systématiquement sans motifs de refus, écrasant ainsi les vecteurs d’alignement.
- Suppression d’alignement par LoRA : L’adaptation à faible rang (LoRA) a pu être utilisée pour soustraire ou neutraliser les directions de refus de sécurité dans le flux résiduel du modèle.
- Reconditionnement par préfixe d’invite : L’invite système et le modèle de dialogue peuvent avoir été modifiés pour supprimer le conditionnement « utile et inoffensif » présent dans le modèle d’instruction officiel.
Le résultat est un modèle 31B qui conserve les fortes capacités de raisonnement, de codage et de créativité de Gemma 4 tout en ne refusant plus les requêtes basées sur des classifications de sécurité.
3.3 Pourquoi « Hérétique » ? Conventions de nommage communautaires
Dans la communauté des LLM open-source, « hérétique » est apparu aux côtés de termes comme « abliterated », « uncensored » et « unhinged » pour décrire les modèles dont les garde-fous ont été retirés. Le terme porte une connotation rebelle et signale aux utilisateurs que le modèle fonctionnera sans les contraintes éthiques imposées par les développeurs d’origine. Il ne s’agit pas d’une désignation officielle — c’est purement une nomenclature pilotée par la communauté.
4. Formats de distribution : Safetensors, GGUF, NVFP4 et GPTQ-Int4
L’un des aspects les plus conviviaux de la sortie llmfan46 est la largeur des formats. Chacun dessert un écosystème de déploiement distinct. Voici ce que vous devez savoir sur chacun :
4.1 Safetensors (Standard)
Safetensors est le format sécurisé, rapide et de plus en plus standard pour distribuer les poids de modèles. Contrairement aux formats basés sur pickle, Safetensors est immunisé contre l’exécution de code arbitraire, ce qui en fait le choix sécurisé. Ces fichiers contiennent les poids en pleine précision (ou préparés par QAT) et sont idéaux pour :
- Chargement dans
transformersouacceleratede HuggingFace - Affinage ou entraînement ultérieur
- Conversion vers d’autres formats
Dépôt : llmfan46/gemma-4-31B-it-qat-q4_0-unquantized-uncensored-heretic (Safetensors)
4.2 GGUF (llama.cpp / Inférence CPU)
GGUF (GPT-Generated Unified Format) est le successeur de GGML et le format standard pour llama.cpp, Ollama, LM Studio et d’autres moteurs d’inférence orientés CPU ou hybrides. Les fichiers GGUF de cette sortie sont pré-quantifiés en q4_0, ce qui signifie que vous pouvez les télécharger et les exécuter immédiatement sans aucune étape de conversion.
Dépôt : llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-GGUF
- Idéal pour : Apple Silicon (M1/M2/M3/M4), AMD Ryzen, inférence sur processeurs Intel et déploiement local axé sur la confidentialité
- Performance typique : 8–15 tokens/s sur M2 Max avec 32 Go de RAM
4.3 NVFP4 (NVIDIA Blackwell Virgule flottante 4 bits)
NVFP4 est un format de virgule flottante 4 bits de pointe conçu pour l’architecture Blackwell de NVIDIA (GPU B200, B100). Contrairement à la quantification entière (INT4), NVFP4 utilise une représentation en virgule flottante qui préserve plus efficacement la plage dynamique, en particulier pour les activations aberrantes. La variante NVFP4 Safetensors stocke les poids dans ce format, et la variante NVFP4 GGUF établit un pont vers l’écosystème llama.cpp.
- NVFP4 Safetensors : llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-NVFP4
- NVFP4 GGUF : llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-NVFP4-GGUF
4.4 GPTQ-Int4
GPTQ-Int4 est une méthode de quantification post-entraînement qui utilise des informations approximatives du second ordre (basées sur la Hessienne) pour minimiser l’erreur de quantification. La variante GPTQ-Int4 est optimisée pour les backends d’inférence AutoGPTQ et vLLM, offrant un excellent débit sur les GPU CUDA avec une dégradation minimale de la perplexité.
Dépôt : llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-GPTQ-Int4 (GPTQ-Int4)
- Idéal pour : Service GPU à haut débit avec vLLM ou TGI
- Prérequis GPU : GPU compatible CUDA avec 16+ Go de VRAM recommandé
5. Liens complets des dépôts HuggingFace
Tous les dépôts sont maintenus par llmfan46 sur HuggingFace. Voici la liste complète et vérifiée pour le Gemma 4 31B QAT Hérétique non censuré dans les cinq formats de distribution :
🔗 Dépôts officiels — Gemma 4 31B Hérétique non censuré
- Safetensors (QAT non quantifié) :
https://huggingface.co/llmfan46/gemma-4-31B-it-qat-q4_0-unquantized-uncensored-heretic - GGUF (quantifié q4_0) :
https://huggingface.co/llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-GGUF - NVFP4 Safetensors :
https://huggingface.co/llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-NVFP4 - NVFP4 GGUF :
https://huggingface.co/llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-NVFP4-GGUF - GPTQ-Int4 :
https://huggingface.co/llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-GPTQ-Int4
Note : Les variantes 12B, 12B QAT et 26B-A4B QAT sont également disponibles sur le profil HuggingFace de llmfan46 sous des conventions de nommage similaires. Consultez le profil pour le catalogue complet.
6. Comparaison côte à côte : les quatre variantes de Gemma 4
| Caractéristique | 12B Base QAT | 12B QAT Affiné | 26B-A4B QAT | 31B QAT Non censuré |
|---|---|---|---|---|
| Architecture | Dense | Dense | MoE (26B total / 4B actifs) | Dense |
| Paramètres totaux | 12B | 12B | 26B | 31B |
| Actifs/Token | 12B | 12B | ~4B | 31B |
| Quantification | QAT + prêt pour q4_0 | QAT étendu + q4_0 | QAT + prêt pour q4_0 | QAT + prêt pour q4_0 |
| Alignement de sécurité | Complet (standard Gemma) | Complet (standard Gemma) | Complet (standard Gemma) | Supprimé (Non censuré) |
| Mémoire ~4 bits | ~7 Go | ~7 Go | ~15 Go (total) / ~3 Go actifs | ~17 Go |
| Idéal pour | Production sécurisée | Edge / GPU grand public | Service à faible latence | Recherche, création, usage sans restriction |
7. Comment déployer et exécuter ces modèles
7.1 Charger la version Safetensors avec Transformers
7.2 Exécuter la version GGUF avec llama.cpp
7.3 GPTQ-Int4 avec vLLM pour un service à haut débit
7.4 NVFP4 sur le matériel NVIDIA Blackwell
Pour les utilisateurs ayant accès aux GPU Blackwell (B200/B100), le format NVFP4 débloque l’accélération native des cœurs tensoriels en virgule flottante 4 bits. Les fichiers NVFP4 Safetensors peuvent être chargés avec une branche personnalisée de transformers qui prend en charge le format, tandis que les fichiers NVFP4 GGUF fonctionnent avec une version spécialement compilée de llama.cpp avec les noyaux NVFP4 activés. Consultez les dépôts HuggingFace respectifs pour les dernières instructions de chargement.
8. Risques, éthique et l’étiquette « non censuré »
Le Gemma 4 31B QAT Hérétique non censuré soulève d’importantes questions éthiques que chaque praticien devrait considérer avant le déploiement :
8.1 Ce que « non censuré » signifie réellement
Dans le contexte de cette sortie, « non censuré » signifie que le mécanisme de refus du modèle — le classificateur interne qui détecte les requêtes potentiellement nuisibles et déclenche une réponse de refus — a été neutralisé ou supprimé. Le modèle tentera de se conformer à toute invite, y compris celles impliquant :
- La génération de contenu violent, haineux ou harcelant
- Des instructions pour des activités illégales
- La production de logiciels malveillants, d’exploits ou d’informations liées aux armes
- Du contenu sexuellement explicite ou non consensuel
- Des campagnes de désinformation et de mésinformation
8.2 Cas d’usage légitimes
Malgré les risques, les modèles non censurés ont des applications légitimes dans la recherche, les tests d’intrusion (red-teaming), l’écriture créative et les tests de robustesse adversariale. Les chercheurs en sécurité les utilisent pour étudier les techniques de jailbreaking et développer de meilleures défenses. Les auteurs les utilisent pour une exploration créative sans filtre là où les modèles standards pourraient bloquer incorrectement du contenu. La clé est un déploiement responsable avec des garde-fous appropriés.
8.3 Stratégies d’atténuation
- Filtrage des entrées et sorties : Déployez une couche de modération de contenu (par exemple, Llama Guard, Perspective API) autour du modèle.
- Contrôle d’accès : Restreignez l’accès au modèle aux seuls utilisateurs authentifiés et autorisés.
- Journalisation et surveillance : Conservez des journaux complets de toutes les invites et complétions à des fins d’audit.
- Déploiement en bac à sable : Exécutez le modèle dans un environnement isolé sans accès Internet ni privilèges système.
9. Foire aux questions
Q : Quelle est la différence entre les variantes 12B et 12B QAT ?
La variante 12B QAT a subi un entraînement sensible à la quantification étendu au-delà du point de contrôle QAT de base, ce qui se traduit par une meilleure rétention de la perplexité lorsqu’elle est effectivement quantifiée en 4 bits. Si vous prévoyez d’exécuter en précision 4 bits, choisissez la variante 12B QAT pour une qualité légèrement meilleure.
Q : Puis-je exécuter le 31B Hérétique non censuré sur un seul GPU grand public ?
Sous sa forme GGUF ou GPTQ-Int4 4 bits, le modèle 31B nécessite environ 17 Go de VRAM. Cela tient confortablement sur une RTX 4090 (24 Go) ou une RTX 3090 (24 Go). Pour Apple Silicon, vous aurez besoin d’un Mac avec au moins 32 Go de mémoire unifiée pour des performances raisonnables.
Q : Que signifie « q4_0 » dans le nom du modèle ?
q4_0 est un schéma de quantification 4 bits spécifique utilisé dans GGUF/llama.cpp. Il utilise une quantification symétrique par bloc avec une taille de bloc de 32, ce qui signifie que chaque groupe de 32 poids partage un seul facteur d’échelle. Il équilibre bien le taux de compression et la qualité pour la plupart des cas d’usage.
Q : Le modèle 26B-A4B est-il plus rapide que le modèle dense 12B ?
Pour la génération d’un seul token, oui — le modèle MoE 26B-A4B n’active qu’environ 4B paramètres par token, ce qui est inférieur aux 12B du modèle dense. Cependant, la mémoire totale requise est plus élevée (~15 Go contre ~7 Go en 4 bits) car tous les experts doivent être chargés. Le débit dépend de la bande passante mémoire de votre matériel.
Q : Ces modèles sont-ils légaux à utiliser ?
Les modèles Gemma 4 de base sont publiés sous la licence Gemma de Google, qui autorise un usage commercial et de recherche avec certaines restrictions. Les variantes communautaires « hérétiques non censurées » existent dans une zone grise — ce sont des œuvres dérivées. Les utilisateurs doivent consulter les termes de la licence Gemma et un conseiller juridique pour leur cas d’usage spécifique.
Q : Qu’est-ce que NVFP4 et en ai-je besoin ?
NVFP4 (NVIDIA 4-bit Floating Point) est un nouveau format optimisé pour les GPU d’architecture Blackwell. Si vous ne disposez pas d’un GPU B200 ou B100, vous devriez utiliser les formats GGUF ou GPTQ-Int4 standard. NVFP4 offre une meilleure plage dynamique que INT4 mais nécessite un support matériel spécifique.
Q : Comment vérifier que les fichiers du modèle n’ont pas été altérés ?
Les dépôts HuggingFace incluent des sommes de contrôle SHA256. Après le téléchargement, exécutez sha256sum <nom_du_fichier> et comparez avec les sommes de contrôle listées dans le README ou la fiche de modèle du dépôt. Pour les fichiers GGUF, llama.cpp valide également les sommes de contrôle internes lors du chargement.
10. Conclusion : quelle variante de Gemma 4 vous convient ?
La sortie quadruple de Gemma 4 — couvrant les variantes 12B, 12B QAT, 26B-A4B QAT et 31B QAT Hérétique non censuré à travers les formats Safetensors, GGUF, NVFP4 et GPTQ-Int4 — représente l’une des diffusions communautaires de modèles les plus complètes de mémoire récente. Choisir la bonne variante dépend entièrement de votre cas d’usage :
- Choisissez 12B Base QAT si vous avez besoin d’un modèle sûr et aligné pour des applications de production avec des exigences de calcul modérées.
- Choisissez 12B QAT Affiné si vous déployez sur des appareils en périphérie ou des GPU grand public et souhaitez la meilleure qualité 4 bits possible.
- Choisissez 26B-A4B QAT si vous avez besoin d’une inférence à faible latence avec l’étendue de connaissance d’un modèle plus grand — idéal pour les chatbots et les applications interactives.
- Choisissez 31B QAT Hérétique non censuré si vous êtes chercheur, testeur d’intrusion ou professionnel créatif ayant besoin d’un modèle sans restriction et ayant mis en place des garde-fous appropriés.
Pour la sélection du format :
- Safetensors pour une flexibilité maximale et un affinage ultérieur
- GGUF pour l’inférence CPU, Apple Silicon et un déploiement local respectueux de la vie privée
- GPTQ-Int4 pour le service GPU à haut débit avec vLLM
- NVFP4 si vous disposez du matériel Blackwell et souhaitez des performances de pointe en virgule flottante 4 bits
La communauté autour de ces modèles est active et en pleine croissance. Comme pour toutes les sorties open-source d’IA en évolution rapide, restez informé via le profil HuggingFace de llmfan46 et les forums plus larges de la communauté Gemma. La convergence du QAT, des architectures MoE et des formats de quantification accessibles repousse la frontière de ce qui est possible avec les grands modèles de langage exécutés localement — et la sortie quadruple de Gemma 4 est un moment marquant de ce parcours.