Quels modèles faites-vous tourner avec 8 Go, 16 Go, 24 Go, 32 Go, 48 Go de VRAM ? — Le guide complet des stacks IA locales
Quels modèles utilisez-vous avec 8 Go ? 16 Go de VRAM ? 24 Go ? 32 Go ? 48 Go ? — Le guide complet des stacks IA locales
Le paysage de l'IA locale évolue à une vitesse fulgurante. Un mois, un modèle domine tous les classements ; le suivant, une nouvelle technique de quantification ou un nouveau moteur d'inférence redéfinit ce qui est possible sur du matériel grand public. Cet article est un instantané vivant, agrégeant les expériences réelles de la communauté sur les modèles que les gens exécutent réellement à chaque niveau de VRAM — des cartes économiques de 8 Go jusqu'aux bêtes de somme de 48 Go pour stations de travail. Nous couvrons les choix de modèles, les configurations de cache KV, les compromis de longueur de contexte, les performances en tokens par seconde, le matériel sous-jacent et les divers cas d'usage qui motivent ces configurations. Que vous construisiez un assistant de codage respectueux de la vie privée, un pipeline d'analyse de recherche ou un compagnon de narration créative, ce guide vous aidera à affiner votre stack en toute confiance.
📋 Dans ce guide
- Niveau 8 Go de VRAM — Le point idéal d'efficacité
- Niveau 16 Go de VRAM — La puissance grand public
- Niveau 24 Go de VRAM — Le terrain de jeu des passionnés
- Niveau 32 Go de VRAM — Prosumer et pont multi-GPU
- Niveau 48 Go de VRAM — La classe station de travail
- Plongée approfondie dans le cache KV et la longueur de contexte
- Matrice de sélection de modèles adaptée au matériel
- Benchmarks de performances réels
- Pourquoi les gens utilisent-ils réellement ces modèles ?
- Foire aux questions
- Conclusion et sagesse communautaire
Niveau 8 Go de VRAM — Le point idéal d'efficacité
Huit gigaoctets de VRAM est le point d'entrée qui débloque encore une IA locale véritablement utile. Avec 8 Go, vous ne faites pas tourner des monstres de 70B non quantifiés, mais une vague de modèles hautement optimisés de 7B–13B paramètres en quantification 4-bit ou 5-bit (Q4_K_M, Q5_K_M) offre des résultats étonnamment performants. La communauté a convergé vers quelques modèles phares qui équilibrent intelligence, vitesse et empreinte mémoire.
Meilleurs choix de modèles pour 8 Go de VRAM
- Mistral-7B-Instruct (v0.3 / v0.4) — Q5_K_M — Le champion en titre pour le chat généraliste, le résumé et le codage léger sur du matériel contraint. Inférence rapide, excellente capacité à suivre les instructions.
- Llama-3-8B-Instruct — Q4_K_M — Le 8B de Meta offre une profondeur de raisonnement remarquable pour sa taille. Q4_K_M tient confortablement avec de la place pour une fenêtre de contexte de 4K–8K.
- Gemma-2-9B-Instruct — Q4_K_M ou IQ4_NL — Le 9B de Google surpasse sa catégorie, surtout pour le rappel factuel et la sortie structurée. La quantification IQ4_NL économise une VRAM précieuse avec une perte de qualité minimale.
- Phi-3-mini-4k (3.8B) — Q8_0 ou FP16 — Quand la vitesse et la faible latence sont primordiales, le petit concentré de puissance de Microsoft tourne entièrement non quantifié sur 8 Go et gère admirablement le RAG, la classification et l'appel d'outils légers.
- Qwen2.5-7B-Instruct — Q5_K_M — Exceptionnel pour les tâches multilingues et la génération de code ; le 7B de Qwen en Q5_K_M tient sur 8 Go avec un tampon de contexte confortable.
Cache KV et paramètres de contexte pour 8 Go
La mémoire du cache KV est la taxe cachée sur votre budget VRAM. Sur les cartes de 8 Go, chaque token de contexte consomme un espace significatif — environ 0,5 Mo à 1,2 Mo par 1K tokens pour un modèle 7B en 4-bit, selon l'implémentation de l'attention. La sagesse communautaire suggère :
- Contexte par défaut : 4096–8192 tokens pour les modèles 7B–8B en quantification Q4/Q5.
- Quantification du cache KV (FP8 / cache Q8_0) : Activer la quantification du cache KV dans
llama.cppouexllamav2peut récupérer 30–40 % de la mémoire cache, vous permettant d'étendre le contexte à 12K–16K sur 8 Go. - Flash Attention : Si votre backend le supporte, Flash Attention réduit considérablement la mémoire de pointe pendant le pré-remplissage, améliorant la marge de contexte.
- Débordement vers la mémoire GPU partagée (fallback système CUDA) : Certains utilisateurs laissent le débordement se déverser dans la mémoire partagée, mais cela fait chuter la vitesse de génération de tokens en dessous de 5 t/s — généralement déconseillé pour une utilisation interactive.
Matériel typique pour les configurations 8 Go
- NVIDIA RTX 3070 / RTX 3060 Ti / RTX 4060 Ti 8 Go
- NVIDIA RTX 2070 Super / GTX 1080
- AMD Radeon RX 6600 XT / RX 7600 (via backends ROCm ou Vulkan)
- Apple M1/M2 avec 8 Go de mémoire unifiée (accélération Metal via llama.cpp)
Performances attendues
| Modèle | Quantification | Contexte | Matériel | Tokens/sec |
|---|---|---|---|---|
| Mistral-7B-Instruct | Q5_K_M | 4096 | RTX 3070 8 Go | 45–55 t/s |
| Llama-3-8B-Instruct | Q4_K_M | 8192 | RTX 4060 Ti 8 Go | 38–48 t/s |
| Gemma-2-9B | IQ4_NL | 6144 | RTX 3070 8 Go | 40–50 t/s |
| Phi-3-mini (3.8B) | FP16 | 4096 | RTX 3060 Ti 8 Go | 90–120 t/s |
| Qwen2.5-7B | Q5_K_M | 4096 | AMD RX 7600 (Vulkan) | 25–35 t/s |
Niveau 16 Go de VRAM — La puissance grand public
Seize gigaoctets, c'est là que l'IA locale s'ouvre véritablement. C'est la capacité de VRAM la plus courante parmi les passionnés sérieux, et elle héberge confortablement des modèles 7B–13B en haute quantification (Q6_K, Q8_0) ou des modèles plus petits en FP16 complet, tout en débloquant l'accès aux modèles de classe 20B–34B en quantifications agressives (IQ3_XXS, Q3_K_M). Le niveau 16 Go est aussi le premier échelon où exécuter un modèle Mixture of Experts (MoE) comme un Mixtral quantifié devient viable.
Meilleurs choix de modèles pour 16 Go de VRAM
- Llama-3.1-8B-Instruct — Q8_0 — Exécuter la classe 8B en qualité quasi sans perte Q8_0 avec une ample marge de contexte. Fantastique pour l'écriture longue et les conversations complexes à plusieurs tours.
- Mistral-Nemo-12B (Mistral + Nvidia) — Q5_K_M — Un effort conjoint de 12B avec une fenêtre de contexte native de 128K. En Q5_K_M, il tient sur 16 Go avec 8K–16K de contexte utilisable et offre d'excellentes performances multilingues.
- Qwen2.5-14B-Instruct — Q4_K_M — Le Qwen 14B se situe dans une zone idéale : nettement plus intelligent que les modèles 7B, tout en tenant sur 16 Go en Q4 avec un contexte confortable de 8K.
- Phi-3-medium-14B — Q4_K_M — Le modèle Phi de milieu de gamme de Microsoft excelle dans les tâches lourdes en raisonnement et tient sur 16 Go avec de la marge.
- Mixtral-8x7B-Instruct — IQ3_XXS ou Q2_K — L'architecture MoE signifie seulement ~12,9B paramètres actifs par token, mais le modèle complet pèse ~46B. Les quantifications agressives tournent sur 16 Go, produisant des résultats étonnamment cohérents pour l'écriture créative et le brainstorming.
- CodeQwen1.5-7B-Chat — Q8_0 — Pour les développeurs, exécuter un modèle de code dédié en Q8_0 sur 16 Go laisse de la VRAM pour l'intégration LSP et le contexte de grandes bases de code.
Cache KV et paramètres de contexte pour 16 Go
- Modèles 8B en Q8_0 : Confortable à 16K–32K de contexte avec la quantification du cache KV activée.
- Modèles 12B–14B en Q4/Q5 : 8K–16K de contexte est le point idéal ; pousser à 32K nécessite une quantification agressive du cache KV (cache Q4_0) et peut ralentir légèrement la génération.
- Modèles MoE (Mixtral) : La surcharge du cache KV est proportionnelle au nombre total de paramètres, pas aux paramètres actifs. Gardez le contexte à 4K–8K pour des performances fluides sur 16 Go.
- Outil de prédilection :
exllamav2avec son cache 8-bit est largement salué dans la communauté pour maximiser le contexte sur les cartes 16 Go.
Matériel typique pour les configurations 16 Go
- NVIDIA RTX 4080 / RTX 4070 Ti Super / RTX 3080
- NVIDIA RTX 4060 Ti 16 Go
- AMD Radeon RX 6800 / RX 6900 XT / RX 7800 XT
- Apple M2 Pro / M3 avec 16 Go de mémoire unifiée
- Intel Arc A770 16 Go (via IPEX-LLM ou llama.cpp Vulkan)
Performances attendues
| Modèle | Quantification | Contexte | Matériel | Tokens/sec |
|---|---|---|---|---|
| Llama-3.1-8B | Q8_0 | 16K | RTX 4080 16 Go | 55–70 t/s |
| Mistral-Nemo-12B | Q5_K_M | 12K | RTX 4070 Ti Super 16 Go | 35–45 t/s |
| Qwen2.5-14B | Q4_K_M | 8K | RTX 3080 16 Go (modifié) | 30–40 t/s |
| Mixtral-8x7B | IQ3_XXS | 4K | RTX 4080 16 Go | 25–35 t/s |
| CodeQwen1.5-7B | Q8_0 | 32K | RX 7800 XT (ROCm) | 40–50 t/s |
Niveau 24 Go de VRAM — Le terrain de jeu des passionnés
Vingt-quatre gigaoctets, c'est le point idéal pour les passionnés — le domaine des RTX 3090, RTX 4090 et des cartes de station de travail haut de gamme. Ici, les modèles 13B–20B tournent en Q6_K ou Q8_0 avec un généreux contexte de 16K–32K, et les modèles de classe 34B deviennent viables en Q4_K_M. Ce niveau supporte également l'exécution de Mixtral-8x7B en Q4_K_M et de modèles MoE similaires avec un contexte confortable, ce qui en fait un favori pour ceux qui privilégient la qualité à la vitesse brute.
Meilleurs choix de modèles pour 24 Go de VRAM
- Llama-3.1-70B — IQ2_XXS / IQ3_XXS (via 24 Go) — Oui, un modèle 70B sur 24 Go. Avec les nouvelles quantifications ultra-basses de la série IQ, un Llama 70B peut tout juste tenir sur une carte 24 Go avec 2K–4K de contexte. La qualité est dégradée mais surpasse encore de nombreux modèles plus petits pour certaines tâches de raisonnement.
- Qwen2.5-32B-Instruct — Q4_K_M — Le Qwen 32B est sans doute le meilleur modèle mono-carte 24 Go pour le raisonnement complexe, la génération de code avancée et la sortie structurée longue. En Q4_K_M, il tient avec 8K–16K de contexte.
- Gemma-2-27B-Instruct — Q4_K_M — Le 27B de Google excelle dans le suivi d'instructions et la précision factuelle. Tient sur 24 Go en Q4 avec 8K de contexte et offre de solides performances.
- Mixtral-8x7B-Instruct — Q5_K_M — Le point idéal MoE : Q5_K_M sur 24 Go avec 8K–12K de contexte. Excellent pour l'écriture créative, le jeu de rôle et les tâches multilingues.
- Command-R-Plus (Cohere, 104B) — IQ2_XXS — Une autre expérience de quantification ultra-basse qui tient sur 24 Go. Principalement pour la recherche et l'expérimentation ; non recommandé pour la production mais fascinant pour tester les limites.
- CodeLlama-34B-Instruct — Q4_K_M — Un modèle de code 34B dédié pour les tâches sérieuses d'ingénierie logicielle, tenant sur 24 Go avec un contexte confortable pour le raisonnement sur de grandes bases de code.
Cache KV et paramètres de contexte pour 24 Go
- Modèles 32B en Q4 : 8K–16K de contexte est standard ; 32K possible avec cache KV Q8_0 et Flash Attention.
- Modèles MoE en Q5 : 8K–12K de contexte est le plafond pratique avant que la vitesse de génération ne descende en dessous de 15 t/s.
- Ultra-quants 70B : 2K–4K de contexte seulement ; le cache KV consomme une énorme fraction de la VRAM restante. Considérez cela comme un terrain de jeu expérimental, pas un outil quotidien.
- Aperçu du déchargement multi-GPU : Certains propriétaires de 24 Go associent une carte secondaire (ex. RTX 3060 12 Go) pour décharger les couches, débloquant des modèles plus grands avec des quants plus élevés — un pont vers le niveau 32 Go+.
Matériel typique pour les configurations 24 Go
- NVIDIA RTX 4090 / RTX 3090 / RTX 3090 Ti
- NVIDIA RTX A5000 / A5500 (cartes de station de travail)
- NVIDIA Titan RTX
- AMD Radeon RX 7900 XTX (24 Go, via ROCm)
- Configurations double RTX 3060 12 Go (24 Go combinés via répartition des couches llama.cpp)
Performances attendues
| Modèle | Quantification | Contexte | Matériel | Tokens/sec |
|---|---|---|---|---|
| Qwen2.5-32B | Q4_K_M | 12K | RTX 4090 24 Go | 28–38 t/s |
| Gemma-2-27B | Q4_K_M | 8K | RTX 3090 24 Go | 25–35 t/s |
| Mixtral-8x7B | Q5_K_M | 10K | RTX 4090 24 Go | 22–32 t/s |
| Llama-3.1-70B | IQ3_XXS | 3K | RTX 4090 24 Go | 6–10 t/s |
| CodeLlama-34B | Q4_K_M | 8K | RTX 3090 24 Go | 20–30 t/s |
Niveau 32 Go de VRAM — Prosumer et pont multi-GPU
Le niveau 32 Go concerne moins les GPU grand public uniques que les configurations multi-GPU, les Mac Apple Silicon avec une grande mémoire unifiée et les cartes de station de travail professionnelles. Deux RTX 3090 en NVLink ou regroupées via llama.cpp, un Apple M2 Ultra avec 32 Go+ de mémoire unifiée, ou une seule carte de classe RTX 5000 Ada / A6000 entrent tous dans cette catégorie. Cette capacité exécute confortablement des modèles 34B–70B en Q4_K_M à Q5_K_M avec 16K+ de contexte.
Meilleurs choix de modèles pour 32 Go de VRAM
- Llama-3.1-70B-Instruct — Q4_K_M — Le « conducteur quotidien » le plus cité par la communauté pour 32 Go. Pleine puissance 70B en Q4 avec 8K–16K de contexte. Excellent pour la recherche, l'analyse avancée et l'écriture professionnelle.
- Qwen2.5-72B-Instruct — Q4_K_M — Une alternative solide de classe 70B avec des capacités multilingues et de codage exceptionnelles. Tient sur 32 Go avec 8K–12K de contexte.
- Command-R-Plus (104B) — Q3_K_M — Le modèle massif de Cohere en Q3_K_M se glisse sur 32 Go avec 4K–6K de contexte. Impressionnant pour les tâches d'entreprise de type RAG.
- Mixtral-8x22B-Instruct — Q4_K_M — Le grand frère MoE avec des experts de 22B. Total d'environ 141B paramètres mais seulement ~39B actifs. Tient sur 32 Go en Q4 avec 6K–8K de contexte et offre un raisonnement multilingue de premier ordre.
- DeepSeek-V2-Lite-Chat (16B MoE) — Q6_K — L'architecture efficace de DeepSeek tourne luxueusement sur 32 Go avec une quantification élevée et un long contexte pour le codage et les mathématiques.
Cache KV et paramètres de contexte pour 32 Go
- 70B en Q4 : 8K–16K de contexte standard ; 32K possible avec cache KV Q8_0 et Flash Attention, bien que la vitesse de génération puisse chuter à 8–12 t/s en contextes longs.
- MoE 141B en Q4 : 6K–10K de contexte ; le cache KV est la contrainte principale en raison du nombre total de paramètres.
- Répartition multi-GPU : Lors de l'utilisation de llama.cpp avec parallélisme tensoriel sur deux GPU de 16 Go, le cache KV est généralement répliqué (non partitionné), donc le budget cache par GPU est la moitié du total — planifiez en conséquence.
- Mémoire unifiée Apple Silicon : Sur M2 Ultra avec 32 Go, llama.cpp avec backend Metal gère le 70B Q4 avec 8K de contexte sans problème ; l'architecture de mémoire unifiée élimine complètement les goulets d'étranglement PCIe.
Matériel typique pour les configurations 32 Go
- Double RTX 3090 24 Go (regroupées, 48 Go au total mais souvent rapportées en configurations utilisables de 32 Go pour modèle+cache KV)
- Simple RTX A6000 / RTX 5000 Ada (carte de station de travail 32 Go)
- Apple M2 Ultra avec 32 Go de mémoire unifiée (ou M3 Max avec 36 Go)
- Double RTX 4060 Ti 16 Go (32 Go combinés via répartition des couches)
- AMD Radeon Pro W6800 32 Go
Performances attendues
| Modèle | Quantification | Contexte | Matériel | Tokens/sec |
|---|---|---|---|---|
| Llama-3.1-70B | Q4_K_M | 12K | Double RTX 3090 (48 Go total) | 14–22 t/s |
| Qwen2.5-72B | Q4_K_M | 8K | Double RTX 3090 | 12–20 t/s |
| Mixtral-8x22B | Q4_K_M | 8K | RTX A6000 32 Go | 15–22 t/s |
| Command-R-Plus (104B) | Q3_K_M | 4K | Apple M2 Ultra 32 Go | 6–10 t/s |
Niveau 48 Go de VRAM — La classe station de travail
Quarante-huit gigaoctets, c'est le royaume des configurations double RTX 3090/4090 en NVLink, RTX A6000 Ada (48 Go) et Apple Silicon haut de gamme (M2 Ultra 48 Go+). Ce niveau exécute confortablement des modèles 70B en Q6_K ou Q8_0 avec 16K–32K de contexte, et peut même héberger des modèles 120B+ en Q4. C'est la cible pour ceux qui utilisent l'IA locale comme outil de travail principal — chercheurs, développeurs indépendants créant des applications IA natives, et entreprises gardant leurs données en interne.
Meilleurs choix de modèles pour 48 Go de VRAM
- Llama-3.1-70B-Instruct — Q6_K ou Q8_0 — En quantification quasi sans perte avec 32K de contexte, c'est l'expérience IA locale la plus comparable aux API hébergées. Qualité époustouflante pour l'écriture professionnelle, l'analyse et les flux de travail agentiques.
- Qwen2.5-72B-Instruct — Q6_K — Exécuter un 72B en Q6_K avec 16K+ de contexte est une expérience premium pour le codage, les mathématiques et les tâches de données structurées.
- Command-R-Plus (104B) — Q4_K_M — Tient sur 48 Go avec 6K–10K de contexte ; un choix solide pour les pipelines RAG d'entreprise et le résumé de longs documents.
- Falcon-40B-Instruct — Q8_0 ou FP16 — Bien que plus ancien, le Falcon 40B en pleine précision sur 48 Go est un favori de la recherche pour les expériences de fine-tuning et les sorties structurées.
- Yi-34B-200K — Q5_K_M — L'immense fenêtre de contexte native de 200K de Yi devient pratiquement utilisable sur 48 Go. En Q5_K_M avec 32K–64K de contexte, c'est idéal pour la révision de documents juridiques et la recherche académique.
- DeepSeek-V2-Chat (236B MoE) — IQ3_XXS — Le MoE DeepSeek complet en quantification ultra-basse peut tout juste tenir sur 48 Go avec 2K–4K de contexte. Un aperçu de la frontière de l'inférence MoE locale.
Cache KV et paramètres de contexte pour 48 Go
- 70B en Q6/Q8 : 16K–32K de contexte est confortable ; avec Flash Attention et quantification du cache KV, 64K+ est atteignable pour certaines architectures.
- Modèles 100B+ en Q4 : 6K–12K de contexte est la plage pratique ; le plus grand nombre de paramètres implique des entrées de cache KV par token plus volumineuses.
- Modèles à contexte natif 200K (Yi) : Un véritable contexte de 200K nécessite de désactiver la quantification du cache KV et d'accepter des vitesses plus lentes (5–10 t/s), mais 32K–64K est parfaitement utilisable à pleine vitesse.
- Avantages NVLink : Sur les configurations double 3090/4090 avec NVLink, l'accès mémoire pair-à-pair réduit la surcharge de réplication du cache KV, augmentant effectivement le cache utilisable de 15–25 % par rapport au regroupement sans NVLink.
Matériel typique pour les configurations 48 Go
- Double RTX 4090 24 Go (NVLink) ou Double RTX 3090 24 Go
- Simple NVIDIA RTX A6000 Ada 48 Go
- NVIDIA L40 / L40S 48 Go (GPU de centre de données)
- Apple M2 Ultra avec 48 Go–64 Go de mémoire unifiée
- Double AMD Radeon Pro W7900 24 Go (48 Go combinés)
Performances attendues
| Modèle | Quantification | Contexte | Matériel | Tokens/sec |
|---|---|---|---|---|
| Llama-3.1-70B | Q8_0 | 32K | Double RTX 4090 48 Go | 18–28 t/s |
| Qwen2.5-72B | Q6_K | 16K | RTX A6000 Ada 48 Go | 15–24 t/s |
| Command-R-Plus (104B) | Q4_K_M | 8K | Double RTX 3090 48 Go | 10–16 t/s |
| Yi-34B-200K | Q5_K_M | 48K | Double RTX 4090 48 Go | 12–18 t/s |
| DeepSeek-V2 (236B MoE) | IQ3_XXS | 3K | Apple M2 Ultra 64 Go | 3–6 t/s |
Cache KV et longueur de contexte — Le levier de performance silencieux
Si la taille du modèle est le moteur, la configuration du cache KV est la transmission. Le cache clé-valeur stocke les clés et valeurs d'attention pour chaque token de votre fenêtre de contexte, et il croît linéairement avec à la fois la taille du modèle et la longueur du contexte. S'il est mal configuré, vous planterez avec des erreurs de mémoire insuffisante ou laisserez une VRAM importante inutilisée.
Quelle quantité de VRAM le cache KV consomme-t-il ?
Une formule approximative utilisée dans la communauté pour un modèle avec N couches, H dimensions cachées et G têtes KV, exécutant C tokens de contexte à B octets par élément de cache :
KV_cache_bytes ≈ 2 × N × G × (H / total_heads) × C × B × 2 (pour les matrices K et V)
En pratique, pour un modèle 7B à 4K de contexte avec cache KV FP16, attendez-vous à ce que ~0,8–1,2 Go soient consommés par le cache seul. À 32K de contexte, cela gonfle à 6–10 Go. C'est pourquoi la quantification du cache KV (FP8, Q8_0, Q4_0) est l'optimisation la plus impactante après la quantification du modèle elle-même.
Stratégies communautaires de cache KV
- Flash Attention 2/3 : Réduit la mémoire de pointe pendant le pré-remplissage en évitant la matérialisation de la matrice d'attention complète. Supporté dans exllamav2, vLLM et les builds récentes de llama.cpp.
- Quantification du cache KV (FP8 / Q8_0 / Q4_0) : Échangez une infime quantité de qualité de sortie pour 30–60 % d'économie de mémoire cache. Sur les cartes 8 Go et 16 Go, c'est souvent la différence entre une fenêtre de contexte de 4K et 12K.
- Attention à fenêtre glissante : Certains modèles (Mistral, certaines variantes Qwen) utilisent l'attention à fenêtre glissante, qui borne la croissance du cache et permet des contextes effectifs plus longs sans mise à l'échelle linéaire de la mémoire.
- Déchargement du contexte : Dans llama.cpp, les portions inutilisées du cache KV peuvent être déchargées vers la RAM CPU, mais cela encourt une pénalité de latence significative sur la génération de tokens — à réserver au traitement par lots, pas au chat interactif.
- Élagage du cache / Politiques d'éviction : Les backends avancés comme vLLM implémentent une éviction intelligente des entrées KV moins importantes, maintenant la qualité tout en plafonnant l'utilisation mémoire — de plus en plus adopté pour le service en contexte long.
Matrice de sélection de modèles adaptée au matériel
Utilisez ce tableau de référence rapide pour faire correspondre votre matériel au niveau de modèle optimal et au niveau d'expérience attendu :
| Votre VRAM | Classe de modèle recommandée | Plage de quantification | Contexte confortable | Niveau d'expérience |
|---|---|---|---|---|
| 8 Go | 3B–8B | Q4_K_M à Q8_0 (pour <5B) | 4K–12K | Assistant quotidien, codage léger, résumé |
| 16 Go | 8B–14B (ou MoE en IQ3) | Q4_K_M à Q8_0 | 8K–32K | Passionné sérieux, écriture professionnelle, codage de complexité moyenne |
| 24 Go | 14B–34B (ou 70B en IQ2) | Q4_K_M à Q6_K | 8K–32K | Passionné, codage avancé, recherche, travail créatif |
| 32 Go | 34B–72B | Q4_K_M à Q5_K_M | 8K–32K | Prosumer, RAG d'entreprise, analyse multilingue |
| 48 Go | 70B–104B (ou MoE en Q4+) | Q4_K_M à Q8_0 | 16K–64K | Station de travail, fine-tuning, systèmes agentiques, recherche juridique/académique |
Benchmarks de performances réels — Tokens par seconde et compromis de qualité
La performance est un concept nuancé en IA locale. Les tokens bruts par seconde ne sont qu'un axe ; le temps jusqu'au premier token (TTFT), la vitesse de traitement des prompts et la qualité de sortie à une quantification donnée comptent tous. Les benchmarks communautaires montrent constamment :
- Le TTFT devient le goulot d'étranglement en contextes longs : Traiter un prompt de 32K tokens sur un modèle 70B peut prendre 30–90 secondes avant que le premier token n'apparaisse, même sur des configurations double GPU 48 Go. Flash Attention et la mise en cache des prompts dans les backends comme vLLM atténuent cela.
- Quants IQ vs K-quants : La nouvelle série IQ (Integer Quantization) de llama.cpp préserve généralement plus de qualité à largeur de bits équivalente par rapport à l'ancienne série K-quant, surtout aux niveaux 2-bit et 3-bit. Pour le 70B sur 24 Go, IQ3_XXS surpasse souvent Q3_K_S dans les tests de préférence humaine.
- exllamav2 vs llama.cpp : Pour l'inférence GPU pure sur matériel NVIDIA, exllamav2 offre constamment un débit 10–25 % plus élevé et une latence plus faible. llama.cpp reste le roi de la compatibilité multiplateforme (Apple Silicon, AMD, Intel, fallback CPU).
- La taille de lot compte pour le débit : Si vous servez plusieurs utilisateurs ou exécutez des évaluations par lots, vLLM avec le regroupement continu peut multiplier le débit effectif par 3–5× par rapport à l'inférence à flux unique dans llama.cpp.
Pourquoi les gens utilisent-ils réellement ces modèles ?
La question « Pourquoi utilisez-vous vos modèles ? » révèle l'incroyable diversité des applications de l'IA locale. Sur la base des réponses agrégées de la communauté, voici les cas d'usage les plus courants à chaque niveau :
Niveau 8 Go — Assistants IA quotidiens
- Confidentialité d'abord Journaling personnel et réflexion avec chat local (aucune donnée ne quitte la machine)
- Codage Autocomplétion de code légère et suggestions en ligne (Continue.dev + Ollama)
- Éducation Partenaires d'apprentissage des langues, génération de flashcards, Q&R sur les manuels
- Créatif Rédaction d'histoires courtes, notes de campagne D&D, génération de dialogues de PNJ
- Domotique Analyse d'intention sur appareil pour le contrôle vocal Home Assistant
Niveau 16 Go — Puissances professionnelles et créatives
- Développement Génération de code full-stack, refactorisation et rédaction de tests avec des modèles de code dédiés
- Écriture Rédaction de contenu longue durée, édition et transfert de style (romans, scénarios, textes marketing)
- Recherche Résumé d'articles, extraction de citations, aide à la revue de littérature
- Multilingue Traduction et création de contenu multilingue avec Qwen ou Mistral-Nemo
- Jeux vidéo PNJ pilotés par IA dans des jeux moddés (Skyrim, Mount & Blade) via des serveurs API locaux
Niveau 24 Go+ — Charges de travail avancées et d'entreprise
- IA agentique Agents autonomes multi-étapes pour la recherche, l'analyse de données et l'automatisation des tâches
- Juridique Révision de contrats, extraction de clauses, vérification de conformité avec des modèles à long contexte
- Académique Analyse complète d'articles, vérification de références croisées, génération d'hypothèses
- RAG d'entreprise Q&R sur base de connaissances interne avec des modèles 70B+ sur des documents propriétaires
- Fine-tuning Fine-tuning LoRA/QLoRA de modèles 7B–13B pour des tâches spécifiques au domaine, en utilisant le plus grand GPU pour l'entraînement pendant que l'inférence s'exécute ailleurs
- Médical/Santé Analyse sur site de notes cliniques (conforme HIPAA, sans exposition au cloud)
Foire aux questions
Quel est le meilleur modèle absolu que je puisse exécuter sur 8 Go de VRAM actuellement ?
À mi-2025, le consensus communautaire pointe vers Llama-3.1-8B-Instruct en Q4_K_M ou Gemma-2-9B-Instruct en IQ4_NL comme les principaux concurrents. Gemma-2-9B offre une précision factuelle légèrement meilleure, tandis que Llama-3.1-8B excelle dans les tâches créatives et les nuances conversationnelles. Les deux tiennent sur 8 Go avec 4K–8K de contexte. Pour la vitesse pure, Phi-3-mini (3.8B) en FP16 offre une vitesse fulgurante de 90+ t/s sur une RTX 3070.
Puis-je exécuter un modèle 70B sur un seul GPU 24 Go ?
Oui, mais avec des réserves importantes. En utilisant la quantification IQ2_XXS ou IQ3_XXS du dernier llama.cpp, un modèle 70B peut se charger sur 24 Go avec environ 2–4 Go restants pour le cache KV — assez pour une fenêtre de contexte de 2K–4K. La qualité de sortie est dégradée par rapport à Q4, mais pour certaines tâches analytiques qui bénéficient du raisonnement plus profond du 70B, il peut encore surpasser les modèles plus petits. C'est une configuration expérimentale, pas un outil quotidien pour la plupart des utilisateurs.
Comment choisir entre exllamav2, llama.cpp et vLLM ?
exllamav2 : Meilleure performance brute sur GPU NVIDIA. Prend en charge Flash Attention, le cache KV FP8 et le parallélisme tensoriel efficace. Idéal pour l'inférence interactive mono-utilisateur sur cartes NVIDIA 8 Go–48 Go.
llama.cpp : Le choix universel. Fonctionne sur NVIDIA, AMD, Apple Silicon, Intel et même CPU uniquement. Prend en charge la plus large gamme de formats de quantification (GGUF, série IQ). Meilleur pour les configurations multiplateformes et les utilisateurs Apple Silicon.
vLLM : Conçu pour le service. Si vous avez besoin d'un endpoint API compatible OpenAI avec regroupement continu pour plusieurs utilisateurs simultanés, vLLM est la référence. Nécessite plus de configuration mais offre un débit inégalé pour les déploiements en production.
Quels paramètres de cache KV dois-je utiliser pour le travail en contexte long (32K+) ?
Activez Flash Attention et réglez la quantification du cache KV sur Q8_0 ou FP8. Sur une carte 16 Go avec un modèle 8B en Q8_0, cela permet généralement 32K de contexte sans débordement. Surveillez votre utilisation de la VRAM pendant le pré-remplissage — si vous voyez des pics approchant 95 % d'utilisation, réduisez le contexte par incréments de 2K–4K jusqu'à stabilité. Pour les configurations 48 Go+ exécutant des modèles 70B en Q6+, 32K–64K de contexte est couramment atteignable avec ces optimisations.
Apple Silicon est-il compétitif pour l'IA locale ?
Absolument. L'architecture de mémoire unifiée sur M2 Ultra (48 Go–64 Go) et M3 Max (36 Go+) change la donne. Bien que le calcul GPU brut soit inférieur à une RTX 4090, la capacité d'allouer toute la mémoire unifiée au modèle élimine les goulets d'étranglement PCIe et permet d'exécuter des modèles 70B en Q4 avec 8K+ de contexte à 8–15 t/s. Pour les développeurs utilisant Mac, c'est une expérience IA locale transparente et silencieuse. Le backend Metal dans llama.cpp a considérablement mûri.
Qu'en est-il des modèles Mixture of Experts (MoE) et de la VRAM ?
Les modèles MoE comme Mixtral-8x7B et DeepSeek-V2 maintiennent un nombre total de paramètres élevé mais n'activent qu'une fraction par token. Cela signifie que la VRAM doit contenir le modèle entier (tous les experts), mais que le coût de calcul par token est bien plus faible. L'exigence de VRAM est dictée par les paramètres totaux, pas les paramètres actifs. C'est pourquoi un Mixtral de 46B au total en Q4 tient sur 24 Go, alors qu'un modèle dense de 46B en Q4 ne le pourrait pas. Les modèles MoE sont un excellent moyen de « dépasser » votre catégorie de VRAM pour la qualité de génération, mais ils ne réduisent pas l'empreinte mémoire.
Conclusion — Sagesse communautaire pour construire votre stack IA locale
La question « Quels modèles utilisez-vous ? » suscite une réponse différente tous les quelques mois — et c'est la beauté du mouvement de l'IA locale. Le matériel qui semblait limité hier exécute aujourd'hui un modèle 8B peaufiné avec 32K de contexte. Le bricolage collectif, les benchmarks et les avancées en quantification de la communauté open source redéfinissent continuellement ce qui est possible sur du silicium grand public.
S'il y a une méta-leçon à tirer de centaines de réponses communautaires, c'est celle-ci : commencez par le meilleur modèle que votre VRAM héberge confortablement en Q4_K_M ou plus, réglez votre cache KV pour 8K–16K de contexte, et résistez à l'envie de courir après les ultra-quants de pointe à moins que vous n'ayez vraiment besoin de la profondeur de raisonnement du modèle plus grand. Une configuration 8B rapide et fiable bat souvent un 70B lent et à court de mémoire pour un usage quotidien.
Points clés à retenir pour pérenniser votre parcours en IA locale :
- La quantification est votre meilleure amie. La série IQ et les K-quants réduisent la taille des modèles de 2–4× avec une perte de qualité minimale. Préférez toujours Q4_K_M ou Q5_K_M comme référence ; descendez plus bas seulement si nécessaire.
- Le réglage du cache KV n'est pas optionnel. Passez du temps à ajuster la longueur de contexte, la quantification du cache et Flash Attention. C'est la différence entre une expérience fluide et des plantages OOM constants.
- Le choix du backend compte. exllamav2 pour la vitesse NVIDIA, llama.cpp pour la compatibilité universelle, vLLM pour le service. N'hésitez pas à changer de backend à mesure que vos besoins évoluent.
- La connaissance communautaire s'accumule. Les configurations documentées ici représentent un instantané de mi-2025. Suivez les fils de discussion actifs, les serveurs Discord et les discussions GitHub — la prochaine percée en quantification ou architecture est probablement à quelques semaines.
- Définissez d'abord votre cas d'usage. Un modèle de code pour l'intégration Cursor, un modèle créatif pour la rédaction de romans et un modèle de raisonnement pour la recherche sont des outils différents. Construisez votre stack autour de ce que vous faites réellement quotidiennement, pas autour des scores de benchmark.
Ce guide agrège les expériences de la communauté et est mis à jour périodiquement à mesure que de nouveaux modèles, méthodes de quantification et backends d'inférence émergent. Dernière mise à jour : juin 2025. Votre expérience peut varier selon les versions de pilotes, les builds de backends et les configurations matérielles spécifiques. Testez toujours avec votre propre charge de travail avant de vous engager dans une stack de production.