Welche Modelle laufen bei euch auf 8 GB? 16 GB VRAM? 24 GB? 32 GB? 48 GB? – Der vollständige Leitfaden für lokale KI-Stacks
Welche Modelle betreibt ihr mit 8 GB? 16 GB VRAM? 24 GB? 32 GB? 48 GB? — Der vollständige Leitfaden für lokale KI-Stacks
Die lokale KI-Landschaft entwickelt sich rasant. In einem Monat dominiert ein Modell sämtliche Bestenlisten; im nächsten verändert eine neue Quantisierungstechnik oder Inference-Engine das Machbare auf Consumer-Hardware grundlegend. Dieser Artikel ist eine lebendige Momentaufnahme, die reale Community-Erfahrungen darüber bündelt, welche Modelle auf den einzelnen VRAM-Stufen tatsächlich betrieben werden — von günstigen 8-GB-Karten bis hin zu 48-GB-Workstation-Boliden. Wir behandeln Modellauswahl, KV-Cache-Konfigurationen, Kontextlängen-Abwägungen, Tokens-pro-Sekunde-Leistung, zugrundeliegende Hardware und die vielfältigen Anwendungsfälle, die diese Setups antreiben. Egal, ob Sie einen datenschutzorientierten Coding-Assistenten, eine Analyse-Pipeline für die Forschung oder einen kreativen Begleiter fürs Geschichtenerzählen aufbauen — dieser Leitfaden hilft Ihnen, Ihren Stack mit Zuversicht zu konfigurieren.
📋 In diesem Leitfaden
- 8 GB VRAM-Stufe — Der Effizienz-Sweetspot
- 16 GB VRAM-Stufe — Das Mainstream-Kraftpaket
- 24 GB VRAM-Stufe — Der Spielplatz für Enthusiasten
- 32 GB VRAM-Stufe — Prosumer- & Multi-GPU-Brücke
- 48 GB VRAM-Stufe — Die Workstation-Klasse
- KV-Cache & Kontextlänge im Detail
- Hardware-bewusste Modellauswahl-Matrix
- Reale Leistungsbenchmarks
- Wofür werden diese Modelle tatsächlich genutzt?
- Häufig gestellte Fragen
- Fazit & Community-Weisheit
8 GB VRAM-Stufe — Der Effizienz-Sweetspot
Acht Gigabyte VRAM sind der Einstiegspunkt, der noch wirklich nützliche lokale KI ermöglicht. Mit 8 GB betreiben Sie keine unquantisierten 70B-Monster, aber eine Welle hochoptimierter 7B–13B-Parametermodelle in 4-Bit- oder 5-Bit-Quantisierung (Q4_K_M, Q5_K_M) liefert überraschend leistungsfähige Ergebnisse. Die Community hat sich auf einige herausragende Modelle geeinigt, die Intelligenz, Geschwindigkeit und Speicherbedarf in Einklang bringen.
Top-Modellauswahl für 8 GB VRAM
- Mistral-7B-Instruct (v0.3 / v0.4) — Q5_K_M — Der amtierende Champion für Allzweck-Chat, Zusammenfassung und leichtes Coding auf eingeschränkter Hardware. Flotte Inferenz, starke Befehlsausführung.
- Llama-3-8B-Instruct — Q4_K_M — Metas 8B bietet bemerkenswerte Argumentationstiefe für seine Größe. Q4_K_M passt bequem mit Raum für ein 4K–8K Kontextfenster.
- Gemma-2-9B-Instruct — Q4_K_M oder IQ4_NL — Googles 9B übertrifft seine Gewichtsklasse, besonders bei Faktenabruf und strukturierter Ausgabe. Die IQ4_NL-Quant spart wertvollen VRAM bei minimalem Qualitätsverlust.
- Phi-3-mini-4k (3.8B) — Q8_0 oder FP16 — Wenn Geschwindigkeit und niedrige Latenz entscheidend sind, läuft Microsofts winziges Kraftpaket vollständig unquantisiert auf 8 GB und bewältigt RAG, Klassifikation und leichtgewichtiges Tool-Calling hervorragend.
- Qwen2.5-7B-Instruct — Q5_K_M — Hervorragend für mehrsprachige Aufgaben und Code-Generierung; Qwens 7B in Q5_K_M passt auf 8 GB mit einem gesunden Kontextpuffer.
KV-Cache & Kontexteinstellungen für 8 GB
Der KV-Cache-Speicher ist die versteckte Steuer auf Ihr VRAM-Budget. Auf 8-GB-Karten verbraucht jeder Kontext-Token erheblichen Speicherplatz — ungefähr 0,5 MB bis 1,2 MB pro 1K Tokens für ein 7B-Modell in 4-Bit, abhängig von der Attention-Implementierung. Die Community-Weisheit empfiehlt:
- Standardkontext: 4096–8192 Tokens für 7B–8B-Modelle in Q4/Q5-Quants.
- KV-Cache-Quantisierung (FP8 / Q8_0 Cache): Die Aktivierung der KV-Cache-Quantisierung in
llama.cppoderexllamav2kann 30–40 % Cache-Speicher zurückgewinnen, sodass Sie den Kontext auf 8 GB auf 12K–16K erweitern können. - Flash Attention: Wenn Ihr Backend es unterstützt, reduziert Flash Attention den Spitzenspeicher während des Prefill drastisch und verbessert den Kontext-Overhead.
- Auslagerung in gemeinsamen GPU-Speicher (CUDA-System-Fallback): Einige Nutzer lassen den Überlauf in den gemeinsamen Speicher überlaufen, aber das senkt die Token-Generierungsgeschwindigkeit unter 5 t/s — generell nicht für den interaktiven Gebrauch empfohlen.
Typische Hardware für 8-GB-Setups
- NVIDIA RTX 3070 / RTX 3060 Ti / RTX 4060 Ti 8GB
- NVIDIA RTX 2070 Super / GTX 1080
- AMD Radeon RX 6600 XT / RX 7600 (via ROCm oder Vulkan-Backends)
- Apple M1/M2 mit 8 GB Unified Memory (Metal-beschleunigt via llama.cpp)
Leistungserwartungen
| Modell | Quantisierung | Kontext | Hardware | Tokens/Sek. |
|---|---|---|---|---|
| Mistral-7B-Instruct | Q5_K_M | 4096 | RTX 3070 8GB | 45–55 t/s |
| Llama-3-8B-Instruct | Q4_K_M | 8192 | RTX 4060 Ti 8GB | 38–48 t/s |
| Gemma-2-9B | IQ4_NL | 6144 | RTX 3070 8GB | 40–50 t/s |
| Phi-3-mini (3.8B) | FP16 | 4096 | RTX 3060 Ti 8GB | 90–120 t/s |
| Qwen2.5-7B | Q5_K_M | 4096 | AMD RX 7600 (Vulkan) | 25–35 t/s |
16 GB VRAM-Stufe — Das Mainstream-Kraftpaket
Sechzehn Gigabyte sind der Punkt, an dem sich lokale KI wirklich entfaltet. Dies ist die häufigste VRAM-Kapazität unter ernsthaften Hobbyisten, und sie beherbergt komfortabel 7B–13B-Modelle in hoher Quantisierung (Q6_K, Q8_0) oder kleinere Modelle in vollem FP16, während sie gleichzeitig den Einstieg in die 20B–34B-Klasse mit aggressiven Quants (IQ3_XXS, Q3_K_M) ermöglicht. Die 16-GB-Stufe ist auch die erste Sprosse, auf der das Betreiben eines Mixture of Experts (MoE)-Modells wie eines quantisierten Mixtral machbar wird.
Top-Modellauswahl für 16 GB VRAM
- Llama-3.1-8B-Instruct — Q8_0 — Betreiben der 8B-Klasse in nahezu verlustfreier Q8_0-Qualität mit reichlich Kontextreserven. Fantastisch für Langtextverfassung und komplexe mehrzügige Konversationen.
- Mistral-Nemo-12B (Mistral + Nvidia) — Q5_K_M — Eine 12B-Gemeinschaftsentwicklung mit nativem 128K-Kontextfenster. In Q5_K_M passt es auf 16 GB mit 8K–16K nutzbarem Kontext und liefert exzellente mehrsprachige Leistung.
- Qwen2.5-14B-Instruct — Q4_K_M — Der 14B Qwen liegt in einer Goldlöckchen-Zone: deutlich intelligenter als 7B-Modelle, passt aber dennoch in Q4 mit komfortablen 8K Kontext auf 16 GB.
- Phi-3-medium-14B — Q4_K_M — Microsofts mittelgroßes Phi-Modell glänzt bei argumentationsintensiven Aufgaben und passt mit Reserven auf 16 GB.
- Mixtral-8x7B-Instruct — IQ3_XXS oder Q2_K — Die MoE-Architektur bedeutet nur ~12,9B aktive Parameter pro Token, aber das Gesamtmodell umfasst ~46B. Aggressive Quants laufen auf 16 GB und liefern überraschend kohärente Ausgaben für kreatives Schreiben und Brainstorming.
- CodeQwen1.5-7B-Chat — Q8_0 — Für Entwickler: Das Betreiben eines dedizierten Code-Modells in Q8_0 auf 16 GB lässt VRAM für LSP-Integration und großen Codebase-Kontext übrig.
KV-Cache & Kontexteinstellungen für 16 GB
- 8B-Modelle in Q8_0: Komfortabel bei 16K–32K Kontext mit aktivierter KV-Cache-Quantisierung.
- 12B–14B-Modelle in Q4/Q5: 8K–16K Kontext ist der Sweetspot; 32K erfordert aggressive KV-Cache-Quantisierung (Q4_0 Cache) und kann die Generierung leicht verlangsamen.
- MoE-Modelle (Mixtral): Der KV-Cache-Overhead ist proportional zur Gesamtparameterzahl, nicht zu den aktiven Parametern. Halten Sie den Kontext bei 4K–8K für flüssige Leistung auf 16 GB.
- Bevorzugtes Werkzeug:
exllamav2mit seinem 8-Bit-Cache wird in der Community weithin für die Maximierung des Kontexts auf 16-GB-Karten gelobt.
Typische Hardware für 16-GB-Setups
- NVIDIA RTX 4080 / RTX 4070 Ti Super / RTX 3080
- NVIDIA RTX 4060 Ti 16GB
- AMD Radeon RX 6800 / RX 6900 XT / RX 7800 XT
- Apple M2 Pro / M3 mit 16 GB Unified Memory
- Intel Arc A770 16GB (via IPEX-LLM oder llama.cpp Vulkan)
Leistungserwartungen
| Modell | Quantisierung | Kontext | Hardware | Tokens/Sek. |
|---|---|---|---|---|
| Llama-3.1-8B | Q8_0 | 16K | RTX 4080 16GB | 55–70 t/s |
| Mistral-Nemo-12B | Q5_K_M | 12K | RTX 4070 Ti Super 16GB | 35–45 t/s |
| Qwen2.5-14B | Q4_K_M | 8K | RTX 3080 16GB (modifiziert) | 30–40 t/s |
| Mixtral-8x7B | IQ3_XXS | 4K | RTX 4080 16GB | 25–35 t/s |
| CodeQwen1.5-7B | Q8_0 | 32K | RX 7800 XT (ROCm) | 40–50 t/s |
24 GB VRAM-Stufe — Der Spielplatz für Enthusiasten
Vierundzwanzig Gigabyte sind der Enthusiasten-Sweetspot — die Domäne der RTX 3090, RTX 4090 und High-End-Workstation-Karten. Hier laufen 13B–20B-Modelle in Q6_K oder Q8_0 mit großzügigem 16K–32K-Kontext, und die 34B-Klasse wird in Q4_K_M machbar. Diese Stufe unterstützt auch den Betrieb von Mixtral-8x7B in Q4_K_M und ähnlichen MoE-Modellen mit komfortablem Kontext, was sie zu einem Favoriten für diejenigen macht, die Qualität über reine Geschwindigkeit stellen.
Top-Modellauswahl für 24 GB VRAM
- Llama-3.1-70B — IQ2_XXS / IQ3_XXS (via 24GB) — Ja, ein 70B-Modell auf 24 GB. Mit den neuesten Ultra-Niedrig-Quants der IQ-Serie kann ein 70B Llama mit 2K–4K Kontext gerade so auf eine 24-GB-Karte gequetscht werden. Die Qualität ist gemindert, übertrifft aber dennoch viele kleinere Modelle für bestimmte Argumentationsaufgaben.
- Qwen2.5-32B-Instruct — Q4_K_M — Der 32B Qwen ist wohl das beste Einzelkarten-24GB-Modell für komplexes Denken, fortgeschrittene Code-Generierung und strukturierte Langtextausgabe. In Q4_K_M passt es mit 8K–16K Kontext.
- Gemma-2-27B-Instruct — Q4_K_M — Googles 27B glänzt bei Befehlsausführung und Faktenkorrektheit. Passt in Q4 mit 8K Kontext auf 24 GB und liefert starke Leistung.
- Mixtral-8x7B-Instruct — Q5_K_M — Der MoE-Sweetspot: Q5_K_M auf 24 GB mit 8K–12K Kontext. Hervorragend für kreatives Schreiben, Rollenspiel und mehrsprachige Aufgaben.
- Command-R-Plus (Cohere, 104B) — IQ2_XXS — Ein weiteres Ultra-Quant-Experiment, das auf 24 GB passt. Hauptsächlich für Forschung und Experimente; nicht für den Produktiveinsatz empfohlen, aber faszinierend zum Testen der Grenzen.
- CodeLlama-34B-Instruct — Q4_K_M — Ein dediziertes 34B-Code-Modell für ernsthafte Softwareentwicklungsaufgaben, passt auf 24 GB mit komfortablem Kontext für das Denken über große Codebasen.
KV-Cache & Kontexteinstellungen für 24 GB
- 32B-Modelle in Q4: 8K–16K Kontext ist Standard; 32K erreichbar mit Q8_0 KV-Cache und Flash Attention.
- MoE-Modelle in Q5: 8K–12K Kontext ist die praktische Obergrenze, bevor die Generierungsgeschwindigkeit unter 15 t/s sinkt.
- 70B Ultra-Quants: Nur 2K–4K Kontext; der KV-Cache verbraucht einen großen Teil des verbleibenden VRAM. Betrachten Sie dies als experimentellen Spielplatz, nicht als täglichen Begleiter.
- Vorschau auf Multi-GPU-Auslagerung: Einige 24-GB-Besitzer koppeln eine Zweitkarte (z. B. RTX 3060 12GB), um Layer auszulagern, was größere Modelle mit höheren Quants erschließt — eine Brücke zur 32-GB+-Stufe.
Typische Hardware für 24-GB-Setups
- NVIDIA RTX 4090 / RTX 3090 / RTX 3090 Ti
- NVIDIA RTX A5000 / A5500 (Workstation-Karten)
- NVIDIA Titan RTX
- AMD Radeon RX 7900 XTX (24GB, via ROCm)
- Dual RTX 3060 12GB Setups (kombinierte 24GB via llama.cpp Layer-Splitting)
Leistungserwartungen
| Modell | Quantisierung | Kontext | Hardware | Tokens/Sek. |
|---|---|---|---|---|
| Qwen2.5-32B | Q4_K_M | 12K | RTX 4090 24GB | 28–38 t/s |
| Gemma-2-27B | Q4_K_M | 8K | RTX 3090 24GB | 25–35 t/s |
| Mixtral-8x7B | Q5_K_M | 10K | RTX 4090 24GB | 22–32 t/s |
| Llama-3.1-70B | IQ3_XXS | 3K | RTX 4090 24GB | 6–10 t/s |
| CodeLlama-34B | Q4_K_M | 8K | RTX 3090 24GB | 20–30 t/s |
32 GB VRAM-Stufe — Prosumer- & Multi-GPU-Brücke
Bei der 32-GB-Stufe geht es weniger um einzelne Consumer-GPUs als vielmehr um Multi-GPU-Setups, Apple Silicon Macs mit großem Unified Memory und professionelle Workstation-Karten. Zwei RTX 3090 in NVLink oder gepoolt via llama.cpp, ein Apple M2 Ultra mit 32 GB+ Unified Memory oder eine einzelne RTX 5000 Ada / A6000-Klasse-Karte fallen alle hierunter. Diese Kapazität betreibt komfortabel 34B–70B-Modelle in Q4_K_M bis Q5_K_M mit 16K+ Kontext.
Top-Modellauswahl für 32 GB VRAM
- Llama-3.1-70B-Instruct — Q4_K_M — Der von der Community am häufigsten genannte "Daily Driver" für 32 GB. Volle 70B-Power in Q4 mit 8K–16K Kontext. Hervorragend für Forschung, fortgeschrittene Analyse und professionelles Schreiben.
- Qwen2.5-72B-Instruct — Q4_K_M — Eine starke 70B-Klassen-Alternative mit außergewöhnlichen mehrsprachigen und Coding-Fähigkeiten. Passt auf 32 GB mit 8K–12K Kontext.
- Command-R-Plus (104B) — Q3_K_M — Coheres massives Modell in Q3_K_M quetscht sich auf 32 GB mit 4K–6K Kontext. Beeindruckend für RAG-artige Unternehmensaufgaben.
- Mixtral-8x22B-Instruct — Q4_K_M — Das größere MoE-Geschwistermodell mit 22B-Experten. Insgesamt ~141B Parameter, aber nur ~39B aktiv. Passt in Q4 auf 32 GB mit 6K–8K Kontext und liefert erstklassiges mehrsprachiges Denken.
- DeepSeek-V2-Lite-Chat (16B MoE) — Q6_K — DeepSeeks effiziente Architektur läuft luxuriös auf 32 GB mit hoher Quant und langem Kontext für Coding und Mathematik.
KV-Cache & Kontexteinstellungen für 32 GB
- 70B in Q4: 8K–16K Kontext Standard; 32K möglich mit Q8_0 KV-Cache und Flash Attention, obwohl die Generierungsgeschwindigkeit bei langen Kontexten auf 8–12 t/s sinken kann.
- MoE 141B in Q4: 6K–10K Kontext; der KV-Cache ist aufgrund der Gesamtparameterzahl die Hauptbeschränkung.
- Multi-GPU-Splitting: Bei Verwendung von llama.cpp mit Tensorparallelität über zwei 16-GB-GPUs wird der KV-Cache typischerweise repliziert (nicht geshardet), sodass das Cache-Budget pro GPU die Hälfte des Gesamtbudgets beträgt — planen Sie entsprechend.
- Apple Silicon Unified Memory: Auf dem M2 Ultra mit 32 GB bewältigt Metal-beschleunigtes llama.cpp 70B Q4 mit 8K Kontext reibungslos; die Unified-Memory-Architektur eliminiert PCIe-Engpässe vollständig.
Typische Hardware für 32-GB-Setups
- Dual RTX 3090 24GB (gepoolt, 48GB gesamt, aber oft in 32GB-nutzbaren Konfigurationen für Modell+KV-Cache angegeben)
- Einzelne RTX A6000 / RTX 5000 Ada (32GB Workstation-Karte)
- Apple M2 Ultra mit 32 GB Unified Memory (oder M3 Max mit 36 GB)
- Dual RTX 4060 Ti 16GB (32GB kombiniert via Layer-Splitting)
- AMD Radeon Pro W6800 32GB
Leistungserwartungen
| Modell | Quantisierung | Kontext | Hardware | Tokens/Sek. |
|---|---|---|---|---|
| Llama-3.1-70B | Q4_K_M | 12K | Dual RTX 3090 (48GB gesamt) | 14–22 t/s |
| Qwen2.5-72B | Q4_K_M | 8K | Dual RTX 3090 | 12–20 t/s |
| Mixtral-8x22B | Q4_K_M | 8K | RTX A6000 32GB | 15–22 t/s |
| Command-R-Plus (104B) | Q3_K_M | 4K | Apple M2 Ultra 32GB | 6–10 t/s |
48 GB VRAM-Stufe — Die Workstation-Klasse
Achtundvierzig Gigabyte sind das Reich von Dual-RTX-3090/4090-Setups in NVLink, RTX A6000 Ada (48 GB) und High-End Apple Silicon (M2 Ultra 48 GB+). Diese Stufe betreibt komfortabel 70B-Modelle in Q6_K oder Q8_0 mit 16K–32K Kontext und kann sogar 120B+-Modelle in Q4 hosten. Es ist das Ziel für diejenigen, die lokale KI als primäres Arbeitswerkzeug nutzen — Forscher, Indie-Entwickler, die KI-native Apps bauen, und Unternehmen, die Daten im Haus behalten.
Top-Modellauswahl für 48 GB VRAM
- Llama-3.1-70B-Instruct — Q6_K oder Q8_0 — In nahezu verlustfreier Quantisierung mit 32K Kontext ist dies das lokale KI-Erlebnis, das gehosteten APIs am nächsten kommt. Atemberaubende Qualität für professionelles Schreiben, Analyse und agentische Workflows.
- Qwen2.5-72B-Instruct — Q6_K — Einen 72B in Q6_K mit 16K+ Kontext zu betreiben, ist ein Premium-Erlebnis für Coding, Mathematik und strukturierte Datenaufgaben.
- Command-R-Plus (104B) — Q4_K_M — Passt auf 48 GB mit 6K–10K Kontext; eine starke Wahl für Unternehmens-RAG-Pipelines und Langdokument-Zusammenfassung.
- Falcon-40B-Instruct — Q8_0 oder FP16 — Obwohl älter, ist Falcons 40B in voller Präzision auf 48 GB ein Forschungsliebling für Fine-Tuning-Experimente und strukturierte Ausgabe.
- Yi-34B-200K — Q5_K_M — Yis massives natives 200K-Kontextfenster wird auf 48 GB praktisch nutzbar. In Q5_K_M mit 32K–64K Kontext ist es ideal für juristische Dokumentenprüfung und akademische Forschung.
- DeepSeek-V2-Chat (236B MoE) — IQ3_XXS — Das volle DeepSeek MoE in Ultra-Niedrig-Quants passt gerade so auf 48 GB mit 2K–4K Kontext. Ein Blick auf die Grenze der lokalen MoE-Inferenz.
KV-Cache & Kontexteinstellungen für 48 GB
- 70B in Q6/Q8: 16K–32K Kontext ist komfortabel; mit Flash Attention und KV-Cache-Quantisierung sind 64K+ für einige Architekturen erreichbar.
- 100B+-Modelle in Q4: 6K–12K Kontext ist der praktische Bereich; die größere Parameterzahl bedeutet größere KV-Cache-Einträge pro Token.
- Modelle mit nativem 200K-Kontext (Yi): Wahrer 200K-Kontext erfordert das Deaktivieren der KV-Cache-Quantisierung und das Akzeptieren langsamerer Geschwindigkeiten (5–10 t/s), aber 32K–64K sind bei voller Geschwindigkeit perfekt nutzbar.
- NVLink-Vorteile: Bei Dual-3090/4090-Setups mit NVLink reduziert der Peer-to-Peer-Speicherzugriff den KV-Cache-Replikations-Overhead und erhöht den nutzbaren Cache effektiv um 15–25 % im Vergleich zu Nicht-NVLink-Pooling.
Typische Hardware für 48-GB-Setups
- Dual RTX 4090 24GB (NVLink) oder Dual RTX 3090 24GB
- Einzelne NVIDIA RTX A6000 Ada 48GB
- NVIDIA L40 / L40S 48GB (Rechenzentrums-GPUs)
- Apple M2 Ultra mit 48 GB–64 GB Unified Memory
- Dual AMD Radeon Pro W7900 24GB (48GB kombiniert)
Leistungserwartungen
| Modell | Quantisierung | Kontext | Hardware | Tokens/Sek. |
|---|---|---|---|---|
| Llama-3.1-70B | Q8_0 | 32K | Dual RTX 4090 48GB | 18–28 t/s |
| Qwen2.5-72B | Q6_K | 16K | RTX A6000 Ada 48GB | 15–24 t/s |
| Command-R-Plus (104B) | Q4_K_M | 8K | Dual RTX 3090 48GB | 10–16 t/s |
| Yi-34B-200K | Q5_K_M | 48K | Dual RTX 4090 48GB | 12–18 t/s |
| DeepSeek-V2 (236B MoE) | IQ3_XXS | 3K | Apple M2 Ultra 64GB | 3–6 t/s |
KV-Cache & Kontextlänge — Der stille Leistungsregler
Wenn die Modellgröße der Motor ist, ist die KV-Cache-Konfiguration das Getriebe. Der Key-Value-Cache speichert die Attention-Keys und -Values für jeden Token in Ihrem Kontextfenster und wächst linear mit sowohl Modellgröße als auch Kontextlänge. Falsch konfiguriert, stürzt er entweder mit Out-of-Memory-Fehlern ab oder lässt erheblichen VRAM ungenutzt.
Wie viel VRAM verbraucht der KV-Cache?
Eine grobe Formel, die in der Community für ein Modell mit N Layern, H Hidden-Dimensionen und G KV-Köpfen verwendet wird, das C Kontext-Tokens mit B Bytes pro Cache-Element ausführt:
KV_cache_bytes ≈ 2 × N × G × (H / total_heads) × C × B × 2 (für K- und V-Matrizen)
In der Praxis können Sie für ein 7B-Modell bei 4K Kontext mit FP16 KV-Cache mit ~0,8–1,2 GB rechnen, die allein vom Cache verbraucht werden. Bei 32K Kontext wächst das auf 6–10 GB an. Deshalb ist die KV-Cache-Quantisierung (FP8, Q8_0, Q4_0) die wirkungsvollste Optimierung nach der Modellquantisierung selbst.
Community KV-Cache-Strategien
- Flash Attention 2/3: Reduziert den Spitzenspeicher während des Prefill, indem die Materialisierung der vollständigen Attention-Matrix vermieden wird. Unterstützt in exllamav2, vLLM und aktuellen llama.cpp-Builds.
- KV-Cache-Quantisierung (FP8 / Q8_0 / Q4_0): Tauscht eine winzige Menge an Ausgabequalität gegen 30–60 % Cache-Speicherersparnis. Auf 8-GB- und 16-GB-Karten ist dies oft der Unterschied zwischen einem 4K- und einem 12K-Kontextfenster.
- Sliding Window Attention: Einige Modelle (Mistral, einige Qwen-Varianten) verwenden Sliding Window Attention, die das Cache-Wachstum begrenzt und längere effektive Kontexte ohne lineare Speicherskalierung ermöglicht.
- Kontext-Auslagerung: In llama.cpp können ungenutzte KV-Cache-Anteile in den CPU-RAM ausgelagert werden, was jedoch eine erhebliche Latenzstrafe bei der Token-Generierung verursacht — am besten für Stapelverarbeitung reserviert, nicht für interaktiven Chat.
- Cache-Bereinigung / Räumungsrichtlinien: Fortschrittliche Backends wie vLLM implementieren intelligente Räumung weniger wichtiger KV-Einträge, wodurch die Qualität erhalten bleibt, während die Speichernutzung begrenzt wird — zunehmend für das Serving mit langem Kontext übernommen.
Hardware-bewusste Modellauswahl-Matrix
Verwenden Sie diese Kurzreferenztabelle, um Ihre Hardware der optimalen Modellstufe und dem erwarteten Erfahrungsniveau zuzuordnen:
| Ihr VRAM | Empfohlene Modellklasse | Quantisierungsbereich | Komfortabler Kontext | Erfahrungsniveau |
|---|---|---|---|---|
| 8 GB | 3B–8B | Q4_K_M bis Q8_0 (für <5B) | 4K–12K | Alltagsassistent, leichtes Coding, Zusammenfassung |
| 16 GB | 8B–14B (oder MoE in IQ3) | Q4_K_M bis Q8_0 | 8K–32K | Ernsthafter Hobbyist, professionelles Schreiben, mittelkomplexes Coding |
| 24 GB | 14B–34B (oder 70B in IQ2) | Q4_K_M bis Q6_K | 8K–32K | Enthusiast, fortgeschrittenes Coding, Forschung, kreative Arbeit |
| 32 GB | 34B–72B | Q4_K_M bis Q5_K_M | 8K–32K | Prosumer, Unternehmens-RAG, mehrsprachige Analyse |
| 48 GB | 70B–104B (oder MoE in Q4+) | Q4_K_M bis Q8_0 | 16K–64K | Workstation, Fine-Tuning, agentische Systeme, juristische/akademische Forschung |
Reale Leistungsbenchmarks — Tokens pro Sekunde & Qualitätsabwägungen
Leistung ist ein nuanciertes Konzept in der lokalen KI. Rohe Tokens-pro-Sekunde sind nur eine Achse; Time-to-First-Token (TTFT), Prompt-Verarbeitungsgeschwindigkeit und Ausgabequalität bei einer bestimmten Quant spielen alle eine Rolle. Community-Benchmarks zeigen konsistent:
- TTFT wird bei langen Kontexten zum Engpass: Die Verarbeitung eines 32K-Token-Prompts auf einem 70B-Modell kann 30–90 Sekunden dauern, bevor der erste Token erscheint, selbst auf 48-GB-Dual-GPU-Setups. Flash Attention und Prompt-Caching in Backends wie vLLM mildern dies.
- IQ-Quants vs. K-Quants: Die neueren IQ-Quants (Integer Quantization) von llama.cpp bewahren bei gleichen Bitbreiten im Allgemeinen mehr Qualität im Vergleich zur älteren K-Quant-Serie, insbesondere auf 2-Bit- und 3-Bit-Niveau. Für 70B auf 24 GB übertrifft IQ3_XXS oft Q3_K_S in menschlichen Präferenztests.
- exllamav2 vs. llama.cpp: Für reine GPU-Inferenz auf NVIDIA-Hardware liefert exllamav2 konsistent 10–25 % höheren Durchsatz und niedrigere Latenz. llama.cpp bleibt der König der plattformübergreifenden Kompatibilität (Apple Silicon, AMD, Intel, CPU-Fallback).
- Batch-Größe ist wichtig für den Durchsatz: Wenn Sie mehrere Benutzer bedienen oder Stapelauswertungen durchführen, kann vLLM mit kontinuierlichem Batching den effektiven Durchsatz im Vergleich zur Single-Stream-Inferenz in llama.cpp um das 3–5-fache vervielfachen.
Wofür werden diese Modelle tatsächlich genutzt?
Die Frage "Wofür nutzt ihr eure Modelle?" offenbart die unglaubliche Vielfalt lokaler KI-Anwendungen. Basierend auf aggregierten Community-Antworten sind hier die häufigsten Anwendungsfälle auf jeder Stufe:
8-GB-Stufe — Alltags-KI-Assistenten
- Datenschutz-zuerst Persönliches Journaling und Reflexion mit lokalem Chat (keine Daten verlassen das Gerät)
- Coding Leichtgewichtige Code-Autovervollständigung und Inline-Vorschläge (Continue.dev + Ollama)
- Bildung Sprachlernpartner, Karteikartenerstellung, Lehrbuch-Fragen & Antworten
- Kreativ Kurzgeschichten-Entwurf, D&D-Kampagnennotizen, NPC-Dialoggenerierung
- Heimautomatisierung Geräteinterne Absichtserkennung für Home Assistant Sprachsteuerung
16-GB-Stufe — Professionelle & kreative Kraftpakete
- Entwicklung Full-Stack-Code-Generierung, Refactoring und Test-Erstellung mit dedizierten Code-Modellen
- Schreiben Langtext-Erstellung, Bearbeitung und Stiltransfer (Romane, Drehbücher, Marketingtexte)
- Forschung Zusammenfassung von Papers, Zitationsextraktion, Unterstützung bei Literaturrecherchen
- Mehrsprachig Übersetzung und sprachübergreifende Inhaltserstellung mit Qwen oder Mistral-Nemo
- Gaming KI-gesteuerte NPCs in modifizierten Spielen (Skyrim, Mount & Blade) über lokale API-Server
24-GB+-Stufe — Fortgeschrittene & Unternehmens-Workloads
- Agentische KI Mehrschrittige autonome Agenten für Forschung, Datenanalyse und Aufgabenautomatisierung
- Juristisch Vertragsprüfung, Klauselextraktion, Compliance-Prüfung mit Modellen mit langem Kontext
- Akademisch Vollständige Papieranalyse, Querverweis-Verifizierung, Hypothesengenerierung
- Unternehmens-RAG Interne Wissensdatenbank-Fragen & Antworten mit 70B+-Modellen auf proprietären Dokumenten
- Fine-Tuning LoRA/QLoRA-Fine-Tuning von 7B–13B-Modellen für domänenspezifische Aufgaben, wobei die größere GPU für das Training genutzt wird, während die Inferenz anderswo läuft
- Medizin/Gesundheit Vor-Ort-Analyse klinischer Notizen (HIPAA-konform, keine Cloud-Exposition)
Häufig gestellte Fragen
Was ist das absolut beste Modell, das ich derzeit auf 8 GB VRAM betreiben kann?
Stand Mitte 2025 weist der Community-Konsens auf Llama-3.1-8B-Instruct in Q4_K_M oder Gemma-2-9B-Instruct in IQ4_NL als Top-Anwärter hin. Gemma-2-9B bietet etwas bessere Faktenkorrektheit, während Llama-3.1-8B bei kreativen Aufgaben und konversationellen Nuancen glänzt. Beide passen auf 8 GB mit 4K–8K Kontext. Für reine Geschwindigkeit liefert Phi-3-mini (3.8B) in FP16 rasante 90+ t/s auf einer RTX 3070.
Kann ich ein 70B-Modell auf einer einzelnen 24-GB-GPU betreiben?
Ja, aber mit erheblichen Einschränkungen. Mit IQ2_XXS- oder IQ3_XXS-Quantisierung aus dem neuesten llama.cpp kann ein 70B-Modell auf 24 GB geladen werden, wobei etwa 2–4 GB für den KV-Cache übrig bleiben — genug für ein 2K–4K-Kontextfenster. Die Ausgabequalität ist im Vergleich zu Q4 gemindert, aber für bestimmte analytische Aufgaben, die von der tieferen Argumentationsfähigkeit des 70B profitieren, kann es dennoch kleinere Modelle übertreffen. Dies ist eine experimentelle Konfiguration, kein Daily Driver für die meisten Nutzer.
Wie wähle ich zwischen exllamav2, llama.cpp und vLLM?
exllamav2: Beste Rohleistung auf NVIDIA-GPUs. Unterstützt Flash Attention, FP8 KV-Cache und effiziente Tensorparallelität. Ideal für interaktive Einzelnutzer-Inferenz auf 8-GB–48-GB-NVIDIA-Karten.
llama.cpp: Die universelle Wahl. Läuft auf NVIDIA, AMD, Apple Silicon, Intel und sogar nur auf CPU. Unterstützt die breiteste Palette an Quantisierungsformaten (GGUF, IQ-Serie). Am besten für plattformübergreifende Setups und Apple-Silicon-Nutzer.
vLLM: Gebaut für das Serving. Wenn Sie einen OpenAI-kompatiblen API-Endpunkt mit kontinuierlichem Batching für mehrere gleichzeitige Nutzer benötigen, ist vLLM der Goldstandard. Erfordert mehr Einrichtung, liefert aber unübertroffenen Durchsatz für Produktionsbereitstellungen.
Welche KV-Cache-Einstellungen sollte ich für Arbeiten mit langem Kontext (32K+) verwenden?
Aktivieren Sie Flash Attention und setzen Sie die KV-Cache-Quantisierung auf Q8_0 oder FP8. Auf einer 16-GB-Karte mit einem 8B-Modell in Q8_0 ermöglicht dies typischerweise 32K Kontext ohne Überlauf. Überwachen Sie Ihre VRAM-Auslastung während des Prefill — wenn Sie Spitzen nahe 95 % Auslastung sehen, reduzieren Sie den Kontext in 2K–4K-Schritten, bis es stabil ist. Für 48-GB+-Setups mit 70B-Modellen in Q6+ sind 32K–64K Kontext mit diesen Optimierungen routinemäßig erreichbar.
Ist Apple Silicon konkurrenzfähig für lokale KI?
Absolut. Die Unified-Memory-Architektur auf dem M2 Ultra (48 GB–64 GB) und M3 Max (36 GB+) ist ein Game-Changer. Während die rohe GPU-Rechenleistung geringer ist als bei einer RTX 4090, eliminiert die Fähigkeit, den gesamten Unified Memory dem Modell zuzuweisen, PCIe-Engpässe und ermöglicht den Betrieb von 70B-Modellen in Q4 mit 8K+ Kontext bei 8–15 t/s. Für Mac-zentrierte Entwickler ist dies ein nahtloses und leises lokales KI-Erlebnis. Das Metal-Backend in llama.cpp ist erheblich gereift.
Was hat es mit Mixture of Experts (MoE)-Modellen und VRAM auf sich?
MoE-Modelle wie Mixtral-8x7B und DeepSeek-V2 halten die Gesamtparameterzahl hoch, aktivieren aber nur einen Bruchteil pro Token. Das bedeutet, der VRAM muss das gesamte Modell (alle Experten) vorhalten, aber die Rechenkosten pro Token sind viel niedriger. Der VRAM-Bedarf wird durch die Gesamtparameter bestimmt, nicht durch die aktiven Parameter. Deshalb passt ein 46B-Gesamt-Mixtral in Q4 auf 24 GB, ein dichtes 46B-Modell in Q4 hingegen nicht. MoE-Modelle sind ein exzellenter Weg, um in Ihrer VRAM-Gewichtsklasse bei der Generierungsqualität "über das Gewicht zu boxen", aber sie reduzieren nicht den Speicherbedarf.
Fazit — Community-Weisheit zum Aufbau Ihres lokalen KI-Stacks
Die Frage "Welche Modelle betreibt ihr?" bringt alle paar Monate eine andere Antwort hervor — und das ist das Schöne an der lokalen KI-Bewegung. Hardware, die gestern noch eingeschränkt schien, betreibt heute ein ausgefeiltes 8B-Modell mit 32K Kontext. Das kollektive Tüfteln, Benchmarken und Quant-Verschieben aus der Open-Source-Community definiert kontinuierlich neu, was auf Consumer-Silizium möglich ist.
Wenn es eine Meta-Erkenntnis aus Hunderten von Community-Antworten gibt, dann diese: Beginnen Sie mit dem besten Modell, das Ihr VRAM komfortabel in Q4_K_M oder höher hostet, justieren Sie Ihren KV-Cache auf 8K–16K Kontext ein und widerstehen Sie dem Drang, den neuesten Ultra-Quants hinterherzujagen, es sei denn, Sie benötigen wirklich die tiefere Argumentationsfähigkeit des größeren Modells. Ein flottes, zuverlässiges 8B-Setup übertrifft oft ein träges, speicherhungriges 70B für den täglichen Gebrauch.
Wichtige Erkenntnisse, um Ihre lokale KI-Reise zukunftssicher zu machen:
- Quantisierung ist Ihr bester Freund. Die IQ-Serie und K-Quants machen Modelle 2–4× kleiner mit minimalem Qualitätsverlust. Bevorzugen Sie immer Q4_K_M oder Q5_K_M als Basis; gehen Sie nur bei Bedarf niedriger.
- KV-Cache-Tuning ist nicht optional. Investieren Sie Zeit in die Feinabstimmung von Kontextlänge, Cache-Quantisierung und Flash Attention. Dies ist der Unterschied zwischen einem reibungslosen Erlebnis und ständigen OOM-Abstürzen.
- Die Backend-Wahl ist wichtig. exllamav2 für NVIDIA-Geschwindigkeit, llama.cpp für universelle Kompatibilität, vLLM für das Serving. Zögern Sie nicht, die Backends zu wechseln, wenn sich Ihre Anforderungen weiterentwickeln.
- Community-Wissen kumuliert. Die hier dokumentierten Setups stellen eine Momentaufnahme von Mitte 2025 dar. Verfolgen Sie die aktiven Threads, Discord-Server und GitHub-Diskussionen — der nächste Durchbruch bei Quantisierung oder Architektur ist wahrscheinlich nur Wochen entfernt.
- Definieren Sie zuerst Ihren Anwendungsfall. Ein Code-Modell für die Cursor-Integration, ein kreatives Modell für Romanentwürfe und ein Argumentationsmodell für die Forschung sind unterschiedliche Werkzeuge. Bauen Sie Ihren Stack um das herum, was Sie tatsächlich täglich tun, nicht um Benchmark-Ergebnisse.
Dieser Leitfaden aggregiert Community-Erfahrungen und wird regelmäßig aktualisiert, wenn neue Modelle, Quantisierungsmethoden und Inference-Backends auftauchen. Letzte Aktualisierung: Juni 2025. Ihre Ergebnisse können je nach Treiberversionen, Backend-Builds und spezifischen Hardware-Konfigurationen variieren. Testen Sie immer mit Ihrer eigenen Arbeitslast, bevor Sie sich auf einen Produktions-Stack festlegen.