Wir brauchen dringend ein 80–160B-Modell: Der Markt für Unified-Memory-Geräte braucht mehr Modelle
Wir brauchen dringend ein 80–160B-Modell: Der Unified-Memory-Gerätemarkt braucht mehr Modelle
Die Landschaft der lokalen KI-Inferenz hat sich dramatisch verändert. Noch vor wenigen Jahren war das Ausführen eines Modells mit 70 Milliarden Parametern auf Consumer-Hardware ein ferner Traum. Heute stehen Geräte mit 96 GB, 128 GB oder sogar 192 GB Unified Memory auf unseren Schreibtischen – Apple Mac Studios und MacBook Pros mit M‑Serie Max/Ultra‑Chips, AMD Ryzen AI Max „Strix Halo"-Plattformen, NVIDIAs DGX Spark und Multi‑GPU‑Rigs mit 4× RTX 3090 oder RTX 6000 Pro. Diese Maschinen verlangen nach einem Sweet Spot, den das aktuelle Modell-Ökosystem schlichtweg nicht bedient. Die Community schreit auf: Wir brauchen dringend ein 80–160B-Modell. Der Unified-Memory-Gerätemarkt braucht mehr Modelle.
In den letzten drei Monaten erlebten wir eine Flut leistungsfähiger kleiner Modelle wie Qwen 27B und Gemma 31B – optimiert für Geschwindigkeit auf GPUs mit wenig VRAM und Edge-Geräten. Am anderen Extrem stehen kolossale dichte und Mixture‑of‑Experts‑Modelle (400B, 600B, sogar 1 Billion Parameter), die Multi‑GPU‑Server auf Unternehmensniveau erfordern. Doch die mittlere Klasse – Modelle zwischen 80 und 160 Milliarden Parametern – bleibt ein blinder Fleck. Genau diese Architekturen könnten die speicherreichen, bandbreitenbeschränkten Profile von Unified-Memory-Systemen auslasten und eine beispiellose Mischung aus lokaler Intelligenz, Kontextlänge und logischer Denkfähigkeit liefern. Dieser Artikel taucht tief in die Frage ein, warum diese Hardware-Modell-Diskrepanz existiert, welche Geräte nach mittelgroßen Giganten hungern und was wir als Community tun können, um den Wandel zu beschleunigen.
Der Aufstieg von Consumer-Hardware mit großem Unified Memory
Unified-Memory-Architekturen haben die historische Grenze zwischen CPU-RAM und GPU-VRAM aufgehoben. Wenn ein einzelner Pool von 96 GB oder 128 GB sowohl für den Prozessor als auch für die Neural Engine oder integrierte GPU zugänglich ist, können die gesamten Modellgewichte, der KV‑Cache und das Kontextfenster in einem zusammenhängenden Raum untergebracht werden. Dies ist ein Wendepunkt für lokale LLM-Inferenz. Werfen wir einen Blick auf die führenden Plattformen.
Apple Silicon: Macs mit 96 GB oder mehr
Die M‑Serie Ultra‑ und Max‑Chips im Mac Studio und in High-End-MacBook-Pro-Konfigurationen sind zu den Lieblingen lokaler KI-Enthusiasten geworden. Ein M2 Ultra mit 192 GB Unified Memory kann theoretisch ein stark quantisiertes 180B-Modell vollständig in den RAM laden, mit Bandbreiten von bis zu 800 GB/s beim Ultra. Selbst ein M3 Max mit 96 GB oder 128 GB ist eine produktive Inferenzmaschine. Allerdings benötigen diese Geräte Modelle, die ihre Speicherkapazität voll ausschöpfen, ohne die Rechenleistung einer vollwertigen Rechenzentrums-GPU zu benötigen. Ein auf 4‑Bit quantisiertes 100B-Modell passt bequem in 50–60 GB und lässt reichlich Raum für ein 128K-Kontextfenster.
AMD Ryzen AI Max und die Strix-Halo-Ära
AMDs Ryzen AI Max (Strix Halo) Chips mit bis zu 128 GB Unified LPDDR5X-Speicher und einer leistungsstarken integrierten RDNA 3.5 GPU stellen die x86-Antwort auf Apple Silicon dar. Frühe Benchmarks zeigen, dass diese APUs 70B-Modelle vollständig lokal ausführen können. Doch mit 128 GB zur Verfügung strecken sie erst ihre Beine aus – sie schreien nach einem 120B- oder 150B-Mixture‑of‑Experts‑(MoE)-Modell, das nach 4‑Bit-Quantisierung in unter 100 GB passt. Derzeit liegen diese Gigabytes teilweise brach, weil das Software-Ökosystem die Modelle, die dem Appetit der Hardware entsprechen, noch nicht geliefert hat.
NVIDIA DGX Spark und High-RAM-Workstations
NVIDIAs DGX Spark (ehemals Project Digits) bringt die Grace‑Hopper‑Architektur auf den Desktop, mit 128 GB Unified LPDDR5X-Speicher. Er ist für KI-Entwicklung gebaut. Gleichzeitig bündeln Nutzer mit RTX 6000 Pro Karten (je 48 GB) oder Rigs mit vier RTX 3090 (insgesamt 96 GB GDDR6X) ihren VRAM mittels Modellparallelität. Solche Systeme können ein massives Modell beherbergen, aber sie wollen keinen 400B-Koloss, der Token für Token dahinkriecht. Sie wollen ein 130B dichtes Modell oder ein 160B MoE, das mit interaktiven 5–10 Token pro Sekunde läuft.
Multi‑GPU‑Setups und Systeme mit 128 GB DDR4/DDR5
Eine stille Revolution vollzieht sich auch bei Nutzern mit großer System-RAM-Kapazität (128 GB DDR4/DDR5) und dedizierten GPUs, die einen Teil des Modells auslagern können. Durch die Split‑Mode-Inferenz von llama.cpp können sie große Modelle über CPU-RAM und GPU-VRAM hinweg ausführen. Doch oberhalb von 70B werden die Modelloptionen dramatisch dünner. Der Community-Hinweis trifft zu: „Es gibt so viele Leute, die viel, aber nicht genug ‚langsamen‘ RAM haben." Die Hardware wartet.
Die aktuelle Modelllandschaft: Zwei Extreme
Der Zoo der Open-Source- und Community-feingetunten Modelle hat sich zuletzt in zwei getrennte Lager gespalten und einen Krater in der Mitte hinterlassen.
Kleine, geschwindigkeitsoptimierte Modelle (27B–32B)
Im letzten Quartal zielten die meistgelobten Veröffentlichungen auf Hochgeschwindigkeitsmaschinen mit geringer Kapazität. Qwen 27B und Gemma 31B sind für ihre Größe herausragend und laufen mühelos auf 24-GB-VRAM-GPUs und quantisiert sogar auf Smartphones. Sie bieten schnelle Befehlsausführung, Werkzeugnutzung und akzeptables logisches Denken. Doch ihr Weltwissen, ihr nuanciertes Anweisungsverständnis und ihre Langkontext-Stabilität bleiben weit hinter dem zurück, was ein 100B+-Modell bieten kann. Sie sind für das breitestmögliche Publikum konzipiert, nicht für diejenigen, die bereits in 96-GB+-Speicherpools investiert haben.
Kolossale Modelle (400B+)
Am gegenüberliegenden Ufer thronen Giganten wie DeepSeek‑V3 (671B MoE), Llama 3.1 405B und die verschiedenen 600B-Community-Merges. Diese Modelle sind atemberaubend intelligent, benötigen jedoch routinemäßig mehrere A100-80GB- oder H100-Knoten, um in akzeptablem Tempo bedient werden zu können. Selbst ein DGX Spark kann ein aggressiv quantisiertes 405B-Modell nur mit 1–2 Token pro Sekunde ausführen, was es für den interaktiven Einsatz unpraktisch macht. Die Ressourcenkluft zwischen 32B und 400B ist gewaltig.
Die fehlende Mitte: 80–160 Milliarden Parameter
Zwischen 80 und 160 Milliarden Parametern liegt ein Designraum, der perfekt auf Unified-Memory-Geräte mit 96 GB bis 192 GB Kapazität abgestimmt ist. Man bedenke:
- Ein 100B dichtes Modell bei Q4_K_M-Quantisierung benötigt etwa 56 GB Speicher. Es lässt 40–70 GB für den KV‑Cache frei und ermöglicht bis zu 100K Token Kontext auf einem 128-GB-System.
- Ein 140B MoE-Modell (mit ~20B aktiven Parametern pro Token) könnte auf einem M3 Max mit beeindruckenden Geschwindigkeiten laufen, wobei nur ein Bruchteil der Speicherbandbreite eines vergleichbaren dichten Modells genutzt wird – und dennoch ausgefeiltes logisches Denken liefern.
- Ein auf 3‑Bit quantisiertes 160B-Modell passt in 65 GB und lässt großzügigen Spielraum für Multitasking auf einem 96-GB-MacBook.
Der Bedarf ist akut. Der Community-Beitrag, der diese Diskussion auslöste, war nicht nur ein Wunsch – er war ein Spiegelbild tausender Nutzer mit Apple-Geräten >96 GB, Ryzen AI 395 Systemen, DGX Spark Einheiten und Multi‑GPU‑Workstations, die es kollektiv leid sind, „kleine" 70B-Modelle auszuführen, die ihre Hardware nicht auslasten, oder 400B+-Modelle, die ihre Lüfter für ein 0,3 Token/Sekunde-Rinnsal aufheulen lassen.
Warum wir dringend 80–160B-Modelle für Unified-Memory-Geräte brauchen
Perfekte Passform für 96–192 GB VRAM/RAM-Puffer
Ein 4‑Bit quantisiertes 80B-Modell liegt bei etwa 45 GB; ein 160B-Modell bei etwa 85 GB. Diese Größen sind die „Goldlöckchen-Zone" für die 96-GB-, 128-GB- und 192-GB-Konfigurationen, die den Prosumer-Markt überschwemmen. Nutzer können die Modellgewichte, ein massives Kontextfenster und sogar ein zweites Modell für spekulative Dekodierung oder einen Vision‑Encoder zuweisen – alles innerhalb desselben Unified-Memory-Pools, ohne auf SSD auszulagern.
Balance zwischen Intelligenz und Inferenzgeschwindigkeit
Die Modellqualität skaliert mit der Parameterzahl. Der Sprung von 70B auf 130B bringt oft einen Quantensprung in logischem Denken, Codegenerierung, mehrschrittiger Planung und faktischem Erinnerungsvermögen. Gleichzeitig kann ein 130B-Modell auf einer Strix Halo APU immer noch 8–12 Token/Sekunde erreichen – mit optimierten ML‑Framework‑Backends wie MLC‑LLM oder llama.cpp mit Metal/CUDA/ROCm-Beschleunigung. Das ist schnell genug für Echtzeit‑Chat, agentische Schleifen und lokale Copilot‑Assistenten – ohne die prohibitive Latenz eines 405B-Monsters.
Ermöglichung ausgefeilter agentischer Workflows vor Ort
Die Zukunft der lokalen KI ist agentisch: Modelle, die autonom browsen, Code schreiben, Dateien verwalten und mehrschrittige Aufgaben ausführen können. Solche Agenten benötigen großen Arbeitsspeicher (KV‑Cache) und die Fähigkeit, komplexe Werkzeugnutzungsschemata zu bewältigen. Ein 70B-Modell hat oft Schwierigkeiten, kohärente Pläne über lange Horizonte aufrechtzuerhalten; ein 400B-Modell ist zu langsam. Ein 80–160B-Modell könnte das perfekte autonome Agentenhirn für einen privaten, stets eingeschalteten Geräteassistenten sein.
Umsetzbare Erkenntnisse: Wie die Community mehr Modelle vorantreiben kann
Modellveröffentlichungen werden durch Marktsignale und Community-Lautstärke gesteuert. So können wir die fehlende Mittelklasse unmöglich ignorierbar machen:
- Nachfrage auf Open-Source-Plattformen äußern – GitHub Issues und Diskussionen bei großen Projekten (llama.cpp, MLC‑LLM, vLLM) eröffnen, die die Hardware-Fähigkeiten und die Modelllücke aufzeigen.
- Hardware-Bereitschaft benchmarken und präsentieren – Inferenz-Benchmarks für existierende große Modelle auf 96-GB+-Geräten veröffentlichen und explizit darauf hinweisen, wie viel Spielraum noch vorhanden ist.
- Labore ermutigen, Zwischen-Checkpoints freizugeben – Führende KI-Unternehmen (Meta, Qwen, DeepSeek, Mistral) bitten, nicht nur die 7B‑30B- und 400B+-Varianten, sondern auch 80B‑160B-Trainings-Checkpoints zu veröffentlichen, die die Community feintunen kann.
- Community-Feintunes finanzieren und sponsern – Ressourcen via Crowdfunding bündeln, um ein Open-Source-80B-Basismodell zu nehmen und Instruct‑, Code‑ und agentische Versionen zu erstellen, die für 4‑Bit-Unified-Memory-Inferenz optimiert sind.
- Eine einheitliche Rangliste erstellen – Modelle speziell auf dem Leistungsbenchmark „96–192 GB lokale Inferenz" bewerten und so Modellen Sichtbarkeit geben, die dieses Hardwareprofil bedienen.
Technische Überlegungen zum Ausführen von 80–160B-Modellen auf Unified Memory
Quantisierung, Q4_K_M und Speicheranforderungen
Für den praktischen lokalen Einsatz ist Quantisierung unverhandelbar. Hier eine Kurzreferenz zur Speichernutzung (ungefähr) mit einem 128-GB-Unified-Memory-Pool:
- 80B-Modell, Q4_K_M: ~45 GB. Lässt 83 GB frei – ideal für 100K+-Kontextfenster.
- 120B-Modell, Q4_K_M: ~67 GB. Erlaubt 60 GB für KV‑Cache und System-Overhead, genug für einen 64K-Kontext.
- 160B-Modell, IQ3_XXS: ~65 GB mit solider Qualitätserhaltung. Ermöglicht das Ausführen eines 160B-Modells selbst auf 96-GB-Macs mit moderatem Kontext.
Die Technologie für effiziente Quantisierung existiert bereits heute. Was fehlt, ist die Modellbasis, die das Qualität-pro-GB-Verhältnis in dieser Parameterklasse maximiert.
Speicherbandbreite vs. Rechenleistung: Der Flaschenhals
Unified-Memory-Systeme sind oft bandbreiten- und nicht rechengebunden. Ein M2 Ultra bietet 800 GB/s, und eine Strix Halo APU bietet etwa 500 GB/s. Ein 100B dichtes Modell in 4‑Bit liest 50 GB pro Token-Generierungsschritt. Bei 800 GB/s beträgt die theoretische Token-Ausgabe etwa 16 Token/s – perfekt interaktiv. MoE-Architekturen können dies noch weiter verschieben, indem sie die aktiven Parameter niedrig halten (z. B. 20B von 140B), wodurch der Speicherlesevorgang pro Token reduziert wird. Die Industrie braucht MoE- oder spärliche Modelle im 80–160B-Bereich, die mit Blick auf diese Bandbreitencharakteristik entworfen wurden.
Häufig gestellte Fragen
Warum nicht einfach ein 70B-Modell mit riesigem Kontextfenster betreiben?
Obwohl 70B-Modelle auf lange Kontexte gestreckt werden können, ist ihre grundlegende Denkfähigkeit begrenzt. Ein 100B–130B-Modell besitzt von Natur aus mehr faktische Tiefe, besseres Chain‑of‑Thought und zuverlässigere Werkzeugnutzung – noch vor jeder Kontexterweiterung. Es ist der Unterschied zwischen einem Modell, das ein 200-seitiges Dokument zusammenfassen kann, und einem, das es auch querreferenzieren und tiefgreifend darüber nachdenken kann, ohne zu halluzinieren.
Kann ich derzeit ein 120B-Modell auf einem Mac mit 128 GB RAM ausführen?
Technisch ja – Sie können Goliath 120B oder einen quantisierten Llama‑2‑basierten Merge herunterladen. Doch der Qualitätsunterschied zu modernen Architekturen ist eklatant, weil diese älteren Modelle nicht von den neuesten Pretraining-Daten und Alignment-Techniken profitiert haben. Das Ziel ist es, moderne 80–160B-Modelle mit Trainingsrezepten der Qwen‑2‑, DeepSeek‑ oder Gemma‑Klasse zu haben.
Welches Framework eignet sich am besten für 80–160B-Modell-Inferenz auf Unified Memory?
llama.cpp (mit Metal‑, CUDA‑ oder ROCm‑Backends) ist der Community-Liebling für seine Speichereffizienz. MLC‑LLM bietet exzellente Leistung auf Metal und Vulkan. Für agentische Workflows bieten LM Studio und Ollama benutzerfreundliche Wrapper. Der Flaschenhals ist nicht die Laufzeitumgebung – es ist die Verfügbarkeit gut quantisierter Modelldateien.
Gibt es angekündigte 80–160B-Modelle, die bald erscheinen?
Während gelegentlich Gerüchte auf KI-Twitter und in Forschungsblogs auftauchen, wurde zum Zeitpunkt des Schreibens kein großer Open-Source-Release in genau dieser Spanne bestätigt. Dieses Schweigen unterstreicht die Dringlichkeit. Je mehr die Community signalisiert, dass der Markt existiert, desto schneller wird sich der Veröffentlichungszyklus neu ausrichten.
Fazit: Die Unified-Memory-Revolution braucht ihre Heldenmodelle
Wir stehen an einem Hardware-Wendepunkt. Zum ersten Mal sind leistungsstarke, KI-fähige Unified-Memory-Geräte nicht auf Server-Racks beschränkt – sie befinden sich auf Desktops, in Laptops und in entwicklertauglichen Mini-Clustern. Doch all diese Fähigkeiten bleiben ohne die richtigen Software-Gehirne halb genutzt. Der Appell ist klar: Wir brauchen dringend ein 80–160B-Modell. Der Unified-Memory-Gerätemarkt braucht mehr Modelle. Dies ist ein Aufruf an KI-Labore, Open-Source-Mitwirkende und hardwarebegeisterte Communities, zusammenzuarbeiten, zu finanzieren und die fehlende Mittelklasse zu entwickeln. Nur dann werden wir das wahre Potenzial unserer High-RAM-Maschinen entfesseln – und brachliegende Gigabytes in intelligente, reaktionsschnelle und zutiefst leistungsfähige lokale KI-Agenten verwandeln.
Wenn Sie Modellentwickler, Hardwareanbieter oder einfach jemand sind, der mit 128 GB RAM und dem Wunsch dasitzt, lokale KI voranzutreiben – es ist an der Zeit, die Lücke zu schließen. Lassen Sie uns gemeinsam die 100B-Klasse-Zukunft bauen.