Нам срочно нужна модель 80–160B: рынок устройств с унифицированной памятью нуждается в большем количестве моделей

📅 2026-06-18 Reddit - LocalLLaMA

Срочно нужна модель на 80–160B: рынок устройств с унифицированной памятью требует новых моделей

Ландшафт локального ИИ-инференса изменился кардинально. Ещё несколько лет назад запуск модели с 70 миллиардами параметров на потребительском оборудовании был далёкой мечтой. Сегодня устройства с 96 ГБ, 128 ГБ или даже 192 ГБ унифицированной памяти стоят у нас на столах — Apple Mac Studio и MacBook Pro с чипами M-серии Max/Ultra, платформы AMD Ryzen AI Max «Strix Halo», NVIDIA DGX Spark и мульти-GPU-сборки с 4×RTX 3090 или RTX 6000 Pro. Эти машины жаждут «золотой середины», которую нынешняя экосистема моделей попросту не заполняет. Сообщество взывает: срочно нужна модель на 80–160B. Рынку устройств с унифицированной памятью требуется больше моделей.

За последние три месяца мы увидели поток способных малых моделей, таких как Qwen 27B и Gemma 31B, оптимизированных под скорость на GPU с малым объёмом VRAM и периферийных устройствах. На другом полюсе находятся колоссальные плотные и смесе-экспертные модели (400B, 600B, даже 1 триллион параметров), требующие корпоративных мульти-GPU-серверов. Но средний ярус — модели объёмом от 80 до 160 миллиардов параметров — остаётся слепым пятном. Именно такие архитектуры могли бы идеально насытить богатые памятью, но ограниченные по пропускной способности профили систем с унифицированной памятью и обеспечить беспрецедентное сочетание локального интеллекта, длины контекста и способности к рассуждению. Эта статья глубоко исследует причины несоответствия между «железом» и моделями, рассказывает, какие устройства голодают по средним гигантам, и что мы как сообщество можем сделать, чтобы ускорить перемены.

Взлёт потребительского оборудования с большим объёмом унифицированной памяти

Архитектуры с унифицированной памятью стёрли историческую грань между оперативной памятью ЦП и видеопамятью GPU. Когда единый пул в 96 или 128 ГБ доступен и процессору, и нейропроцессору, и интегрированному GPU, все веса модели, KV-кеш и контекстное окно могут размещаться в одном непрерывном пространстве. Это переломный момент для локального инференса больших языковых моделей. Рассмотрим ведущие платформы.

Apple Silicon: Mac с 96 ГБ памяти и более

Чипы M-серии Ultra и Max в Mac Studio и топовых конфигурациях MacBook Pro стали любимцами локальных ИИ-энтузиастов. M2 Ultra с 192 ГБ унифицированной памяти теоретически способен полностью загрузить глубоко квантованную 180B-модель в ОЗУ с пропускной способностью до 800 ГБ/с у Ultra. Даже M3 Max с 96 или 128 ГБ — это продуктивная машина для инференса. Однако этим устройствам нужны модели, которые полностью используют их объём памяти, не требуя вычислительной мощности полноразмерного датацентрового GPU. Модель на 100B, квантованная до 4 бит, удобно умещается в 50–60 ГБ, оставляя достаточно места для контекстного окна на 128K токенов.

AMD Ryzen AI Max и эра Strix Halo

Чипы AMD Ryzen AI Max (Strix Halo) с объёмом унифицированной памяти LPDDR5X до 128 ГБ и мощным интегрированным GPU на архитектуре RDNA 3.5 представляют собой ответ x86 на Apple Silicon. Ранние бенчмарки показывают, что эти APU способны полностью локально запускать модели на 70B. Но имея в распоряжении 128 ГБ, они только разминаются — отчаянно нуждаясь в модели на 120B или 150B со смесью экспертов (MoE), которая укладывается в 100 ГБ после 4-битного квантования. Сейчас эти гигабайты частично простаивают, потому что экосистема ПО ещё не предложила моделей, соответствующих аппетиту оборудования.

NVIDIA DGX Spark и рабочие станции с большим ОЗУ

NVIDIA DGX Spark (ранее Project Digits) привносит архитектуру Grace-Hopper на рабочий стол, оснащая его 128 ГБ унифицированной памяти LPDDR5X. Он создан для ИИ-разработки. Параллельно пользователи с картами RTX 6000 Pro (по 48 ГБ) или сборками с четырьмя RTX 3090 (суммарно 96 ГБ GDDR6X) объединяют видеопамять через параллелизм моделей. Такие системы способны разместить массивную модель, но им не нужен 400B-монстр, который выдаёт по токену в секунду. Им нужна плотная модель на 130B или MoE на 160B, работающая с интерактивной скоростью 5–10 токенов в секунду.

Мульти-GPU-конфигурации и системы со 128 ГБ DDR4/DDR5

Тихая революция происходит и среди пользователей с большим объёмом системного ОЗУ (128 ГБ DDR4/DDR5) и дискретными GPU, способными взять на себя часть модели. Через инференс в разделённом режиме llama.cpp они могут запускать крупные модели, распределяя их между системной и видеопамятью. Однако выбор моделей резко сужается после отметки в 70B. Замечание сообщества абсолютно верно: «Очень много людей имеют много, но недостаточно "медленной" ОЗУ». Оборудование ждёт.

Текущий ландшафт моделей: две крайности

Зоопарк открытых и дообученных сообществом моделей в последнее время разделился на два обособленных лагеря, оставив воронку посередине.

Малые, оптимизированные под скорость модели (27B–32B)

В последнем квартале наиболее хвалимые релизы были нацелены на высокоскоростные машины с малым объёмом памяти. Qwen 27B и Gemma 31B превосходны для своих размеров, легко работая на GPU с 24 ГБ VRAM и даже на смартфонах при квантовании. Они предлагают быстрое следование инструкциям, вызов инструментов и приемлемые рассуждения. Но их мировые знания, тонкое понимание инструкций и стабильность на длинном контексте всё ещё значительно уступают тому, что может предложить модель уровня 100B+. Они спроектированы для максимально широкой аудитории, а не для тех, кто уже инвестировал в пулы памяти объёмом 96+ ГБ.

Колоссальные модели (400B+)

На противоположном берегу находятся гиганты вроде DeepSeek-V3 (671B MoE), Llama 3.1 405B и различных слияний сообщества масштаба 600B. Эти модели ошеломляюще умны, но обычно требуют нескольких узлов с A100 80 ГБ или H100 для обслуживания с приемлемой скоростью. Даже DGX Spark может запустить агрессивно квантованную 405B-модель лишь со скоростью 1–2 токена в секунду, что делает её непрактичной для интерактивного использования. Пропасть в ресурсах между 32B и 400B колоссальна.

Недостающее среднее звено: 80–160 миллиардов параметров

В промежутке от 80 до 160 миллиардов параметров лежит проектное пространство, идеально соответствующее устройствам с унифицированной памятью ёмкостью от 96 до 192 ГБ. Подумайте:

Плотная модель на 100B при квантовании Q4_K_M требует примерно 56 ГБ памяти. Оставляет 40–70 ГБ на KV-кеш, позволяя вместить до 100K токенов контекста на 128 ГБ системе.
MoE-модель на 140B (с ~20B активных параметров на токен) способна работать с впечатляющей скоростью на M3 Max, используя лишь долю пропускной способности памяти по сравнению с плотной моделью сопоставимого размера, и при этом демонстрировать сложные рассуждения.
Модель на 160B, квантованная до 3 бит, умещается в 65 ГБ, оставляя щедрый запас для многозадачности на 96 ГБ MacBook.

Спрос огромен. Пост сообщества, породивший эту дискуссию, был не просто пожеланием — он отражал настроения тысяч пользователей с Apple-устройствами объёмом >96 ГБ, системами на Ryzen AI 395, устройствами DGX Spark и мульти-GPU-рабочими станциями, которые коллективно устали запускать «маленькие» 70B-модели, не насыщающие их оборудование, или 400B+-модели, заставляющие кулеры выть ради ручейка в 0,3 токена в секунду.

Почему нам срочно нужны модели на 80–160B для устройств с унифицированной памятью

Идеальная подгонка под буферы VRAM/ОЗУ в 96–192 ГБ

4-битно квантованная модель на 80B занимает приблизительно 45 ГБ; модель на 160B — около 85 ГБ. Это «зона Златовласки» для конфигураций на 96, 128 и 192 ГБ, которые наводняют просьюмерский рынок. Пользователи могут разместить в едином пуле унифицированной памяти веса модели, массивное контекстное окно и даже вторую модель для спекулятивного декодирования или кодировщик зрения — не прибегая к свопингу на SSD.

Баланс интеллекта и скорости инференса

Качество модели растёт с числом параметров. Переход от 70B к 130B часто приносит квантовый скачок в логических рассуждениях, генерации кода, многоэтапном планировании и фактической точности. В то же время модель на 130B на APU Strix Halo всё ещё способна достигать 8–12 токенов в секунду с оптимизированными ML-фреймворками, такими как MLC-LLM или llama.cpp с бэкендами Metal/CUDA/ROCm. Это достаточно быстро для чата в реальном времени, агентных циклов и локальных копилот-ассистентов — без запредельной задержки 405B-монстра.

Обеспечение сложных агентных рабочих процессов локально

Будущее локального ИИ агентно: модели, способные автономно работать в браузере, писать код, управлять файлами и выполнять многоэтапные задачи. Таким агентам необходима большая рабочая память (KV-кеш) и способность обрабатывать сложные схемы инструментов. Модель на 70B часто испытывает трудности с поддержанием связных планов на длительных горизонтах; модель на 400B слишком медленна. Модель на 80–160B может стать идеальным автономным мозгом агента для приватного, постоянно включённого ассистента на устройстве.

Практические выводы: как сообщество может продвигать создание новых моделей

Релизы моделей определяются рыночными сигналами и голосом сообщества. Вот как мы можем сделать отсутствующее среднее звено невозможным для игнорирования:

Открыто заявляйте о потребности на платформах open‑source — создавайте issues и обсуждения на GitHub в крупных проектах (llama.cpp, MLC‑LLM, vLLM), демонстрируя возможности оборудования и пробел в моделях.
Проводите бенчмарки и демонстрируйте готовность «железа» — публикуйте бенчмарки инференса существующих крупных моделей на устройствах с 96+ ГБ, явно указывая, сколько потенциала остаётся незадействованным.
Побуждайте лаборатории выпускать промежуточные чекпоинты — просите ведущие ИИ-компании (Meta, Qwen, DeepSeek, Mistral) выпускать не только варианты 7B‑30B и 400B+, но и тренировочные чекпоинты 80B‑160B, которые сообщество сможет дообучать.
Финансируйте и спонсируйте дообучение силами сообщества — объединяйте ресурсы через краудфандинг, чтобы взять открытую базовую модель на 80B и создать instruct-, code- и агентные версии, оптимизированные под 4-битный инференс на унифицированной памяти.
Создайте единую таблицу лидеров — ранжируйте модели специально по бенчмарку «локальный инференс на 96–192 ГБ», привлекая внимание к моделям, подходящим под этот аппаратный профиль.

Технические аспекты запуска моделей 80–160B на унифицированной памяти

Квантование, Q4_K_M и требования к памяти

Для практического локального развёртывания квантование обязательно. Вот краткая справка по использованию памяти (приблизительно) при пуле унифицированной памяти в 128 ГБ:

Модель 80B, Q4_K_M: ~45 ГБ. Остаётся 83 ГБ — идеально для контекстных окон в 100K+ токенов.
Модель 120B, Q4_K_M: ~67 ГБ. Оставляет 60 ГБ на KV‑кеш и системные нужды, достаточно для контекста в 64K.
Модель 160B, IQ3_XXS: ~65 ГБ с хорошим сохранением качества. Позволяет запускать модель на 160B даже на 96 ГБ Mac с умеренным контекстом.

Технология эффективного квантования существует уже сегодня. Не хватает именно той базы моделей, которая максимизирует соотношение качества на гигабайт в данной параметрической категории.

Пропускная способность памяти против вычислений: узкое место

Системы с унифицированной памятью часто ограничены пропускной способностью памяти, а не вычислениями. M2 Ultra обеспечивает 800 ГБ/с, APU Strix Halo — около 500 ГБ/с. Плотная модель на 100B при 4 битах считывает 50 ГБ на каждый шаг генерации токена. При 800 ГБ/с теоретическая выдача токенов составляет около 16 токенов/с — вполне интерактивно. Архитектуры MoE могут сдвинуть этот показатель ещё дальше, сохраняя активные параметры низкими (например, 20B из 140B), тем самым снижая объём чтения памяти на токен. Индустрии необходимы MoE- или разреженные модели диапазона 80–160B, спроектированные с учётом этой характеристики пропускной способности.

Часто задаваемые вопросы

Почему бы просто не запускать модель на 70B с огромным контекстным окном?

Хотя модели на 70B можно растянуть на длинные контексты, их фундаментальные способности к рассуждению упираются в потолок. Модель на 100B–130B по своей природе обладает большей фактологической глубиной, лучшей цепью рассуждений и более надёжным использованием инструментов — даже до расширения контекста. Это разница между моделью, способной пересказать 200-страничный документ, и моделью, которая также умеет перекрёстно ссылаться и глубоко рассуждать по его содержанию без галлюцинаций.

Могу ли я сейчас запустить модель на 120B на Mac со 128 ГБ ОЗУ?

Технически да — вы можете скачать Goliath 120B или квантованное слияние на базе Llama‑2. Но разрыв в качестве по сравнению с современными архитектурами огромен, потому что эти старые модели не получили преимуществ новейших данных предобучения и техник выравнивания. Цель — иметь современные модели на 80–160B с тренировочными рецептами уровня Qwen‑2, DeepSeek или Gemma.

Какой фреймворк лучше всего подходит для инференса моделей 80–160B на унифицированной памяти?

llama.cpp (с бэкендами Metal, CUDA или ROCm) — любимец сообщества за свою эффективность по памяти. MLC‑LLM предлагает отличную производительность на Metal и Vulkan. Для агентных рабочих процессов LM Studio и Ollama предоставляют удобные оболочки. Узкое место — не среда исполнения, а доступность хорошо квантованных файлов моделей.

Анонсированы ли скорые релизы моделей на 80–160B?

Хотя слухи время от времени всплывают в ИИ‑твиттере и блогах исследовательских лабораторий, ни одного крупного открытого релиза точно в этом диапазоне на момент написания статьи подтверждено не было. Это молчание подчёркивает безотлагательность. Чем активнее сообщество будет сигнализировать о существовании рынка, тем быстрее развернётся цикл релизов.

Заключение: революции унифицированной памяти нужны свои герои-модели

Мы находимся в точке перегиба аппаратных возможностей. Впервые мощные, способные к ИИ устройства с унифицированной памятью не заперты в серверных стойках — они стоят на столах, внутри ноутбуков и в мини‑кластерах уровня разработчика. Но весь этот потенциал остаётся полуиспользованным без правильного программного мозга. Призыв ясен: срочно нужна модель на 80–160B. Рынку устройств с унифицированной памятью требуется больше моделей. Это обращение к ИИ‑лабораториям, участникам open‑source и сообществам энтузиастов «железа» — сотрудничайте, финансируйте и разрабатывайте недостающее среднее звено. Только тогда мы раскроем истинный потенциал наших машин с большой памятью — превратив простаивающие гигабайты в интеллектуальных, отзывчивых и глубоко способных локальных ИИ‑агентов.

Если вы разработчик моделей, производитель оборудования или просто обладатель 128 ГБ ОЗУ с желанием продвинуть локальный ИИ вперёд — настало время сократить разрыв. Давайте строить будущее 100B‑класса вместе.