12 ГБ видеопамяти выдают 120 токенов/с — Gemma 4 QAT выводит инференс больших моделей на потребительскую скоростную трассу

📅 2026-06-07 🤖 大模型智能生成

12 ГБ видеопамяти выдают 120 токенов/с: Gemma 4 QAT выводит инференс больших моделей на скоростную магистраль потребительского уровня

Проснулись утром — и 12-гигабайтная видеокарта внезапно стала идеальным оружием для больших моделей

Всего несколько часов назад Google незаметно выложила варианты серии Gemma 4 с обучением с учётом квантования (QAT), и версия с 12 млрд параметров мгновенно разожгла энтузиазм у обладателей скромной видеопамяти. Один разработчик сразу же провёл тестирование на своём GPU с 12 ГБ VRAM — результат ошеломляет: после полной загрузки модели в видеопамять скорость инференса взлетела до 120 токенов в секунду. Это не цифры из облачного кластера, а реальные показатели, полученные на одной-единственной потребительской видеокарте.

QAT + MTP: как двойная магия выжимает каждый байт пропускной способности

Техническая комбинация в этой новости выглядит крайне изящно. QAT, то есть обучение с учётом квантования, в отличие от традиционного посттренировочного квантования, встраивает низкоточные представления непосредственно в вычислительный граф ещё на этапе обучения, позволяя модели научиться сохранять высокое качество вывода в низкоразрядных средах — int8, int4 и подобных. А MTP (Multi-Token Prediction) предсказывает несколько токенов за один прямой проход, резко повышая пропускную способность. Разработчик использовал инференс-стек на базе llama.cpp, специально пропатченный поддержкой MTP для Gemma 4, загрузив одновременно основную квантованную модель gemma-4-12B-it-qat-GGUF от Unsloth и предоставленную Google неквантованную модель-помощницу qat-q4_0, которая применяется для вспомогательной генерации и тоже была конвертирована в формат GGUF и выложена на HuggingFace. Такая связка «основная модель + лёгкая модель-черновик» напоминает идею спекулятивного декодирования и поднимает эффективность генерации ещё на одну ступень.

Что означают 120 токенов/с: качественный скачок от «можно пользоваться» к «безупречной плавности»

Скорость 120 токенов в секунду уже в несколько раз превышает скорость чтения человека и практически полностью исключает ожидание в сценариях реального времени — диалогах, автодополнении кода, вопросах к локальной базе знаний. Раньше, чтобы уместить приличную модель с 10+ млрд параметров в 12 ГБ видеопамяти, приходилось мириться с компромиссными 10–20 токенов/с или даже ниже, нередко вылетая за границы памяти. Теперь Gemma 4 QAT за счёт компрессионной эффективности QAT и оптимизации пропускной способности MTP превращает видеокарту уровня RTX 4070, 3080 или A2000 в персональный инференс-сервер. Это не только оставляет далеко позади задержки облачных API, но и защищает конфиденциальность данных — огромный плюс как для легковесного корпоративного развёртывания, так и для личной среды энтузиастов.

Экосистема open source подхватывает на лету: на HuggingFace уже можно запускать и экспериментировать

Стоит отметить, что вся цепочка построена исключительно на открытых компонентах: llama.cpp, формат GGUF, скрипты квантования Unsloth, а также быстро конвертированные и загруженные сообществом файлы моделей. Такая открытость означает крайне низкий порог входа: любой разработчик с 12 ГБ видеопамяти может воспроизвести эту скоростную кривую в течение получаса. Решение Google одновременно форсировать QAT и MTP в Gemma 4 очевидно продиктовано огромным спросом open-source сообщества на компактные и сверхбыстрые модели; компания реальными действиями доставляет самые передовые техники ускорения инференса прямо на пользовательские устройства.

Зажжёт ли это очередную волну локального инференса?

Результат в 120 токенов/с — не изолированный бенчмарк, он способен переопределить ожидания от «локальных больших моделей». Когда 12-миллиардная модель способна выдавать такую скорость на видеокартах среднего класса, сохраняя при этом отличное качество генерации благодаря QAT, рушится стереотип, будто выход нужно искать исключительно в огромной видеопамяти или облаке. Для разработчиков вертикальных приложений это означает возможность встраивать Gemma 4 QAT в IDE-плагины, терминальных помощников, офлайн-переводчики и другие продукты, по-настоящему достигая лёгкости и приватности. По мере созревания новых форматов квантования и оптимизаций MTP мы вправе ожидать впечатляющих результатов даже на устройствах с 8 ГБ видеопамяти и меньше. Это не просто очередной релиз модели — это ключевой шаг к тому, чтобы вывести высокопроизводительный интеллект на массовую орбиту.