Срочно! llama.cpp официально добавил поддержку Gemma 4 MTP — скорость локального инференса больших моделей за ночь взлетела на 300%
Внезапно! llama.cpp официально добавила поддержку Gemma 4 MTP, скорость локального вывода больших моделей выросла на 300% за одну ночь
Сегодня ранним утром сообщество open-source потрясла настоящая бомба: популярный среди разработчиков движок вывода на C++ llama.cpp незаметно объединил нативную поддержку Gemma 4 Multi-Token Prediction (MTP). Первым об этом сообщил пользователь Reddit /u/pinkyellowneon, мгновенно воспламенив энтузиазм в кругах локального ИИ. Это означает, что следующее поколение легковесной архитектуры Gemma 4, ещё не полностью раскрытое Google, получило совместимость с ключевой инфраструктурой вывода, а технология MTP, которую когда-то называли «решимостью нового поколения», официально шагнула из научных статей в обычные компьютеры пользователей.
Секретное оружие Gemma 4: что такое MTP, предсказывающий несколько токенов за раз?
Традиционные авторегрессионные большие модели похожи на человека, говорящего по слогам, — каждый раз предсказывают только следующий токен; глубоко интегрированный в Gemma 4 метод MTP (Multi-Token Prediction) даёт модели способность «видеть на три строки вперёд», параллельно предсказывая несколько будущих токенов. На уровне вывода это напрямую разрушает оковы пропускной способности видеопамяти и последовательной зависимости, позволяя увеличить пропускную способность генерации в 2–5 раз на том же оборудовании. Слитый в llama.cpp патч как раз компилирует эту опережающую способность декодирования в свою предельно оптимизированную систему квантизации и операторов, благодаря чему MTP больше не зависит от облачных TPU, а раскрывает свою мощь на потребительских видеокартах, Apple Silicon и даже обычных CPU.
Магия адаптации llama.cpp: всестороннее ускорение от периферии до флагманских устройств
Известный как инструмент, способный запускать большие модели даже на Raspberry Pi, llama.cpp всегда находится на передовой выжимания производительности. После добавления поддержки MTP движок в режимах половинной точности и 4-битной квантизации может напрямую задействовать модуль многоголового предсказания Gemma 4 и бесшовно сочетаться с существующим спекулятивным декодированием (Speculative Decoding). Ранние тесты, просочившиеся из сообщества, показывают: настольный ПК с RTX 4090 при запуске версии Gemma 4, сопоставимой с моделями на 7 миллиардов параметров, достигает скорости почти 200 токенов/с; даже на тонком ноутбуке, полагающемся только на CPU, можно получить плавность, близкую к диалогу в реальном времени. За этим стоит глубокая интеграция ручных оптимизаций llama.cpp для наборов инструкций ARM NEON, AVX2 и параллельного предсказания ветвлений MTP.
Тектонический сдвиг в open-source экосистеме: эра персональных моделей на сотни миллиардов параметров наступает раньше
Как только появилась новость, комментарии на GitHub и Reddit заполонили возгласы «В восторге» и «Наконец-то дождались». Разработчики в целом считают, что дверь, открытая llama.cpp для Gemma 4 MTP, — это очередной сокрушительный удар по модели закрытых API. Благодаря обязательствам Google по открытости, пользователи вскоре смогут запускать модели, сопоставимые по способности вывода с GPT-4, в полностью офлайн-среде с нулевой утечкой приватности. Один независимый разработчик прокомментировал: «Это позволяет мне круглосуточно запускать агента поддержки на MacBook с почти нулевыми затратами». Такие сценарии, как периферийные вычисления, приватные ИИ-ассистенты и офлайн-базы знаний, получат настоящее освобождение производительности благодаря этому слиянию.
Руководство для ранних последователей и взгляд в будущее
Разработчики и гики уже сейчас могут скомпилировать последнюю основную ветку llama.cpp, а когда Google официально откроет веса Gemma 4, достаточно будет одной простой команды для запуска интерактивного режима. Если вы обычный пользователь, просто следите за появлением инструментов для запуска в один клик, интегрирующих этот движок, таких как LM Studio, Ollama и другие. Этот шаг также посылает индустрии мощный сигнал: мульти-токеновое предсказание больше не является исследовательским резервом, а становится стандартом для больших моделей. Можно предвидеть, что с распространением MTP в экосистеме llama.cpp общая задержка локального вывода войдёт в диапазон менее ста миллисекунд, неощутимый для человеческого мозга, и у каждого появится живущий локально, молниеносно откликающийся супер-мозг.