Gemma 4 E2B, работающая в браузере со скоростью 255 ток/с с использованием ядер WebGPU — объяснение наследия оптимизации Fable 5

📅 2026-06-18 Reddit - LocalLLaMA

Gemma 4 E2B работает в браузере со скоростью 255 ток/с на ядрах WebGPU — наследие оптимизации Fable 5 | Полное руководство

Gemma 4 E2B работает в браузере со скоростью 255 ток/с на ядрах WebGPU — объяснение наследия оптимизации Fable 5

Барьер между облачными большими языковыми моделями и полностью локальным браузерным инференсом только что был dramatically снижен. Gemma 4 E2B от Google — квантованная, оптимизированная для мобильных устройств итерация семейства Gemma — теперь работает полностью внутри веб-браузера с поразительной скоростью 255 токенов в секунду на Apple M4 Max. Это достижение стало возможным благодаря кастомным ядрам WebGPU, изначально разработанным и доработанным студией Fable 5 — ныне закрытой студией, чья работа по оптимизации была открыта для сообщества. Сегодня любой желающий может опробовать живое демо на Hugging Face и изучить ядра, которые делают этот прорыв возможным.

Слияние обучения с учётом квантизации (QAT), мобильно-ориентированных архитектур трансформеров и чистой параллельной вычислительной мощности WebGPU открыло новый рубеж: инференс LLM промышленного уровня, который никогда не покидает ваше устройство. Никаких серверных обменов, никаких API-ключей, никаких скачков задержки из-за перегрузки сети — только чистая, локальная генерация токенов на скоростях, сопоставимых с выделенными десктопными приложениями. И в основе этой истории лежит горько-сладкое наследие Fable 5 — команды, чей опыт в разработке GPU-ядер продолжает приносить пользу экосистеме open-source AI ещё долго после их закрытия.

Что такое Gemma 4 E2B и почему это важно?

Gemma 4 E2B — это специализированный вариант семейства языковых моделей Gemma от Google, дообученный и сжатый для развёртывания на периферийных устройствах. Обозначение "E2B" указывает на архитектуру моста кодер-декодер, оптимизированную для инференса на устройстве, а "QAT" в полном названии модели — gemma-4-E2B-it-qat-mobile-transformers — означает обучение с учётом квантизации (Quantization-Aware Training). Эта техника симулирует арифметику пониженной точности на этапе обучения, создавая модель, которая устойчиво работает с 8-битной или даже 4-битной квантизацией без катастрофической потери точности.

В отличие от традиционной пост-тренировочной квантизации (PTQ), QAT встраивает численную устойчивость непосредственно в веса и активации модели. Результатом является компактная, но способная LLM, которая комфортно умещается в ограничениях памяти браузера, сохраняя при этом сильное поведение следования инструкциям. В сочетании с мобильно-оптимизированными блоками трансформеров Gemma 4 E2B становится идеальным кандидатом для ИИ-инференса в браузере — сценария, который был почти нереалистичным всего два года назад.

Ключевые характеристики модели Gemma 4 E2B

Архитектура: Мост кодер-декодер с мобильно-оптимизированными слоями трансформера
Квантизация: С поддержкой QAT, устойчива при 4-битном и 8-битном уровнях точности
Целевое развёртывание: Периферийные устройства, мобильные браузеры и среды с ускорением WebGPU
Размещена на Hugging Face: google/gemma-4-E2B-it-qat-mobile-transformers
Лицензия: Открытые веса, подходит для исследований и коммерческого прототипирования

Бенчмарк скорости: 255 токенов в секунду на M4 Max

Когда сообщество WebML сообщило о 255 токенах в секунду на Apple M4 Max с запуском модели Gemma 4 E2B полностью в браузере, мир AI-инженерии обратил на это внимание. Для контекста этой цифры:

Скорость чтения человека составляет в среднем примерно 5–7 токенов в секунду для глубокого понимания.
Типичные облачные API LLM выдают 20–60 токенов в секунду в идеальных сетевых условиях.
Локальные десктопные запускатели LLM (например, llama.cpp с выгрузкой на GPU) часто достигают пика в 40–100 ток/с на потребительском оборудовании.
255 ток/с означает, что модель может сгенерировать целое эссе на 500 слов примерно за две секунды — быстрее, чем большинство пользователей успевают прокрутить страницу.

Такая скорость преображает пользовательский опыт. Задержка становится незаметной. Приложения реального времени — диалоговые агенты, автодополнение кода, живой перевод — ощущаются мгновенными. И всё это происходит внутри стандартной вкладки веб-браузера, без установки какого-либо исполняемого файла.

Почему M4 Max превосходен в рабочих нагрузках WebGPU

M4 Max от Apple оснащён унифицированной архитектурой памяти, высокопропускным GPU с аппаратно-ускоренной трассировкой лучей и возможностями mesh shading, а также продвинутым Neural Engine. Ключевым является то, что M4 Max предоставляет эти ресурсы GPU браузеру через API WebGPU — современный графический и вычислительный интерфейс, заменяющий WebGL с меньшими накладными расходами и более тонким контролем над буферами команд GPU. Ядра Fable 5 используют эти возможности в полной мере, минимизируя задержки синхронизации CPU-GPU и максимизируя занятость шейдерных блоков.

Fable 5: студия, стоящая за ядрами WebGPU

Fable 5 была студией разработки с глубокими знаниями в области графики реального времени, вычислений на GPU и кроссплатформенной оптимизации. Перед своим закрытием команда посвятила значительные усилия созданию ядер WebGPU, специально адаптированных для инференса больших языковых моделей. Их работа была сосредоточена на:

Слитых ядрах внимания (fused attention kernels) — объединение нескольких операций внимания в одиночные диспетчеризации GPU для снижения использования пропускной способности памяти.
Кастомных шейдерах матричного умножения — вручную настроенный код на WGSL (WebGPU Shading Language), который превосходит универсальные библиотеки линейной алгебры в контексте браузера.
Оптимизациях раскладки памяти — перегруппировка тензоров весов для когерентных шаблонов доступа к памяти на плиточных архитектурах GPU, таких как у Apple.
Асинхронном планировании конвейера — перекрытие передач данных с вычислениями, чтобы GPU был постоянно загружен и минимизировать простой.

Когда Fable 5 прекратила свою деятельность, эти ядра могли исчезнуть. Вместо этого сообщество WebML вмешалось, сохранив и доработав кодовую базу. Теперь ядра публично доступны на Hugging Face Spaces, служа одновременно и практическим инструментом, и образовательным ресурсом для всех, кто интересуется браузерным GPU-ускорением для ИИ.

"Перед тем как Fable 5 закрылась, она помогла нам оптимизировать наши ядра WebGPU для Gemma 4, достигнув около 255 токенов в секунду на моём M4 Max. Сегодня мы публикуем демо и ядра, чтобы вы могли попробовать их сами."
— xenovatech, участник сообщества WebML

WebGPU: движок, обеспечивающий браузерное ускорение ИИ

WebGPU — это стандартизированный W3C преемник WebGL, разработанный с нуля для предоставления современных возможностей GPU — вычислительных шейдеров, буферов хранения и явного кодирования команд — веб-приложениям. В отличие от WebGL, который был ограничен своим наследием OpenGL ES, WebGPU напрямую отображается на нативные API, такие как Metal (на Apple Silicon), Vulkan (на Android и Linux) и DirectX 12 (на Windows).

Почему WebGPU превосходит WebGL для инференса LLM

Поддержка вычислительных шейдеров: WebGPU нативно поддерживает вычисления общего назначения на GPU, позволяя выполнять матричные умножения и механизмы внимания как шейдерные диспетчеризации.
Меньшие накладные расходы драйвера: Явное управление буферами и кодирование команд снижают затраты CPU на отправку работы GPU.
Привязка буферов хранения: Большие тензоры весов могут быть напрямую привязаны как буферы хранения, избегая обходных путей с текстурами, требуемых в WebGL.
Запросы временных меток: Разработчики могут точно измерять время выполнения GPU, позволяя целенаправленную оптимизацию узких мест в ядрах.
Кроссплатформенная согласованность: Единая кодовая база шейдеров на WGSL работает на macOS, Windows, ChromeOS и Android с минимальными платформенно-специфичными корректировками.

Ядра Fable 5 используют каждое из этих преимуществ. Путём написания непосредственно на WGSL и обхода промежуточных слоёв абстракции команда достигла уровней занятости GPU, с которыми универсальным движкам инференса трудно сравниться в контексте браузера.

Как работает демо — технический разбор

Демо Gemma 4 WebGPU, размещённое на Hugging Face Spaces, предоставляет полную, самодостаточную среду инференса. Вот что происходит под капотом, когда вы загружаете страницу:

Инициализация адаптера WebGPU: Браузер запрашивает адаптер GPU, предпочитая высокопроизводительные дискретные или интегрированные пути GPU. На M4 Max это отображается на бэкенд Metal.
Загрузка весов модели: Квантованные веса Gemma 4 E2B загружаются из CDN Hugging Face и отправляются в буферы хранения GPU. Веса, обученные с QAT, не требуют калибровки во время выполнения.
Компиляция ядер: Исходный код шейдеров WGSL от Fable 5 компилируется в специфичный для GPU двоичный код. Это происходит один раз, скомпилированный конвейер кэшируется для последующих инференсов.
Токенизация на JavaScript: Лёгкий токенизатор SentencePiece, реализованный на чистом JavaScript, преобразует ввод пользователя в ID токенов без обращений к серверу.
Цикл авторегрессивной генерации: Модель работает итеративно — каждый прямой проход производит один токен, который подаётся обратно как вход для следующего шага. Слитые ядра внимания и матричного умножения выполняются на каждой итерации.
Потоковый вывод: Токены декодируются в текст и отображаются инкрементально, создавая привычный опыт потокового чата — полностью локально, полностью в браузере.

🚀 Попробуйте живое демо

Испытайте инференс в браузере на скорости 255 ток/с лично. Установка не требуется — только браузер, совместимый с WebGPU (Chrome 113+, Edge 113+ или эквивалент).

🔗 Демо ядер Gemma 4 WebGPU на Hugging Face

Исходный код ядер включён в репозиторий Space для изучения и адаптации разработчиками.

Практические выводы: чему разработчики могут научиться у ядер Fable 5

Открытые ядра WebGPU — это больше, чем демо: это мастер-класс по браузерной оптимизации GPU. Вот конкретные уроки для разработчиков, создающих собственные решения для инференса в браузере:

1. Используйте WGSL для критически важных по производительности путей

Хотя высокоуровневые фреймворки, такие как TensorFlow.js и ONNX Runtime Web, обеспечивают удобство, вручную настроенные шейдеры WGSL стабильно превосходят автосгенерированные ядра для специфичных для трансформеров операций. Ядра Fable 5 демонстрируют, что слитое внимание, написанное непосредственно на WGSL, может сократить обращения к памяти на 30–50% по сравнению с универсальными реализациями.

2. Отдавайте приоритет пропускной способности памяти, а не FLOPs

На архитектурах с унифицированной памятью, таких как M-серия Apple, узким местом редко является чистый объём вычислений. Вместо этого пропускная способность памяти и использование кэша определяют пропускную способность. Ядра Fable 5 используют плиточные вычислительные шаблоны, которые сохраняют промежуточные результаты в памяти групп потоков GPU, drastically сокращая чтения из глобальной памяти устройства.

3. Используйте модели QAT для браузерного развёртывания

Обучение с учётом квантизации создаёт модели, численно устойчивые при низкой точности. При развёртывании в браузерах — где память разделяется с другими вкладками и приложениями — использование QAT-модели, такой как Gemma 4 E2B, позволяет избежать деградации точности, часто наблюдаемой при методах пост-тренировочной квантизации.

4. Неустанно профилируйте с помощью запросов временных меток WebGPU

Команда Fable 5 использовала встроенную функцию запроса временных меток WebGPU для точного определения того, какие диспетчеризации шейдеров потребляли больше всего циклов GPU. Этот подход, основанный на данных, позволил им сосредоточить усилия по оптимизации на реальных узких местах, а не на предположениях.

Более широкие последствия: ИИ в браузере становится мейнстримом

Публикация Gemma 4 E2B, работающей со скоростью 255 ток/с в браузере, сигнализирует о смене парадигмы. Годами нарратив утверждал, что серьёзный инференс ИИ требует облачных GPU или выделенных локальных сред выполнения. Это демо напрямую бросает вызов этому предположению. Рассмотрим последующие эффекты:

ИИ с сохранением конфиденциальности: Чувствительные данные никогда не покидают устройство пользователя. Медицинские, юридические и финансовые приложения могут использовать мощные LLM без рисков утечки данных.
Оффлайн-опыт: После кэширования весов модели инференс работает без подключения к интернету — идеально для полевых работ, путешествий и регионов с ненадёжным широкополосным доступом.
Развёртывание без установки: Пользователи получают доступ к передовому ИИ по URL. Никаких одобрений магазинов приложений, никаких трудностей установки, никаких головных болей с управлением версиями.
Демократизированный доступ: По мере расширения поддержки WebGPU в браузерах и на устройствах всё больше пользователей по всему миру получают доступ к способному локальному ИИ без дорогостоящего специализированного оборудования.

Ограничения и текущие проблемы

Несмотря на впечатляющую производительность, остаётся несколько ограничений:

Совместимость браузеров: WebGPU ещё не поддерживается повсеместно. Реализация Safari отстаёт от Chrome и Edge, а поддержка Firefox всё ещё находится в разработке.
Ограничения размера модели: Хотя Gemma 4 E2B оптимизирована для развёртывания на периферийных устройствах, более крупные модели (70B+ параметров) всё ещё превышают практические ограничения памяти браузера даже при агрессивной квантизации.
Задержка первой загрузки: Загрузка нескольких гигабайт весов модели при первом посещении может занять минуты на медленных соединениях, хотя кэширование смягчает это при повторных посещениях.
Тепловое троттлинг: Устойчивая генерация на 255 ток/с на ноутбуках может вызвать тепловое троттлинг, снижая пропускную способность при длительных сессиях.
Бремя поддержки ядер: Вручную настроенные ядра WGSL требуют постоянной поддержки для отслеживания эволюции спецификации WebGPU и новых архитектур GPU.

Часто задаваемые вопросы (FAQ)

Что именно такое Gemma 4 E2B?

Gemma 4 E2B — это квантованная, мобильно-оптимизированная большая языковая модель от Google, основанная на архитектуре Gemma. Она использует обучение с учётом квантизации (QAT) для поддержания точности при низкой точности и специально разработана для развёртывания на устройстве и в браузере. Полное название модели на Hugging Face — gemma-4-E2B-it-qat-mobile-transformers.

Как браузер достигает скорости 255 токенов в секунду?

Скорость достигается сочетанием факторов: высокооптимизированные ядра WebGPU, написанные на WGSL студией Fable 5, мощный GPU M4 Max от Apple с его унифицированной архитектурой памяти, эффективность сжатых QAT весов модели и низкие накладные расходы кодирования команд API WebGPU. Вместе они устраняют узкие места, которые обычно замедляют инференс в браузере.

Кем была Fable 5 и почему их ядра важны?

Fable 5 была студией разработки, специализирующейся на оптимизации GPU и графике реального времени. Перед закрытием они сотрудничали с сообществом WebML для создания кастомных ядер WebGPU для инференса LLM. Их работа произвела самую быструю известную реализацию трансформера в браузере. Ядра были открыты и теперь поддерживаются сообществом, гарантируя, что опыт оптимизации переживёт закрытие студии.

Могу ли я запустить это на оборудовании, отличном от M4 Max?

Да. Хотя бенчмарк в 255 ток/с был достигнут на M4 Max, демо работает на любом устройстве с совместимым с WebGPU браузером. Производительность будет варьироваться в зависимости от возможностей GPU и пропускной способности памяти. Высокопроизводительные дискретные GPU на Windows и Linux, а также другие чипы Apple Silicon (серии M1, M2, M3) также могут запускать демо, хотя скорость токенов будет отличаться.

Подходит ли модель Gemma 4 E2B для производственного использования?

Модель имеет открытые веса и может использоваться для исследований и коммерческого прототипирования. Однако при производственном развёртывании следует учитывать уровень квантизации модели, конкретные требования задачи и то, соответствует ли точность на 4-битном или 8-битном уровне вашей планке качества приложения. Само демо WebGPU является в первую очередь образовательным и экспериментальным инструментом.

Как мне начать работу с ядрами WebGPU для моего собственного проекта?

Посетите Hugging Face Space и изучите исходные файлы. Код шейдеров WGSL хорошо прокомментирован и может быть адаптирован для других моделей трансформеров. Вам понадобится совместимый с WebGPU браузер и базовое понимание концепций вычислений на GPU для модификации ядер под ваш собственный сценарий использования.

Какие браузеры поддерживают WebGPU для этого демо?

По состоянию на 2025 год Google Chrome 113+, Microsoft Edge 113+ и Opera обеспечивают надёжную поддержку WebGPU. Реализация WebGPU в Safari улучшается, но может отставать по производительности. Поддержка Firefox находится в активной разработке. Для наилучшего опыта используйте последнюю версию Chrome или Edge на устройстве с мощным GPU.

Заключение: веха для браузерно-нативного ИИ

Публикация демо Gemma 4 E2B WebGPU, достигающего 255 токенов в секунду, представляет собой гораздо больше, чем впечатляющий бенчмарк. Она кристаллизует видение, к которому многие в сообществе ИИ стремились годами: способные, быстрые и полностью локальные языковые модели, работающие там, где уже находятся пользователи — в браузере.

Ядра Fable 5 служат свидетельством непреходящей ценности вклада в open-source. Несмотря на то, что студия закрылась, её инженерный опыт живёт, ускоряемый увлечённым сообществом и доступный через простой URL. Для разработчиков кодовая база предлагает богатый учебный ресурс по техникам оптимизации WebGPU. Для пользователей она даёт представление о будущем, где ИИ мгновенен, конфиденциален и свободен от ограничений облачной зависимости.

Попробуйте демо, изучите ядра и подумайте, что вы могли бы создать, когда инференс на скорости 255 токенов в секунду находится на расстоянии одной вкладки браузера. Эра ИИ в браузере наступила — и она быстра.

🔗 Исследуйте ресурсы

📂 Демо ядер WebGPU + исходный код

🧠 Модель Gemma 4 E2B на Hugging Face