«Электронный мусор» берёт реванш: старый компьютер за 150 долларов без GPU плавно запускает новейшую большую модель Google Gemma 4
«Электронный хлам» берёт реванш: старый компьютер за 150 долларов без GPU плавно запускает новейшую большую модель Google Gemma 4
Прощай, боязнь GPU: ветеран i5-8500 показывает чудо скорости
Процессор Core i5-8500, выпущенный в 2018 году, 32 ГБ DDR4, без дискретной видеокарты — вся система стоит около 150 долларов. Такая конфигурация, которую сегодня в мейнстримных технологических нарративах почти забыли как «картофельный ПК», бросает вызов железному правилу, что большие модели требуют дорогих GPU. Пользователь Reddit на своей Linux-машине при помощи лёгкого движка вывода Koboldcpp успешно запустил только что представленную Google модель Gemma-4-26B-A4B и достиг впечатляющей плавной генерации в 7 токенов в секунду. Никаких тревог о видеопамяти, никакого запредельного энергопотребления — старый настольный компьютер, собранный из подержанных комплектующих, просто взял и запустил передовую модель с архитектурой разреженных экспертов.
Разгадка Gemma 4: архитектура смеси экспертов преображает «картофельный ПК»
Главный герой здесь — смесь экспертов (MoE) в архитектуре Gemma 4. Общее количество параметров модели достигает внушительных 26 млрд, но при каждом выводе активируется лишь около 4 млрд активных параметров. Такая структура «много параметров всего, но мало активных» дружелюбна к пропускной способности памяти и вычислительной нагрузке. На наглядной аналогии: это как команда из 26 экспертов, но для ответа на вопрос привлекаются лишь четверо наиболее подходящих, а остальные молчат. Поэтому даже на платформе с процессором без большого объёма быстрой видеопамяти модель может использовать только обычную оперативную память, с помощью оптимизированного квантования и фреймворков вывода на базе llama.cpp равномерно распределяя вычислительную нагрузку на многоядерный процессор, достигая скорости отклика, намного превосходящей плотные модели предыдущего поколения.
Что означают 7 токенов в секунду? Качественный скачок от еле работающего до плавного диалога
Для ветеранов запуска больших моделей на CPU ранее плотные модели около 12B, даже если и работали, часто сопровождались удручающе медленной скоростью посимвольного вывода, едва пригодной для использования. А эффективность генерации в 7 токенов в секунду уже уверенно преодолевает порог комфортного диалога в реальном времени: она позволяет общаться почти как с человеком, практически не ощущая задержек. Это знаменует превращение бесGPU-инференса из «игрушки для гиков» в надёжный инструмент для повседневных задач — ответов на вопросы, реферирования текстов, помощи в коде. И что ещё важнее, такая скорость достигается без какого-либо специализированного аппаратного ускорения для ИИ, сжимая некогда недосягаемую мощь локальных больших моделей в скромный корпус старого компьютера.
Тихая декларация демократизации ИИ: передовой интеллект, доступный каждому
«Можешь хвастаться своей суперустановкой, которая дороже подержанного автомобиля, а я похвастаюсь своим старым настольным хламом.» Эта шутка пользователя точно отражает определённые, часто упускаемые из виду, настроения в сфере ИИ. Пока битвы чипов, сотни миллиардов параметров и кластеры из тысяч карт занимают заголовки, изящный танец Gemma-4-26B-A4B на металлоломе за 150 долларов безмолвно доказывает существование иного пути: революция эффективности — вот истинная доступность для всех. Она позволяет индивидуальным разработчикам, студентам и гикам с ограниченным бюджетом прикоснуться к интеллектуальным способностям передовых моделей практически с нулевыми затратами на оборудование, в полностью автономной приватной среде. Это не просто демонстрация технологий, а настоящее движение за равноправие в вопросах владения и использования ИИ. Когда самые продвинутые языковые модели спокойно текут на забытых процессорах, барьеры начинают рушиться с самого основания.