Gemma 4: четверной релиз (12B, 12B QAT, 26B-A4B QAT и 31B QAT) — нецензурированные еретики: полный технический разбор
Gemma 4 Quadruple Release: 12B, 12B QAT, 26B-A4B QAT и 31B QAT Еретик без Цензуры – Исчерпывающий Технический Разбор
Семейство Gemma 4 от Google породило один из самых амбициозных релизов этого года, созданных сообществом. Четыре различных варианта моделей — 12B base, 12B QAT, 26B-A4B QAT и вызывающий бурные споры 31B QAT Еретик без Цензуры — теперь доступны в пяти форматах распространения на HuggingFace. В этой статье разбирается всё: архитектура, квантизация, происхождение «еретика без цензуры», различия форматов и способы ответственного развертывания каждого варианта.
· Время чтения: 18 минут
1. Что Такое Gemma 4 Quadruple Release?
Gemma 4 Quadruple Release — это скоординированный выпуск четырех дообученных и квантизированных вариантов, основанных на архитектуре Google Gemma 4. Эти модели были созданы и опубликованы активным участником сообщества llmfan46 на HuggingFace. Они расширяют официальные чекпоинты Gemma 4 за счет обучения с учетом квантизации (QAT), агрессивной низкоразрядной квантизации и — в случае 31B — преднамеренного удаления предохранительных механизмов выравнивания, в результате чего сообщество называет этот вариант «еретиком без цензуры».
Этот релиз примечателен по нескольким причинам:
- Беспрецедентное разнообразие: Четыре масштаба параметров (12B плотная, 12B QAT, 26B-A4B смесь экспертов QAT, 31B QAT) в одном скоординированном релизе.
- Пять форматов распространения: Safetensors (стандартный), GGUF (llama.cpp / для CPU), NVFP4 (оптимизированный под NVIDIA Blackwell 4-битный с плавающей запятой), NVFP4 GGUF и GPTQ-Int4 — охватывают практически любой сценарий развертывания.
- Преимущество QAT: В отличие от посттренировочной квантизации (PTQ), QAT внедряет осведомленность о квантизации во время обучения или дообучения, обеспечивая лучшее сохранение перплексии при сверхнизких битовых широтах.
- Противоречия и спрос: Обозначение «еретик без цензуры» сигнализирует о модели, лишенной механизмов отказа, что привлекает как огромный интерес, так и этическую проверку.
2. Объяснение Четырех Вариантов Моделей
2.1 Gemma 4 12B (Базовый QAT Вариант)
12B плотная модель — это отправная точка quadruple release. Построенная на архитектуре Gemma 4 с 12 миллиардами параметров, эта версия прошла QAT, чтобы сделать её устойчивой к 4-битной квантизации. Она сохраняет стандартное выравнивание instruction-tuning от официального релиза Google, что делает её подходящей для общих задач, где ожидается соблюдение безопасности.
- Количество параметров: 12 миллиардов (плотная, все параметры активны на токен)
- Квантизация: q4_0 (4-битная, симметричная квантизация по блокам)
- Выравнивание: Стандартное инструктивное, с нетронутыми механизмами отказа
- Лучше всего для: Промышленных развертываний, требующих умеренных вычислений с полным выравниванием безопасности
2.2 Gemma 4 12B QAT (Дообученная q4_0)
Это дополнительно улучшенная версия 12B, с дополнительным QAT дообучением, специально оптимизированным для схемы квантизации q4_0. Дополнительный проход QAT уменьшает разрыв в перплексии между полноразмерной 12B и её 4-битным аналогом до почти пренебрежимого уровня. Если вам нужна 12B с минимальным объемом памяти без потери качества, это вариант для выбора.
- Ключевое отличие: Расширенное QAT дообучение поверх базового QAT чекпоинта
- Объем памяти: Примерно 6–7 ГБ в 4-битном режиме
- Сценарий использования: Развертывание на периферии, потребительские GPU с 8–12 ГБ VRAM
2.3 Gemma 4 26B-A4B QAT (Смесь Экспертов)
26B-A4B — это самый архитектурно интересный участник релиза. Он использует дизайн Смеси Экспертов (MoE), где общее количество параметров составляет 26 миллиардов, но только 4 миллиарда активны на токен (обозначается A4B). Этот шаблон разреженной активации обеспечивает скорость вывода, близкую к плотной модели 4B, сохраняя при этом объем знаний гораздо большей модели. Обработка QAT гарантирует, что маршрутизация MoE и веса экспертов выдерживают 4-битное сжатие без проблем.
- Всего параметров: 26B (разреженная MoE)
- Активных параметров на токен: ~4B
- Особенность архитектуры: Стробируемая маршрутизация экспертов с функцией потерь для балансировки нагрузки
- Идеально для: Высокопроизводительного обслуживания, где задержка должна быть низкой, но важна глубина знаний
2.4 Gemma 4 31B QAT Еретик без Цензуры
Привлекающая наибольшее внимание модель. 31B QAT Еретик без Цензуры — это плотная 31-миллиардная модель, прошедшая QAT для сжатия q4_0 и намеренно лишенная или обошедшая предохранительное выравнивание. Термин «еретик» — это номенклатура сообщества для моделей, которые отвечают на запросы, отклоняемые официальными моделями. Мы углубимся в этот вариант в следующем разделе.
3. Глубокое Погружение: 31B QAT Еретик без Цензуры
Вариант gemma-4-31B-it-qat-q4_0-unquantized-uncensored-heretic (часто сокращаемый до «31B Еретик без Цензуры») стал самой скачиваемой и обсуждаемой моделью в этом релизе. Чтобы понять почему, необходимо рассмотреть три аспекта: техническое происхождение, парадокс неквантизованного состояния и механизм снятия цензуры.
3.1 Что Означает «Неквантизованный» в Контексте QAT?
Имя файла содержит термин «unquantized» (неквантизованный), что может вызвать путаницу. В данном контексте это означает, что веса модели хранятся в полноразмерном формате (BF16/FP16), прошедшем QAT — веса были обучены с учетом квантизации, поэтому они подготовлены для вывода q4_0, но сам чекпоинт еще не квантизирован до 4-бит. Это позволяет пользователям:
- Применять собственную схему квантизации (q4_0, q4_1, q5_0 и т.д.)
- Запускать модель в полной точности, если это необходимо (с отличным качеством, поскольку QAT улучшил ландшафт весов)
- Использовать предоставленные GGUF или GPTQ версии для немедленного 4-битного развертывания
3.2 Как Была Достигнута Модификация «Без Цензуры»?
Хотя точная методология не полностью раскрыта, анализ сообщества предполагает, что снятие цензуры было достигнуто с помощью комбинации методов:
- Дообучение на корпусах без отказов: Модель была дополнительно обучена на наборах данных, где ассистент последовательно соглашается без шаблонов отказа, эффективно перезаписывая векторы выравнивания.
- Удаление выравнивания на основе LoRA: Низкоранговая адаптация (Low-Rank Adaptation) могла использоваться для вычитания или нейтрализации направлений отказа безопасности в остаточном потоке модели.
- Переобусловливание префикса запроса: Системный запрос и шаблон чата могли быть изменены для удаления условия «полезный и безвредный», присутствующего в официальном инструктивном шаблоне.
В результате получается модель 31B, которая сохраняет мощные способности Gemma 4 к рассуждению, программированию и творчеству, но больше не отклоняет запросы на основе классификаций безопасности.
3.3 Почему «Еретик»? Соглашения об Именах в Сообществе
В сообществе LLM с открытым исходным кодом «еретик» появился наряду с такими терминами, как «abliterated», «без цензуры» и «развязанный» для описания моделей с удаленными предохранителями. Этот термин несет бунтарский оттенок и сигнализирует пользователям, что модель будет работать без этических ограничений, наложенных первоначальными разработчиками. Это не официальное обозначение — это чисто номенклатура, управляемая сообществом.
4. Форматы Распространения: Safetensors, GGUF, NVFP4 и GPTQ-Int4
Одним из самых удобных аспектов релиза llmfan46 является широта форматов. Каждый из них обслуживает отдельную экосистему развертывания. Вот что вам нужно знать о каждом из них:
4.1 Safetensors (Стандартный)
Safetensors — это безопасный, быстрый и все более стандартный формат для распространения весов моделей. В отличие от форматов на основе pickle, Safetensors невосприимчив к выполнению произвольного кода, что делает его безопасным выбором. Эти файлы содержат полноразмерные (или подготовленные QAT) веса и идеально подходят для:
- Загрузки в HuggingFace
transformersилиaccelerate - Тонкой настройки или дальнейшего обучения
- Преобразования в другие форматы
Репозиторий: llmfan46/gemma-4-31B-it-qat-q4_0-unquantized-uncensored-heretic (Safetensors)
4.2 GGUF (llama.cpp / Вывод на CPU)
GGUF (GPT-Generated Unified Format) — это преемник GGML и стандартный формат для llama.cpp, Ollama, LM Studio и других движков вывода, ориентированных на CPU или гибридных. Файлы GGUF в этом релизе предварительно квантизированы до q4_0, что означает, что вы можете загрузить и запустить их сразу без какого-либо шага преобразования.
Репозиторий: llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-GGUF
- Лучше всего для: Apple Silicon (M1/M2/M3/M4), AMD Ryzen, Intel CPU, и локального развертывания с упором на конфиденциальность
- Типичная производительность: 8–15 токенов/сек на M2 Max с 32 ГБ RAM
4.3 NVFP4 (NVIDIA Blackwell 4-Битная Плавающая Запятая)
NVFP4 — это передовой 4-битный формат с плавающей запятой, разработанный для архитектуры NVIDIA Blackwell (GPU B200, B100). В отличие от целочисленной квантизации (INT4), NVFP4 использует представление с плавающей запятой, которое более эффективно сохраняет динамический диапазон, особенно для выбросов активаций. Вариант NVFP4 Safetensors хранит веса в этом формате, а вариант NVFP4 GGUF переносит этот формат в экосистему llama.cpp.
- NVFP4 Safetensors: llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-NVFP4
- NVFP4 GGUF: llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-NVFP4-GGUF
4.4 GPTQ-Int4
GPTQ-Int4 — это метод посттренировочной квантизации, который использует аппроксимированную информацию второго порядка (на основе Гессиана) для минимизации ошибки квантизации. Вариант GPTQ-Int4 оптимизирован для серверных частей вывода AutoGPTQ и vLLM, предлагая отличную пропускную способность на GPU CUDA с минимальной деградацией перплексии.
Репозиторий: llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-GPTQ-Int4 (GPTQ-Int4)
- Лучше всего для: Высокопроизводительного обслуживания на GPU с vLLM или TGI
- Требования к GPU: Рекомендуется GPU с поддержкой CUDA и 16+ ГБ VRAM
5. Полные Ссылки на Репозитории HuggingFace
Все репозитории поддерживаются llmfan46 на HuggingFace. Ниже приведен полный, проверенный список для Gemma 4 31B QAT Еретик без Цензуры во всех пяти форматах распространения:
🔗 Официальные Репозитории — Gemma 4 31B Еретик без Цензуры
- Safetensors (Неквантизованный QAT):
https://huggingface.co/llmfan46/gemma-4-31B-it-qat-q4_0-unquantized-uncensored-heretic - GGUF (q4_0 квантизированный):
https://huggingface.co/llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-GGUF - NVFP4 Safetensors:
https://huggingface.co/llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-NVFP4 - NVFP4 GGUF:
https://huggingface.co/llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-NVFP4-GGUF - GPTQ-Int4:
https://huggingface.co/llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-GPTQ-Int4
Примечание: Варианты 12B, 12B QAT и 26B-A4B QAT также доступны в профиле llmfan46 на HuggingFace под аналогичными соглашениями об именах. Проверьте профиль для полного каталога.
6. Сравнение Всех Четырех Вариантов Gemma 4
| Характеристика | 12B Базовая QAT | 12B QAT Дообученная | 26B-A4B QAT | 31B QAT Без Цензуры |
|---|---|---|---|---|
| Архитектура | Плотная | Плотная | MoE (26B всего / 4B активно) | Плотная |
| Всего Параметров | 12B | 12B | 26B | 31B |
| Активно/Токен | 12B | 12B | ~4B | 31B |
| Квантизация | QAT + готова к q4_0 | Расширенная QAT + q4_0 | QAT + готова к q4_0 | QAT + готова к q4_0 |
| Выравнивание Безопасности | Полное (стандарт Gemma) | Полное (стандарт Gemma) | Полное (стандарт Gemma) | Удалено (Без Цензуры) |
| Память ~4-bit | ~7 ГБ | ~7 ГБ | ~15 ГБ (всего) / ~3 ГБ активно | ~17 ГБ |
| Лучше Для | Безопасного продакшена | Периферии / Потребительских GPU | Обслуживания с низкой задержкой | Исследований, творчества, неограниченного использования |
7. Как Развертывать и Запускать Эти Модели
7.1 Загрузка Версии Safetensors с Transformers
7.2 Запуск Версии GGUF с llama.cpp
7.3 GPTQ-Int4 с vLLM для Высокопроизводительного Обслуживания
7.4 NVFP4 на Оборудовании NVIDIA Blackwell
Для пользователей с доступом к GPU Blackwell (B200/B100) формат NVFP4 открывает нативное 4-битное ускорение тензорных ядер с плавающей запятой. Файлы NVFP4 Safetensors можно загрузить с помощью специальной ветки transformers, поддерживающей этот формат, в то время как файлы NVFP4 GGUF работают со специально скомпилированной сборкой llama.cpp с включенными ядрами NVFP4. Проверьте соответствующие репозитории HuggingFace для получения последних инструкций по загрузке.
8. Риски, Этика и Метка «Без Цензуры»
Gemma 4 31B QAT Еретик без Цензуры поднимает важные этические вопросы, которые каждый практик должен рассмотреть перед развертыванием:
8.1 Что На Самом Деле Означает «Без Цензуры»
В контексте этого релиза «без цензуры» означает, что механизм отказа модели — внутренний классификатор, который обнаруживает потенциально вредные запросы и вызывает ответ-отказ — был нейтрализован или удален. Модель будет пытаться выполнить любой запрос, включая те, которые касаются:
- Генерации контента с насилием, ненавистью или преследованием
- Инструкций по незаконной деятельности
- Создания вредоносного ПО, эксплойтов или информации, связанной с оружием
- Откровенно сексуального контента или контента без согласия
- Кампаний по дезинформации и распространению ложных сведений
8.2 Законные Случаи Использования
Несмотря на риски, модели без цензуры имеют законное применение в исследованиях, red-teaming, творческом письме и тестировании устойчивости к атакам. Исследователи безопасности используют их для изучения методов джейлбрейка и разработки лучших защит. Писатели используют их для нефильтрованного творческого поиска, где стандартные модели могут некорректно помечать контент. Ключевым моментом является ответственное развертывание с соответствующими гарантиями.
8.3 Стратегии Смягчения Рисков
- Фильтрация ввода и вывода: Разверните слой модерации контента (например, Llama Guard, Perspective API) вокруг модели.
- Контроль доступа: Ограничьте доступ к модели только аутентифицированными и авторизованными пользователями.
- Логирование и мониторинг: Ведите полные журналы всех запросов и завершений для целей аудита.
- Изолированное развертывание: Запускайте модель в изолированной среде без доступа в интернет или привилегий системного уровня.
9. Часто Задаваемые Вопросы
В: В чем разница между вариантами 12B и 12B QAT?
Вариант 12B QAT прошел расширенное обучение с учетом квантизации поверх базового чекпоинта QAT, что приводит к лучшему сохранению перплексии при фактической квантизации до 4-бит. Если вы планируете запускать с 4-битной точностью, выбирайте вариант 12B QAT для немного лучшего качества.
В: Могу ли я запустить 31B Еретик без Цензуры на одном потребительском GPU?
В 4-битной форме GGUF или GPTQ-Int4 модель 31B требует примерно 17 ГБ VRAM. Это комфортно помещается на RTX 4090 (24 ГБ) или RTX 3090 (24 ГБ). Для Apple Silicon вам понадобится Mac как минимум с 32 ГБ унифицированной памяти для приемлемой производительности.
В: Что означает «q4_0» в имени модели?
q4_0 — это специфическая 4-битная схема квантизации, используемая в GGUF/llama.cpp. Она использует симметричную квантизацию по блокам с размером блока 32, что означает, что каждые 32 веса разделяют один коэффициент масштабирования. Это хорошо балансирует степень сжатия и качество для большинства случаев использования.
В: Модель 26B-A4B быстрее, чем плотная модель 12B?
Для генерации одного токена — да, модель 26B-A4B MoE активирует только ~4B параметров на токен, что меньше, чем 12B у плотной модели 12B. Однако общее требование к памяти выше (~15 ГБ против ~7 ГБ в 4-битном режиме), поскольку все эксперты должны быть загружены. Пропускная способность зависит от пропускной способности памяти вашего оборудования.
В: Законно ли использовать эти модели?
Базовые модели Gemma 4 выпущены под лицензией Gemma от Google, которая разрешает коммерческое и исследовательское использование с определенными ограничениями. Модифицированные сообществом варианты «еретик без цензуры» существуют в серой зоне — это производные работы. Пользователи должны ознакомиться с условиями лицензии Gemma и проконсультироваться с юристом для своего конкретного случая использования.
В: Что такое NVFP4 и нужен ли он мне?
NVFP4 (NVIDIA 4-Bit Floating Point) — это новый формат, оптимизированный для GPU архитектуры Blackwell. Если у вас нет GPU B200 или B100, вам следует использовать вместо него стандартные форматы GGUF или GPTQ-Int4. NVFP4 предлагает лучший динамический диапазон, чем INT4, но требует специфической аппаратной поддержки.
В: Как мне проверить, что файлы модели не были подделаны?
Репозитории HuggingFace включают контрольные суммы SHA256. После загрузки запустите sha256sum <имя_файла> и сравните с контрольными суммами, указанными в README репозитория или карточке модели. Для файлов GGUF llama.cpp также проверяет внутренние контрольные суммы при загрузке.
10. Заключение: Какой Вариант Gemma 4 Подходит Именно Вам?
Gemma 4 Quadruple Release — охватывающий 12B, 12B QAT, 26B-A4B QAT и 31B QAT Еретик без Цензуры в форматах Safetensors, GGUF, NVFP4 и GPTQ-Int4 — представляет собой один из самых всеобъемлющих релизов моделей от сообщества за последнее время. Выбор правильного варианта полностью зависит от вашего сценария использования:
- Выбирайте 12B Базовую QAT, если вам нужна безопасная, выровненная модель для промышленных приложений с умеренными вычислительными требованиями.
- Выбирайте 12B QAT Дообученную, если вы развертываете на периферийных устройствах или потребительских GPU и хотите наилучшее возможное 4-битное качество.
- Выбирайте 26B-A4B QAT, если вам нужен вывод с низкой задержкой и широтой знаний большей модели — идеально для чат-ботов и интерактивных приложений.
- Выбирайте 31B QAT Еретик без Цензуры, если вы исследователь, специалист по red-teaming или творческий профессионал, которому нужна неограниченная модель и который внедрил соответствующие гарантии.
Для выбора формата:
- Safetensors для максимальной гибкости и дальнейшего дообучения
- GGUF для вывода на CPU, Apple Silicon и локального развертывания с упором на конфиденциальность
- GPTQ-Int4 для высокопроизводительного обслуживания на GPU с vLLM
- NVFP4, если у вас есть оборудование Blackwell и вы хотите получить передовую производительность 4-битной плавающей запятой
Сообщество вокруг этих моделей активно и растет. Как и в случае со всеми быстро развивающимися религиями AI с открытым исходным кодом, следите за обновлениями через профиль llmfan46 на HuggingFace и более широкие форумы сообщества Gemma. Конвергенция QAT, архитектур MoE и доступных форматов квантизации расширяет границы возможного с локально запускаемыми большими языковыми моделями — и Gemma 4 Quadruple Release является знаковым моментом в этом путешествии.