AIGridHQ News
返回首页

Gemma 4: четверной релиз (12B, 12B QAT, 26B-A4B QAT и 31B QAT) — нецензурированные еретики: полный технический разбор

📅 2026-06-12 Reddit - LocalLLaMA
Gemma 4 Quadruple Release: 12B, 12B QAT, 26B-A4B QAT и 31B QAT Еретик без Цензуры – Полное Руководство

Gemma 4 Quadruple Release: 12B, 12B QAT, 26B-A4B QAT и 31B QAT Еретик без Цензуры – Исчерпывающий Технический Разбор

Семейство Gemma 4 от Google породило один из самых амбициозных релизов этого года, созданных сообществом. Четыре различных варианта моделей — 12B base, 12B QAT, 26B-A4B QAT и вызывающий бурные споры 31B QAT Еретик без Цензуры — теперь доступны в пяти форматах распространения на HuggingFace. В этой статье разбирается всё: архитектура, квантизация, происхождение «еретика без цензуры», различия форматов и способы ответственного развертывания каждого варианта.

· Время чтения: 18 минут

1. Что Такое Gemma 4 Quadruple Release?

Gemma 4 Quadruple Release — это скоординированный выпуск четырех дообученных и квантизированных вариантов, основанных на архитектуре Google Gemma 4. Эти модели были созданы и опубликованы активным участником сообщества llmfan46 на HuggingFace. Они расширяют официальные чекпоинты Gemma 4 за счет обучения с учетом квантизации (QAT), агрессивной низкоразрядной квантизации и — в случае 31B — преднамеренного удаления предохранительных механизмов выравнивания, в результате чего сообщество называет этот вариант «еретиком без цензуры».

Этот релиз примечателен по нескольким причинам:

  • Беспрецедентное разнообразие: Четыре масштаба параметров (12B плотная, 12B QAT, 26B-A4B смесь экспертов QAT, 31B QAT) в одном скоординированном релизе.
  • Пять форматов распространения: Safetensors (стандартный), GGUF (llama.cpp / для CPU), NVFP4 (оптимизированный под NVIDIA Blackwell 4-битный с плавающей запятой), NVFP4 GGUF и GPTQ-Int4 — охватывают практически любой сценарий развертывания.
  • Преимущество QAT: В отличие от посттренировочной квантизации (PTQ), QAT внедряет осведомленность о квантизации во время обучения или дообучения, обеспечивая лучшее сохранение перплексии при сверхнизких битовых широтах.
  • Противоречия и спрос: Обозначение «еретик без цензуры» сигнализирует о модели, лишенной механизмов отказа, что привлекает как огромный интерес, так и этическую проверку.
⚠ Предупреждение: Модели «еретик без цензуры» были модифицированы для удаления предохранительного выравнивания. Они могут генерировать контент, который официальные модели Gemma отказываются создавать. Эти модели созданы сообществом, не аффилированы и не одобрены Google. Используйте с осторожностью и в соответствии с действующим законодательством.

2. Объяснение Четырех Вариантов Моделей

Gemma 4 12B Плотная · Базовая QAT 12B параметров
Gemma 4 12B QAT Плотная · QAT Дообученная q4_0 квантизация
Gemma 4 26B-A4B QAT MoE · 26B всего / 4B активно Архитектура A4B
Gemma 4 31B QAT Uncensored Плотная · Без выравнивания Еретик ☠

2.1 Gemma 4 12B (Базовый QAT Вариант)

12B плотная модель — это отправная точка quadruple release. Построенная на архитектуре Gemma 4 с 12 миллиардами параметров, эта версия прошла QAT, чтобы сделать её устойчивой к 4-битной квантизации. Она сохраняет стандартное выравнивание instruction-tuning от официального релиза Google, что делает её подходящей для общих задач, где ожидается соблюдение безопасности.

  • Количество параметров: 12 миллиардов (плотная, все параметры активны на токен)
  • Квантизация: q4_0 (4-битная, симметричная квантизация по блокам)
  • Выравнивание: Стандартное инструктивное, с нетронутыми механизмами отказа
  • Лучше всего для: Промышленных развертываний, требующих умеренных вычислений с полным выравниванием безопасности

2.2 Gemma 4 12B QAT (Дообученная q4_0)

Это дополнительно улучшенная версия 12B, с дополнительным QAT дообучением, специально оптимизированным для схемы квантизации q4_0. Дополнительный проход QAT уменьшает разрыв в перплексии между полноразмерной 12B и её 4-битным аналогом до почти пренебрежимого уровня. Если вам нужна 12B с минимальным объемом памяти без потери качества, это вариант для выбора.

  • Ключевое отличие: Расширенное QAT дообучение поверх базового QAT чекпоинта
  • Объем памяти: Примерно 6–7 ГБ в 4-битном режиме
  • Сценарий использования: Развертывание на периферии, потребительские GPU с 8–12 ГБ VRAM

2.3 Gemma 4 26B-A4B QAT (Смесь Экспертов)

26B-A4B — это самый архитектурно интересный участник релиза. Он использует дизайн Смеси Экспертов (MoE), где общее количество параметров составляет 26 миллиардов, но только 4 миллиарда активны на токен (обозначается A4B). Этот шаблон разреженной активации обеспечивает скорость вывода, близкую к плотной модели 4B, сохраняя при этом объем знаний гораздо большей модели. Обработка QAT гарантирует, что маршрутизация MoE и веса экспертов выдерживают 4-битное сжатие без проблем.

  • Всего параметров: 26B (разреженная MoE)
  • Активных параметров на токен: ~4B
  • Особенность архитектуры: Стробируемая маршрутизация экспертов с функцией потерь для балансировки нагрузки
  • Идеально для: Высокопроизводительного обслуживания, где задержка должна быть низкой, но важна глубина знаний

2.4 Gemma 4 31B QAT Еретик без Цензуры

Привлекающая наибольшее внимание модель. 31B QAT Еретик без Цензуры — это плотная 31-миллиардная модель, прошедшая QAT для сжатия q4_0 и намеренно лишенная или обошедшая предохранительное выравнивание. Термин «еретик» — это номенклатура сообщества для моделей, которые отвечают на запросы, отклоняемые официальными моделями. Мы углубимся в этот вариант в следующем разделе.

3. Глубокое Погружение: 31B QAT Еретик без Цензуры

Вариант gemma-4-31B-it-qat-q4_0-unquantized-uncensored-heretic (часто сокращаемый до «31B Еретик без Цензуры») стал самой скачиваемой и обсуждаемой моделью в этом релизе. Чтобы понять почему, необходимо рассмотреть три аспекта: техническое происхождение, парадокс неквантизованного состояния и механизм снятия цензуры.

3.1 Что Означает «Неквантизованный» в Контексте QAT?

Имя файла содержит термин «unquantized» (неквантизованный), что может вызвать путаницу. В данном контексте это означает, что веса модели хранятся в полноразмерном формате (BF16/FP16), прошедшем QAT — веса были обучены с учетом квантизации, поэтому они подготовлены для вывода q4_0, но сам чекпоинт еще не квантизирован до 4-бит. Это позволяет пользователям:

  • Применять собственную схему квантизации (q4_0, q4_1, q5_0 и т.д.)
  • Запускать модель в полной точности, если это необходимо (с отличным качеством, поскольку QAT улучшил ландшафт весов)
  • Использовать предоставленные GGUF или GPTQ версии для немедленного 4-битного развертывания

3.2 Как Была Достигнута Модификация «Без Цензуры»?

Хотя точная методология не полностью раскрыта, анализ сообщества предполагает, что снятие цензуры было достигнуто с помощью комбинации методов:

  1. Дообучение на корпусах без отказов: Модель была дополнительно обучена на наборах данных, где ассистент последовательно соглашается без шаблонов отказа, эффективно перезаписывая векторы выравнивания.
  2. Удаление выравнивания на основе LoRA: Низкоранговая адаптация (Low-Rank Adaptation) могла использоваться для вычитания или нейтрализации направлений отказа безопасности в остаточном потоке модели.
  3. Переобусловливание префикса запроса: Системный запрос и шаблон чата могли быть изменены для удаления условия «полезный и безвредный», присутствующего в официальном инструктивном шаблоне.

В результате получается модель 31B, которая сохраняет мощные способности Gemma 4 к рассуждению, программированию и творчеству, но больше не отклоняет запросы на основе классификаций безопасности.

3.3 Почему «Еретик»? Соглашения об Именах в Сообществе

В сообществе LLM с открытым исходным кодом «еретик» появился наряду с такими терминами, как «abliterated», «без цензуры» и «развязанный» для описания моделей с удаленными предохранителями. Этот термин несет бунтарский оттенок и сигнализирует пользователям, что модель будет работать без этических ограничений, наложенных первоначальными разработчиками. Это не официальное обозначение — это чисто номенклатура, управляемая сообществом.

4. Форматы Распространения: Safetensors, GGUF, NVFP4 и GPTQ-Int4

Одним из самых удобных аспектов релиза llmfan46 является широта форматов. Каждый из них обслуживает отдельную экосистему развертывания. Вот что вам нужно знать о каждом из них:

4.1 Safetensors (Стандартный)

Safetensors — это безопасный, быстрый и все более стандартный формат для распространения весов моделей. В отличие от форматов на основе pickle, Safetensors невосприимчив к выполнению произвольного кода, что делает его безопасным выбором. Эти файлы содержат полноразмерные (или подготовленные QAT) веса и идеально подходят для:

  • Загрузки в HuggingFace transformers или accelerate
  • Тонкой настройки или дальнейшего обучения
  • Преобразования в другие форматы

Репозиторий: llmfan46/gemma-4-31B-it-qat-q4_0-unquantized-uncensored-heretic (Safetensors)

4.2 GGUF (llama.cpp / Вывод на CPU)

GGUF (GPT-Generated Unified Format) — это преемник GGML и стандартный формат для llama.cpp, Ollama, LM Studio и других движков вывода, ориентированных на CPU или гибридных. Файлы GGUF в этом релизе предварительно квантизированы до q4_0, что означает, что вы можете загрузить и запустить их сразу без какого-либо шага преобразования.

Репозиторий: llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-GGUF

  • Лучше всего для: Apple Silicon (M1/M2/M3/M4), AMD Ryzen, Intel CPU, и локального развертывания с упором на конфиденциальность
  • Типичная производительность: 8–15 токенов/сек на M2 Max с 32 ГБ RAM

4.3 NVFP4 (NVIDIA Blackwell 4-Битная Плавающая Запятая)

NVFP4 — это передовой 4-битный формат с плавающей запятой, разработанный для архитектуры NVIDIA Blackwell (GPU B200, B100). В отличие от целочисленной квантизации (INT4), NVFP4 использует представление с плавающей запятой, которое более эффективно сохраняет динамический диапазон, особенно для выбросов активаций. Вариант NVFP4 Safetensors хранит веса в этом формате, а вариант NVFP4 GGUF переносит этот формат в экосистему llama.cpp.

4.4 GPTQ-Int4

GPTQ-Int4 — это метод посттренировочной квантизации, который использует аппроксимированную информацию второго порядка (на основе Гессиана) для минимизации ошибки квантизации. Вариант GPTQ-Int4 оптимизирован для серверных частей вывода AutoGPTQ и vLLM, предлагая отличную пропускную способность на GPU CUDA с минимальной деградацией перплексии.

Репозиторий: llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-GPTQ-Int4 (GPTQ-Int4)

  • Лучше всего для: Высокопроизводительного обслуживания на GPU с vLLM или TGI
  • Требования к GPU: Рекомендуется GPU с поддержкой CUDA и 16+ ГБ VRAM

6. Сравнение Всех Четырех Вариантов Gemma 4

Характеристика 12B Базовая QAT 12B QAT Дообученная 26B-A4B QAT 31B QAT Без Цензуры
Архитектура Плотная Плотная MoE (26B всего / 4B активно) Плотная
Всего Параметров 12B 12B 26B 31B
Активно/Токен 12B 12B ~4B 31B
Квантизация QAT + готова к q4_0 Расширенная QAT + q4_0 QAT + готова к q4_0 QAT + готова к q4_0
Выравнивание Безопасности Полное (стандарт Gemma) Полное (стандарт Gemma) Полное (стандарт Gemma) Удалено (Без Цензуры)
Память ~4-bit ~7 ГБ ~7 ГБ ~15 ГБ (всего) / ~3 ГБ активно ~17 ГБ
Лучше Для Безопасного продакшена Периферии / Потребительских GPU Обслуживания с низкой задержкой Исследований, творчества, неограниченного использования

7. Как Развертывать и Запускать Эти Модели

7.1 Загрузка Версии Safetensors с Transformers

# Установка зависимостей pip install transformers accelerate safetensors # Загрузка неквантизованной QAT модели from transformers import AutoModelForCausalLM, AutoTokenizer model_id = "llmfan46/gemma-4-31B-it-qat-q4_0-unquantized-uncensored-heretic" tokenizer = AutoTokenizer.from_pretrained(model_id) model = AutoModelForCausalLM.from_pretrained( model_id, torch_dtype="auto", device_map="auto" ) # Вывод inputs = tokenizer("Объясните концепцию QAT в LLM:", return_tensors="pt").to("cuda") outputs = model.generate(**inputs, max_new_tokens=512) print(tokenizer.decode(outputs[0], skip_special_tokens=True))

7.2 Запуск Версии GGUF с llama.cpp

# Клонирование и сборка llama.cpp git clone https://github.com/ggerganov/llama.cpp cd llama.cpp && make -j # Загрузите любой .gguf файл из GGUF репозитория # Пример: gemma-4-31b-it-qat-q4_0-uncensored-heretic.Q4_0.gguf # Запуск вывода ./main -m gemma-4-31b-it-qat-q4_0-uncensored-heretic.Q4_0.gguf \ -p "Напишите стихотворение об искусственном интеллекте:" \ -n 256 \ -t 8

7.3 GPTQ-Int4 с vLLM для Высокопроизводительного Обслуживания

# Установка vLLM pip install vllm # Запуск варианта GPTQ-Int4 python -m vllm.entrypoints.openai.api_server \ --model llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-GPTQ-Int4 \ --quantization gptq \ --dtype auto \ --max-model-len 8192

7.4 NVFP4 на Оборудовании NVIDIA Blackwell

Для пользователей с доступом к GPU Blackwell (B200/B100) формат NVFP4 открывает нативное 4-битное ускорение тензорных ядер с плавающей запятой. Файлы NVFP4 Safetensors можно загрузить с помощью специальной ветки transformers, поддерживающей этот формат, в то время как файлы NVFP4 GGUF работают со специально скомпилированной сборкой llama.cpp с включенными ядрами NVFP4. Проверьте соответствующие репозитории HuggingFace для получения последних инструкций по загрузке.

8. Риски, Этика и Метка «Без Цензуры»

Gemma 4 31B QAT Еретик без Цензуры поднимает важные этические вопросы, которые каждый практик должен рассмотреть перед развертыванием:

8.1 Что На Самом Деле Означает «Без Цензуры»

В контексте этого релиза «без цензуры» означает, что механизм отказа модели — внутренний классификатор, который обнаруживает потенциально вредные запросы и вызывает ответ-отказ — был нейтрализован или удален. Модель будет пытаться выполнить любой запрос, включая те, которые касаются:

  • Генерации контента с насилием, ненавистью или преследованием
  • Инструкций по незаконной деятельности
  • Создания вредоносного ПО, эксплойтов или информации, связанной с оружием
  • Откровенно сексуального контента или контента без согласия
  • Кампаний по дезинформации и распространению ложных сведений

8.2 Законные Случаи Использования

Несмотря на риски, модели без цензуры имеют законное применение в исследованиях, red-teaming, творческом письме и тестировании устойчивости к атакам. Исследователи безопасности используют их для изучения методов джейлбрейка и разработки лучших защит. Писатели используют их для нефильтрованного творческого поиска, где стандартные модели могут некорректно помечать контент. Ключевым моментом является ответственное развертывание с соответствующими гарантиями.

8.3 Стратегии Смягчения Рисков

  • Фильтрация ввода и вывода: Разверните слой модерации контента (например, Llama Guard, Perspective API) вокруг модели.
  • Контроль доступа: Ограничьте доступ к модели только аутентифицированными и авторизованными пользователями.
  • Логирование и мониторинг: Ведите полные журналы всех запросов и завершений для целей аудита.
  • Изолированное развертывание: Запускайте модель в изолированной среде без доступа в интернет или привилегий системного уровня.
⚠ Важно: Эта статья документирует существование и технические характеристики этих моделей в информационных целях. Автор не одобряет использование моделей без цензуры во вредных, незаконных или неэтичных целях. Всегда соблюдайте действующее законодательство и нормативные акты в вашей юрисдикции.

9. Часто Задаваемые Вопросы

В: В чем разница между вариантами 12B и 12B QAT?

Вариант 12B QAT прошел расширенное обучение с учетом квантизации поверх базового чекпоинта QAT, что приводит к лучшему сохранению перплексии при фактической квантизации до 4-бит. Если вы планируете запускать с 4-битной точностью, выбирайте вариант 12B QAT для немного лучшего качества.

В: Могу ли я запустить 31B Еретик без Цензуры на одном потребительском GPU?

В 4-битной форме GGUF или GPTQ-Int4 модель 31B требует примерно 17 ГБ VRAM. Это комфортно помещается на RTX 4090 (24 ГБ) или RTX 3090 (24 ГБ). Для Apple Silicon вам понадобится Mac как минимум с 32 ГБ унифицированной памяти для приемлемой производительности.

В: Что означает «q4_0» в имени модели?

q4_0 — это специфическая 4-битная схема квантизации, используемая в GGUF/llama.cpp. Она использует симметричную квантизацию по блокам с размером блока 32, что означает, что каждые 32 веса разделяют один коэффициент масштабирования. Это хорошо балансирует степень сжатия и качество для большинства случаев использования.

В: Модель 26B-A4B быстрее, чем плотная модель 12B?

Для генерации одного токена — да, модель 26B-A4B MoE активирует только ~4B параметров на токен, что меньше, чем 12B у плотной модели 12B. Однако общее требование к памяти выше (~15 ГБ против ~7 ГБ в 4-битном режиме), поскольку все эксперты должны быть загружены. Пропускная способность зависит от пропускной способности памяти вашего оборудования.

В: Законно ли использовать эти модели?

Базовые модели Gemma 4 выпущены под лицензией Gemma от Google, которая разрешает коммерческое и исследовательское использование с определенными ограничениями. Модифицированные сообществом варианты «еретик без цензуры» существуют в серой зоне — это производные работы. Пользователи должны ознакомиться с условиями лицензии Gemma и проконсультироваться с юристом для своего конкретного случая использования.

В: Что такое NVFP4 и нужен ли он мне?

NVFP4 (NVIDIA 4-Bit Floating Point) — это новый формат, оптимизированный для GPU архитектуры Blackwell. Если у вас нет GPU B200 или B100, вам следует использовать вместо него стандартные форматы GGUF или GPTQ-Int4. NVFP4 предлагает лучший динамический диапазон, чем INT4, но требует специфической аппаратной поддержки.

В: Как мне проверить, что файлы модели не были подделаны?

Репозитории HuggingFace включают контрольные суммы SHA256. После загрузки запустите sha256sum <имя_файла> и сравните с контрольными суммами, указанными в README репозитория или карточке модели. Для файлов GGUF llama.cpp также проверяет внутренние контрольные суммы при загрузке.

10. Заключение: Какой Вариант Gemma 4 Подходит Именно Вам?

Gemma 4 Quadruple Release — охватывающий 12B, 12B QAT, 26B-A4B QAT и 31B QAT Еретик без Цензуры в форматах Safetensors, GGUF, NVFP4 и GPTQ-Int4 — представляет собой один из самых всеобъемлющих релизов моделей от сообщества за последнее время. Выбор правильного варианта полностью зависит от вашего сценария использования:

  • Выбирайте 12B Базовую QAT, если вам нужна безопасная, выровненная модель для промышленных приложений с умеренными вычислительными требованиями.
  • Выбирайте 12B QAT Дообученную, если вы развертываете на периферийных устройствах или потребительских GPU и хотите наилучшее возможное 4-битное качество.
  • Выбирайте 26B-A4B QAT, если вам нужен вывод с низкой задержкой и широтой знаний большей модели — идеально для чат-ботов и интерактивных приложений.
  • Выбирайте 31B QAT Еретик без Цензуры, если вы исследователь, специалист по red-teaming или творческий профессионал, которому нужна неограниченная модель и который внедрил соответствующие гарантии.

Для выбора формата:

  • Safetensors для максимальной гибкости и дальнейшего дообучения
  • GGUF для вывода на CPU, Apple Silicon и локального развертывания с упором на конфиденциальность
  • GPTQ-Int4 для высокопроизводительного обслуживания на GPU с vLLM
  • NVFP4, если у вас есть оборудование Blackwell и вы хотите получить передовую производительность 4-битной плавающей запятой

Сообщество вокруг этих моделей активно и растет. Как и в случае со всеми быстро развивающимися религиями AI с открытым исходным кодом, следите за обновлениями через профиль llmfan46 на HuggingFace и более широкие форумы сообщества Gemma. Конвергенция QAT, архитектур MoE и доступных форматов квантизации расширяет границы возможного с локально запускаемыми большими языковыми моделями — и Gemma 4 Quadruple Release является знаковым моментом в этом путешествии.