Gemma 4 四重リリース、12B、12B QAT、26B-A4B QAT、31B QAT 無検閲ヘレティクス：決定版技術解説

📅 2026-06-12 Reddit - LocalLLaMA

Gemma 4 四重リリース：12B、12B QAT、26B-A4B QAT、31B QAT 無検閲ヘレティック – 完全ガイド

Gemma 4 四重リリース、12B、12B QAT、26B-A4B QAT、31B QAT 無検閲ヘレティック：決定的技術解説

Google の Gemma 4 ファミリーは、今年最も野心的なコミュニティ主導のリリースの 1 つを生み出しました。4 つの異なるモデルバリアント — 12B ベース、12B QAT、26B-A4B QAT、そして激しく議論されている 31B QAT 無検閲ヘレティック — が HuggingFace 上で 5 つの配布形式で利用可能になりました。この記事では、アーキテクチャ、量子化、「無検閲ヘレティック」の系譜、形式の違い、各バリアントの責任ある展開方法について詳しく解説します。

更新日：2025年7月 · 読了時間：18分

1. Gemma 4 四重リリースとは？

Gemma 4 四重リリースとは、Google の Gemma 4 アーキテクチャから派生した、ファインチューニングおよび量子化された 4 つのバリアントが一斉に公開されたことを指します。これらのモデルは、HuggingFace 上で多産なコミュニティ貢献者である llmfan46 によって制作・共有され、公式 Gemma 4 チェックポイントに 量子化アウェアトレーニング (QAT)、積極的な低ビット量子化、そして 31B の場合はアラインメントガードレールの意図的な除去が施され、コミュニティが 「無検閲ヘレティック」 バリアントと呼ぶものを生み出しました。

このリリースが重要な理由はいくつかあります：

前例のない多様性： 単一の協調リリースで、4 つのパラメータスケール（12B 高密度、12B QAT、26B-A4B 専門家混合 QAT、31B QAT）が提供されます。
5 つの配布形式： Safetensors（標準）、GGUF（llama.cpp / CPU フレンドリー）、NVFP4（NVIDIA Blackwell 最適化 4 ビット浮動小数点）、NVFP4 GGUF、GPTQ-Int4 — ほぼすべての展開シナリオをカバーします。
QAT の利点： 事後量子化（PTQ）とは異なり、QAT はトレーニングまたはファインチューニング中に量子化の認識を組み込むため、超低ビット幅でのパープレキシティ保持に優れています。
論争と需要： 「無検閲ヘレティック」というブランディングは、拒否メカニズムを削除したモデルを示し、強い関心と倫理的監視の両方を集めています。

⚠ 免責事項： 「無検閲ヘレティック」モデルは、安全性アラインメントを削除するよう変更されています。公式 Gemma モデルが拒否するコンテンツを生成する可能性があります。これらのモデルはコミュニティによって制作されたものであり、Google とは提携しておらず、承認も受けていません。適用される法律を遵守し、注意して使用してください。

2. 4 つのモデルバリアントの説明

Gemma 4 12B 高密度 · ベース QAT 12B パラメータ

Gemma 4 12B QAT 高密度 · QAT ファインチューニング q4_0 量子化

Gemma 4 26B-A4B QAT MoE · 26B 総数 / 4B アクティブ A4B アーキテクチャ

Gemma 4 31B QAT 無検閲 高密度 · アラインメントなしヘレティック ☠

2.1 Gemma 4 12B（ベース QAT バリアント）

12B 高密度モデルは、四重リリースのエントリポイントです。120 億パラメータの Gemma 4 アーキテクチャ上に構築されたこのバリアントは、4 ビット量子化に耐性を持たせるために QAT を適用しています。Google 公式リリースの標準的な指示チューニングアラインメントを保持しており、安全性コンプライアンスが期待される汎用タスクに適しています。

パラメータ数： 120 億（高密度、全パラメータがトークンごとにアクティブ）
量子化： q4_0（4 ビット、ブロックごとの対称量子化）
アラインメント： 標準的な指示チューニング、拒否ガードレールはそのまま
最適な用途： 中程度の計算リソースで完全な安全性アラインメントを必要とする本番展開

2.2 Gemma 4 12B QAT（ファインチューニング済み q4_0）

これは 12B をさらに改良したバージョンで、q4_0 量子化スキームに特化して最適化された追加の QAT ファインチューニングが施されています。追加の QAT パスにより、完全精度 12B とその 4 ビット版の間のパープレキシティギャップがほぼ無視できるレベルまで低減されます。品質を劣化させずに最小のメモリフットプリントで 12B を必要とする場合は、このバリアントを選択してください。

主な差別化要因： ベース QAT チェックポイントを超えた拡張 QAT ファインチューニング
メモリフットプリント： 4 ビットモードで約 6～7 GB
ユースケース： エッジ展開、8～12 GB VRAM のコンシューマ向け GPU

2.3 Gemma 4 26B-A4B QAT（専門家混合）

26B-A4Bは、このリリースで最もアーキテクチャ的に興味深いメンバーです。これは、総パラメータ数が 260 億でありながら、トークンごとにアクティブになるのは 40 億のみ（A4B と表記）という 専門家混合（MoE）設計を採用しています。このスパースアクティベーションパターンは、より大きなモデルの知識容量を維持しながら、4B 高密度モデルに近い推論速度を提供します。QAT 処理により、MoE ルーティングと専門家の重みが 4 ビット圧縮に適切に対応します。

総パラメータ数： 260 億（スパース MoE）
トークンごとのアクティブパラメータ： 約 40 億
アーキテクチャのハイライト： 負荷分散損失を伴うゲート付き専門家ルーティング
理想的な用途： レイテンシを低く保ちつつ知識の深さが重要な高スループットサービング

2.4 Gemma 4 31B QAT 無検閲ヘレティック

話題をさらったモデルです。31B QAT 無検閲ヘレティックは、310 億パラメータの高密度モデルで、q4_0 圧縮のための QAT が適用され、かつ安全性アラインメントが意図的に削除またはバイパスされています。「ヘレティック」という用語は、公式モデルが拒否するプロンプトにも応答するモデルに対するコミュニティの命名法です。このバリアントについては次のセクションで詳しく掘り下げます。

3. 詳細分析：31B QAT 無検閲ヘレティック

gemma-4-31B-it-qat-q4_0-unquantized-uncensored-heretic バリアント（しばしば「31B 無検閲ヘレティック」と略される）は、このリリースで最もダウンロードされ議論されているモデルとなりました。その理由を理解するには、技術的来歴、非量子化のパラドックス、無検閲化メカニズムという 3 つの側面を検証する必要があります。

3.1 QAT コンテキストにおける「非量子化」の意味とは？

ファイル名には 「非量子化（unquantized）」という用語が含まれており、混乱を招く可能性があります。このコンテキストでは、モデルの重みが QAT を経た完全精度形式（BF16/FP16）で保存されていることを意味します。重みは量子化認識トレーニングを受けているため、q4_0 推論に対応する準備ができていますが、チェックポイント自体はまだ 4 ビットに量子化されていません。これにより、ユーザーは次のことが可能になります：

独自の量子化スキーム（q4_0、q4_1、q5_0 など）を適用する
必要に応じて完全精度でモデルを実行する（QAT が重み空間を改善しているため、品質は優れています）
提供されている GGUF または GPTQ バージョンを使用して、即座に 4 ビット展開する

3.2 「無検閲」の改変はどのように達成されたか？

正確な方法論は完全には開示されていませんが、コミュニティの分析によると、無検閲化は以下の技術の組み合わせによって達成されたと示唆されています：

拒否なしコーパスでのファインチューニング： アシスタントが拒否パターンなしで一貫して応答するデータセットでモデルをさらにトレーニングし、アラインメントベクトルを効果的に上書きしました。
LoRA ベースのアラインメント除去： 低ランク適応法を使用して、モデルの残差ストリームから安全性拒否の方向性を減算または中和した可能性があります。
プロンプトプレフィックスの再条件付け： システムプロンプトとチャットテンプレートが変更され、公式の指示テンプレートに存在する「有用で無害」という条件付けが削除された可能性があります。

その結果、Gemma 4 の強力な推論、コーディング、創造的能力を保持しながら、安全性分類に基づくリクエストを拒否しなくなった 31B モデルが得られました。

3.3 なぜ「ヘレティック」なのか？コミュニティの命名規則

オープンソース LLM コミュニティでは、「ヘレティック」は「抹消された（abliterated）」「無検閲（uncensored）」「抑制解除（unhinged）」といった用語と並んで、ガードレールが除去されたモデルを表すために登場しました。この用語は反抗的な意味合いを持ち、モデルが元の開発者によって課された倫理的制約なしに動作することをユーザーに示します。これは公式な指定ではなく、純粋にコミュニティ主導の命名法です。

4. 配布形式：Safetensors、GGUF、NVFP4、GPTQ-Int4

llmfan46 リリースの最もユーザーフレンドリーな側面の 1 つは、形式の幅広さです。それぞれが異なる展開エコシステムに対応します。各形式について知っておくべきことは次のとおりです：

4.1 Safetensors（標準）

Safetensorsは、モデルの重みを配布するための安全で高速、かつますます標準になりつつある形式です。pickle ベースの形式とは異なり、Safetensors は任意のコード実行の影響を受けないため、安全な選択肢です。これらのファイルには完全精度（または QAT 準備済み）の重みが含まれており、以下の用途に最適です：

HuggingFace transformers または accelerate への読み込み
ファインチューニングまたは追加トレーニング
他の形式への変換

リポジトリ： llmfan46/gemma-4-31B-it-qat-q4_0-unquantized-uncensored-heretic (Safetensors)

4.2 GGUF（llama.cpp / CPU 推論）

GGUF（GPT-Generated Unified Format）は GGML の後継であり、llama.cpp、Ollama、LM Studio、その他の CPU 優先またはハイブリッド推論エンジンの標準形式です。このリリースの GGUF ファイルは q4_0 に事前量子化されているため、変換ステップなしでダウンロードしてすぐに実行できます。

リポジトリ： llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-GGUF

最適な用途： Apple Silicon（M1/M2/M3/M4）、AMD Ryzen、Intel CPU 推論、プライバシー重視のローカル展開
典型的なパフォーマンス： 32 GB RAM 搭載 M2 Max で 8～15 トークン/秒

4.3 NVFP4（NVIDIA Blackwell 4 ビット浮動小数点）

NVFP4は、NVIDIA の Blackwell アーキテクチャ（B200、B100 GPU）向けに設計された最先端の 4 ビット浮動小数点形式です。整数量子化（INT4）とは異なり、NVFP4 は浮動小数点表現を使用するため、特に外れ値のアクティベーションに対して動的範囲をより効果的に保持します。NVFP4 Safetensors バリアントはこの形式で重みを保存し、NVFP4 GGUF バリアントはこの形式を llama.cpp エコシステムに橋渡しします。

NVFP4 Safetensors： llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-NVFP4
NVFP4 GGUF： llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-NVFP4-GGUF

4.4 GPTQ-Int4

GPTQ-Int4は、近似二次情報（ヘッセ行列ベース）を使用して量子化誤差を最小化する事後量子化手法です。GPTQ-Int4 バリアントは AutoGPTQ および vLLM 推論バックエンド用に最適化されており、最小限のパープレキシティ劣化で CUDA GPU 上で優れたスループットを提供します。

リポジトリ： llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-GPTQ-Int4 (GPTQ-Int4)

最適な用途： vLLM または TGI を使用した高スループット GPU サービング
GPU 要件： 16 GB 以上の VRAM を搭載した CUDA 対応 GPU を推奨

5. HuggingFace リポジトリリンク完全一覧

すべてのリポジトリは、HuggingFace 上で llmfan46 によって維持されています。以下は、Gemma 4 31B QAT 無検閲ヘレティックの 5 つの配布形式すべてにおける完全かつ検証済みのリストです：

🔗 公式リポジトリ — Gemma 4 31B 無検閲ヘレティック

Safetensors（非量子化 QAT）：
https://huggingface.co/llmfan46/gemma-4-31B-it-qat-q4_0-unquantized-uncensored-heretic
GGUF（q4_0 量子化済み）：
https://huggingface.co/llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-GGUF
NVFP4 Safetensors：
https://huggingface.co/llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-NVFP4
NVFP4 GGUF：
https://huggingface.co/llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-NVFP4-GGUF
GPTQ-Int4：
https://huggingface.co/llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-GPTQ-Int4

注意： 12B、12B QAT、26B-A4B QAT バリアントも、同様の命名規則で llmfan46 の HuggingFace プロフィールから入手可能です。完全なカタログについてはプロフィールを確認してください。

6. サイドバイサイド比較：4 つの Gemma 4 バリアントすべて

特徴	12B ベース QAT	12B QAT ファインチューニング	26B-A4B QAT	31B QAT 無検閲
アーキテクチャ	高密度	高密度	MoE（26B 総数 / 4B アクティブ）	高密度
総パラメータ数	12B	12B	26B	31B
トークンあたりのアクティブ数	12B	12B	約 4B	31B
量子化	QAT + q4_0 対応	拡張 QAT + q4_0	QAT + q4_0 対応	QAT + q4_0 対応
安全性アラインメント	完全（Gemma 標準）	完全（Gemma 標準）	完全（Gemma 標準）	削除済み（無検閲）
メモリ（約 4 ビット）	約 7 GB	約 7 GB	約 15 GB（総数）/ 約 3 GB アクティブ	約 17 GB
最適な用途	安全な本番環境	エッジ / コンシューマ GPU	低レイテンシサービング	研究、クリエイティブ、制限なし使用

7. これらのモデルの展開と実行方法

7.1 Transformers を使用した Safetensors バージョンの読み込み

# 依存関係のインストール
pip install transformers accelerate safetensors

# 非量子化 QAT モデルの読み込み
from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "llmfan46/gemma-4-31B-it-qat-q4_0-unquantized-uncensored-heretic"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype="auto",
    device_map="auto"
)

# 推論
inputs = tokenizer("LLM における QAT の概念を説明してください：", return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

7.2 llama.cpp を使用した GGUF バージョンの実行

# llama.cpp のクローンとビルド
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && make -j

# GGUF リポジトリから任意の .gguf ファイルをダウンロード
# 例：gemma-4-31b-it-qat-q4_0-uncensored-heretic.Q4_0.gguf

# 推論の実行
./main -m gemma-4-31b-it-qat-q4_0-uncensored-heretic.Q4_0.gguf \
       -p "人工知能についての詩を書いてください：" \
       -n 256 \
       -t 8

7.3 vLLM を使用した GPTQ-Int4 による高スループットサービング

# vLLM のインストール
pip install vllm

# GPTQ-Int4 バリアントの提供
python -m vllm.entrypoints.openai.api_server \
    --model llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-GPTQ-Int4 \
    --quantization gptq \
    --dtype auto \
    --max-model-len 8192

7.4 NVIDIA Blackwell ハードウェアでの NVFP4

Blackwell GPU（B200/B100）にアクセスできるユーザーにとって、NVFP4 形式はネイティブの 4 ビット浮動小数点テンソルコアアクセラレーションを解放します。NVFP4 Safetensors ファイルは、この形式をサポートするカスタム transformers ブランチで読み込むことができ、NVFP4 GGUF ファイルは、NVFP4 カーネルが有効になっている特別にコンパイルされた llama.cpp ビルドで動作します。最新の読み込み手順については、それぞれの HuggingFace リポジトリを確認してください。

8. リスク、倫理、「無検閲」ラベルについて

Gemma 4 31B QAT 無検閲ヘレティックは、すべての実務者が展開前に考慮すべき重要な倫理的問題を提起します：

8.1 「無検閲」が実際に意味するもの

このリリースの文脈では、「無検閲」とは、モデルの拒否メカニズム — 潜在的に有害なリクエストを検出し拒否応答をトリガーする内部分類器 — が無効化または削除されたことを意味します。モデルは、以下を含むあらゆるプロンプトに応答しようとします：

暴力的、憎悪的、または嫌がらせのコンテンツの生成
違法行為の指示
マルウェア、エクスプロイト、または武器関連情報の作成
性的に露骨または非合意のコンテンツ
誤情報および偽情報キャンペーン

8.2 正当なユースケース

リスクにもかかわらず、無検閲モデルには研究、レッドチーミング、クリエイティブライティング、敵対的堅牢性テストにおいて正当な用途があります。セキュリティ研究者は、ジェイルブレイク技術を研究し、より優れた防御策を開発するためにこれらを使用します。ライターは、標準モデルが誤ってフラグを立てる可能性があるフィルタリングなしのクリエイティブな探求に使用します。重要なのは、適切な安全策を伴う責任ある展開です。

8.3 緩和戦略

入出力フィルタリング： モデルの周囲にコンテンツモデレーションレイヤー（例：Llama Guard、Perspective API）を展開します。
アクセス制御： 認証および承認されたユーザーのみにモデルアクセスを制限します。
ログ記録と監視： 監査目的で、すべてのプロンプトと完了の包括的なログを維持します。
サンドボックス展開： インターネットアクセスやシステムレベルの権限がない隔離された環境でモデルを実行します。

⚠ 重要： この記事は、情報提供を目的として、これらのモデルの存在と技術仕様を文書化したものです。著者は、有害、違法、または非倫理的な目的での無検閲モデルの使用を推奨しません。管轄区域の適用される法律および規制を常に遵守してください。

9. よくある質問

Q：12B と 12B QAT バリアントの違いは何ですか？

12B QAT バリアントは、ベース QAT チェックポイントを超えた拡張量子化アウェアトレーニングを受けており、実際に 4 ビットに量子化した際のパープレキシティ保持がより優れています。4 ビット精度で実行する予定がある場合は、わずかに優れた品質のために 12B QAT バリアントを選択してください。

Q：31B 無検閲ヘレティックを単一のコンシューマ GPU で実行できますか？

4 ビット GGUF または GPTQ-Int4 形式では、31B モデルは約 17 GB の VRAM を必要とします。これは RTX 4090（24 GB）または RTX 3090（24 GB）に十分収まります。Apple Silicon の場合は、妥当なパフォーマンスを得るために少なくとも 32 GB のユニファイドメモリを搭載した Mac が必要です。

Q：モデル名の「q4_0」は何を意味しますか？

q4_0 は、GGUF/llama.cpp で使用される特定の 4 ビット量子化スキームです。ブロックサイズ 32 の対称ブロックごとの量子化を使用します。つまり、32 個の重みごとに単一のスケーリング係数が共有されます。ほとんどのユースケースで圧縮率と品質のバランスが良好です。

Q：26B-A4B モデルは 12B 高密度モデルよりも高速ですか？

単一トークン生成の場合、はい — 26B-A4B MoE モデルはトークンごとに約 4B パラメータのみをアクティブにします。これは、12B 高密度モデルの 12B よりも少ないです。ただし、すべてのエキスパートをロードする必要があるため、総メモリ要件は高くなります（約 15 GB 対 4 ビットで約 7 GB）。スループットはハードウェアのメモリ帯域幅に依存します。

Q：これらのモデルは使用が合法ですか？

ベース Gemma 4 モデルは、Google の Gemma ライセンスの下でリリースされており、特定の制限付きで商用および研究使用が許可されています。コミュニティによって変更された「無検閲ヘレティック」バリアントはグレーゾーンに存在します — それらは二次的著作物です。ユーザーは、特定のユースケースについて Gemma ライセンス条件および法律顧問に相談する必要があります。

Q：NVFP4 とは何ですか、必要ですか？

NVFP4（NVIDIA 4 ビット浮動小数点）は、Blackwell アーキテクチャ GPU 向けに最適化された新しい形式です。B200 または B100 GPU をお持ちでない場合は、代わりに標準の GGUF または GPTQ-Int4 形式を使用する必要があります。NVFP4 は INT4 よりも優れたダイナミックレンジを提供しますが、特定のハードウェアサポートが必要です。

Q：モデルファイルが改ざんされていないことを確認するにはどうすればよいですか？

HuggingFace リポジトリには SHA256 チェックサムが含まれています。ダウンロード後、sha256sum <filename> を実行し、リポジトリの README またはモデルカードに記載されているチェックサムと比較してください。GGUF ファイルの場合、llama.cpp はロード時に内部チェックサムも検証します。

10. 結論：どの Gemma 4 バリアントがあなたに適しているか？

12B、12B QAT、26B-A4B QAT、31B QAT 無検閲ヘレティックにまたがり、Safetensors、GGUF、NVFP4、GPTQ-Int4 にわたる Gemma 4 四重リリースは、近年の記憶に残る中で最も包括的なコミュニティモデルドロップの 1 つです。適切なバリアントの選択は、完全にあなたのユースケースに依存します：

12B ベース QAT を選択する場合： 中程度の計算要件で、本番アプリケーション向けの安全でアライメントされたモデルが必要な場合。
12B QAT ファインチューニングを選択する場合： エッジデバイスまたはコンシューマ GPU に展開し、可能な限り最高の 4 ビット品質を求める場合。
26B-A4B QAT を選択する場合： より大きなモデルの知識の幅を持ちながら低レイテンシの推論が必要な場合 — チャットボットやインタラクティブアプリケーションに最適です。
31B QAT 無検閲ヘレティックを選択する場合： 研究者、レッドチーマー、または制限のないモデルを必要とし、適切な安全策を実装しているクリエイティブ専門家の場合。

形式の選択について：

Safetensors： 最大限の柔軟性とさらなるファインチューニング用
GGUF： CPU 推論、Apple Silicon、プライバシー重視のローカル展開用
GPTQ-Int4： vLLM を使用した高スループット GPU サービング用
NVFP4： Blackwell ハードウェアを持ち、最先端の 4 ビット浮動小数点パフォーマンスを求める場合

これらのモデルを中心としたコミュニティは活発で成長しています。急速に進化するすべてのオープンソース AI リリースと同様に、llmfan46 HuggingFace プロフィールおよびより広範な Gemma コミュニティフォーラムを通じて最新情報を入手してください。QAT、MoE アーキテクチャ、およびアクセス可能な量子化形式の融合は、ローカルで実行される大規模言語モデルで可能なことの最前線を押し進めています — そして Gemma 4 四重リリースは、その旅路における画期的な瞬間です。