UnslothがGemma 4 MTPアシスタント量子化モデルを発表：マルチトークン予測がQAT精良時代に突入

📅 2026-06-10 Reddit - LocalLLaMA

Unsloth、Gemma 4 MTPアシスタント量子化モデルを発表：マルチトークン予測がQATの精鋭時代へ

Googleの最新Gemma 4大規模モデルを非常に低遅延でローカル実行し、かつ推論品質を一切損なわないのであれば、今がまさに絶好のタイミングです。オープンソースコミュニティでトップクラスのファインチューニングフレームワークUnslothが、Hugging FaceにGemma 4 QAT MTPアシスタントモデルシリーズを公開しました。すべてGGUF形式で提供され、12BからE2B（約212B）まで多様なスペックをカバーし、その中にはモバイル向けに最適化された32Bバージョンも含まれています。これらモデルはq8_0量子化を主要なリリース粒度とし、より大容量の量子化オプションも提供しており、エッジ推論におけるさらなる飛躍と言えます。

今回、Gemma 4はマルチトークン予測を真に「理解」した

今回のモデルの名称は通常版のGemma 4ではなく、「MTP」という接尾辞が明確に付与されています。MTPとはMulti-Token Prediction（マルチトークン予測）のことで、Gemma 4シリーズはネイティブに、1回の前方処理で将来の複数トークンを同時に予測し、メインモデルの生成を支援することで、自己回帰デコードの反復回数を大幅に圧縮します。しかし、ネイティブのMTPアシスタントヘッドは、慎重な量子化を行わなければ、低精度下で連携能力を失いがちです。Unslothが今回行った重要な取り組みは、QAT（量子化アウェアトレーニング）技術を用いて、MTP補助デコーダーとメインモデルを一体的に量子化ファインチューニングした点にあります。単なるポストトレーニング量子化ではないのです。これにより得られたmtp-gemma-4-*.ggufファイルは、q8_0精度においてマルチトークン予測の高速化効果をほぼロスレスで保持しつつ、モデルサイズを大幅に削減し、コンシューマGPUやCPU推論に極めて優しいものとなっています。

q8_0が新基準に、量子化スイートは階層的に明確化

Hugging Faceの任意のモデルリポジトリを開くと、入念に設計されたディレクトリ構造に気づくでしょう。モデルのルートディレクトリにはq8_0バージョンの中核となるGGUFファイルが直接配置され、独立したMTPフォルダ内にはq8_0およびより高ビットレートの量子化バリアントが収められています。この配置により、一般ユーザーはルートディレクトリのモデルを直接取得してすぐに使い始めることができ、より高い精度を求める開発者はMTPフォルダからq5_k_m、q6_k、さらにはf16などのバージョンを選択できます。Unslothはすでに以下の5つのGemma 4に対して完全なQATパイプラインを構築し、すべてオープンソース化しています。

gemma-4-12B-it-qat-GGUF —— 性能とリソース消費のバランスに優れたオールラウンダー
gemma-4-26B-A4B-it-qat-GGUF —— 26Bパラメータ、4BアクティブエキスパートのMoEモデル
gemma-4-31B-it-qat-GGUF —— 31B密モデル、汎用シーンにおける信頼の選択肢
gemma-4-E2B-it-qat-GGUF —— 超大規模E2Bアーキテクチャ、クラウドおよびワークステーションの最大火力
gemma-4-E2B-it-qat-mobile-GGUF —— モバイル端末推論専用に最適化されたスーパーモデル、エッジの限界に挑戦

量子化アウェアトレーニングがMTPを「手懐け」、推論高速化と知性維持を両立

従来のモデル量子化手法では、マルチヘッドアテンションや補助予測ヘッドの量子化が注意スコアのドリフトを引き起こし、マルチトークン予測を形骸化させることがしばしばありました。Unslothは今回、Gemma 4のMTPモジュールに対して直接量子化アウェアトレーニングを実施することで、量子化されたアシスタントモデルとメインモデル間の密接な情報結合を維持しています。実測では、q8_0 MTPモデルを用いたマルチトークン予測により、自己回帰ステップ数が約30%削減され、エンドツーエンドの生成速度が顕著に向上します。一方、困惑度などの指標は浮動小数点版とほぼ同等です。チャットやコード補完など、長いシーケンス生成が求められるシナリオにとって、これは無償のパフォーマンスアップグレードに他なりません。

今すぐデプロイ：Hugging Faceからローカルまでワンステップ

すべてのQAT MTPモデルは、llama.cpp、Ollama、LM Studioなど主要なGGUF推論エンジンに完全対応済みです。対応するGGUFファイルをダウンロードし、マルチトークン予測パラメータを設定するだけで、MシリーズMac、RTX 40シリーズGPU、さらにはRaspberry Piクラスタ上でGemma 4の完全加速版を動作させることができます。今回Unslothが公開したのは、単なるモデルファイル群ではなく、「量子化こそが加速である」という方法論の一式であり、将来的にMTP能力を備えたすべての大規模モデルがQAT量子化による二次進化を迎えることを予感させます。

今すぐ以下のリポジトリにアクセスし、あなたのMTP加速エンジンを手に入れてください。

Gemma 4 12B QAT GGUF | Gemma 4 26B A4B QAT GGUF | Gemma 4 31B QAT GGUF | Gemma 4 E2B QAT GGUF | Gemma 4 E2B モバイル最適化版