Unsloth发布Gemma 4 MTP助手量化模型：多Token预测步入QAT精品时代

📅 2026-06-10 Reddit - LocalLLaMA

Unsloth发布Gemma 4 MTP助手量化模型：多Token预测步入QAT精品时代

如果你想在本地以极低延迟运行Google最新的Gemma 4大模型，并且不让推理质量打一丝折扣，现在正是最好的时机。开源社区顶流微调框架Unsloth刚刚在Hugging Face上架了一系列Gemma 4 QAT MTP助手模型，全部以GGUF格式提供，覆盖从12B到E2B（约212B）多款规格，其中还包含一颗专为移动端优化的32B版本。这批模型以q8_0量化为首要发布粒度，同时提供更大体积的量化选项，堪称边缘推理的又一次跃进。

这一次，Gemma 4真正“听懂”了多Token预测

此次模型的命名并非普通版Gemma 4，而是明确带有“MTP”后缀。MTP即Multi-Token Prediction，Gemma 4系列原生支持在一次前向过程中同时预测多个未来Token，辅助主模型生成，从而大幅压缩自回归解码的迭代次数。然而，原生的MTP助理头若未经精心量化，容易在低精度下丢失协同能力。Unsloth此次的关键动作，在于使用QAT（量化感知训练）技术，将MTP辅助解码器与主模型一起进行量化微调，而非简单的后训练量化。由此得到的mtp-gemma-4-*.gguf文件，在q8_0精度下几乎无损地保留了多Token预测的加速效果，同时模型体积锐减，对消费级GPU和CPU推理都极其友好。

q8_0成为新基准，量化套件分层清晰

打开Hugging Face的任意一个模型仓库，你会发现一个精心设计的目录结构：模型根目录直接放置q8_0版本的核心GGUF文件，而一个独立的MTP文件夹内则收纳了q8_0与更高码率的量化变体。这种安排意味着普通用户可以直接拉取根目录模型快速上手，而追求更高精度的开发者则能进入MTP文件夹选用如q5_k_m、q6_k甚至f16等版本。Unsloth已经为以下五款Gemma 4构建了完整的QAT流水线，并全部开源：

gemma-4-12B-it-qat-GGUF —— 平衡性能与资源消耗的多面手
gemma-4-26B-A4B-it-qat-GGUF —— 26B参数，4B活跃专家的混合专家模型
gemma-4-31B-it-qat-GGUF —— 31B稠密模型，通用场景的可靠选择
gemma-4-E2B-it-qat-GGUF —— 超大杯E2B架构，云端与工作站的最强火力
gemma-4-E2B-it-qat-mobile-GGUF —— 专为移动端推理优化的超级模型，挑战端侧极限

量化感知训练“驯服”MTP，推理加速不降智

在传统的模型量化方案中，针对多头注意力或辅助预测头的量化往往造成注意力分数漂移，令多Token预测沦为摆设。Unsloth此次直接对Gemma 4的MTP模块执行量化感知训练，使得量化后的助理模型与主模型之间依然保持紧密的信息耦合。实测中，使用q8_0 MTP模型进行多Token预测，自回归步数可减少近30%，端到端生成速度提升立竿见影，而困惑度等指标与浮点版本几乎持平。对于聊天、代码补全等需要长序列生成的场景，这无异于一次免费的性能升级。

立即部署：从Hugging Face到本地只需一步

所有QAT MTP模型已全面适配llama.cpp、Ollama、LM Studio等主流GGUF推理引擎。你只需下载对应GGUF文件，配置好多Token预测参数，即可在M系列Mac、RTX 40系显卡甚至树莓派集群上跑起Gemma 4的完整加速版。Unsloth此次释放的不仅是一批模型文件，更是一整套“量化即加速”的方法论，预示着未来所有具备MTP能力的大模型，都将迎来QAT量化的二次进化。

立即访问以下仓库，揽下属于你的MTP加速引擎：

Gemma 4 12B QAT GGUF | Gemma 4 26B A4B QAT GGUF | Gemma 4 31B QAT GGUF | Gemma 4 E2B QAT GGUF | Gemma 4 E2B 移动优化版