12GB显存跑出120 tok/s，Gemma 4 QAT版把大模型推理拉入消费级快车道

📅 2026-06-07 🤖 大模型智能生成

12GB显存跑出120 tok/s，Gemma 4 QAT版把大模型推理拉入消费级快车道

一觉醒来，12GB显卡突然成了大模型神器

就在几小时前，Google 悄然放出了 Gemma 4 系列的量化感知训练（QAT）变体，其中 12B 参数版本直接点燃了小显存玩家的热情。一位开发者第一时间在自己的 12GB VRAM GPU 上开展了实测，结果令人震惊：模型完整载入显存后，推理速度飙到每秒 120 个 token。这不是云端集群的数字，而是货真价实跑在单张消费级显卡上的成绩。

QAT + MTP，双重魔法如何压榨每一寸带宽

这次快讯里的技术组合堪称精巧。QAT，即量化感知训练，不同于传统后训练量化，它在训练阶段就把低精度表征引入计算图，让模型学会在 int8、int4 等低比特环境下依然保持高质量输出。而 MTP（Multi-Token Prediction）则通过一次前向过程预测多个 token，显著提高吞吐。开发者使用了基于 llama.cpp 并专门为 Gemma 4 打上 MTP 补丁的推理栈，同时加载了 Unsloth 发布的 gemma-4-12B-it-qat-GGUF 量化主模型，以及由 Google 提供的专门用于辅助生成的 qat-q4_0 未量化助手模型，后者也被转换为 GGUF 格式上传至 HuggingFace。这种主模型加小助手草案模型的搭配，有点类似推测解码的思路，让生成效率再上一个台阶。

120 tok/s 意味着什么：从可用到丝滑的质变

每秒 120 token 的速度已经远超人类阅读速度的数倍，对于实时对话、代码补全、本地知识库问答等场景，几乎做到了零等待。以往想在 12GB 显存里塞进一个像样的 10B+ 模型，往往要接受 10 到 20 tok/s 甚至更低的妥协速度，还经常掉出显存边界。现在 Gemma 4 QAT 版凭借 QAT 的压缩效率和 MTP 的吞吐优化，让一张 RTX 4070、3080 或者 A2000 级别的显卡直接化身个人推理服务器。这不仅把云端 API 延迟远远甩开，还保护了数据隐私，对企业端轻量化部署和极客个人环境都是重大利好。

开源生态飞速跟进，HuggingFace 上已经能跑能玩

值得留意的是，整套链路只用到了开源组件：llama.cpp、GGUF 格式、Unsloth 的量化脚本，还有社区快速转换上传的模型文件。这样的开放度意味着极低的接入门槛，任何一个拥有 12GB 显存的开发者，都可以在半小时内复现这条速度曲线。Google 选择在 Gemma 4 上同时发力 QAT 与 MTP，显然是看到开源社区对小尺寸、高速率模型的热切需求，并用实际行动把最前沿的推理加速技术送到消费者设备里。

它会点燃下一波本地推理热潮吗

120 tok/s 的成绩不是一个孤立的跑分，它可能重新定义人们对“本地大模型”的预期。当 12B 模型能在中端显卡上跑出如此速度，又通过 QAT 保留了不俗的生成质量，那种必须在超大显存或云端寻找出路的固有印象就被打破了。对于垂类应用开发者而言，这意味着可以把 Gemma 4 QAT 版嵌入到 IDE 插件、终端助手、离线翻译器等产品中，真正实现轻量化私有化。后续随着更多量化格式和 MTP 优化的成熟，我们有理由期待 8GB 甚至更小显存设备上的表现。这不是一次简单的模型发布，而是把高吞吐智能推入大众化轨道的关键一步。