Gemma 4 E2B 利用 WebGPU 内核在浏览器中以 255 tok/s 运行 —— Fable 5 优化传承详解

📅 2026-06-18 Reddit - LocalLLaMA

Gemma 4 E2B 利用 WebGPU 内核在浏览器内运行，速度达 255 tok/s——Fable 5 的优化遗产 | 完整指南

Gemma 4 E2B 利用 WebGPU 内核在浏览器内运行，速度达 255 tok/s——Fable 5 优化遗产解析

云端托管大语言模型与完全本地化、浏览器原生推理之间的壁垒刚刚被大幅降低。 谷歌的 Gemma 4 E2B——Gemma 系列中经量化且针对移动设备优化的迭代版本——现在完全在网页浏览器内运行，在 Apple M4 Max 上达到了惊人的每秒 255 令牌。这一里程碑是通过使用由 Fable 5 最初开发并精炼的自定义 WebGPU 内核实现的。Fable 5 是一家现已关闭的工作室，其优化成果已向社区开源。如今，任何人都可以体验 Hugging Face 上的实时演示，并查阅使这一突破成为可能的内核代码。

量化感知训练（QAT）、移动优先的 Transformer 架构与 WebGPU 原始并行计算能力的融合，开启了一个新前沿：生产级的大语言模型推理永不离开您的设备。无需服务器往返、无需 API 密钥、没有因网络拥塞导致的延迟峰值——只有纯粹、本地的令牌生成，其速度可与专用桌面应用程序相媲美。而在这个故事的核心，是 Fable 5 苦乐参半的遗产：一个在关闭后，其 GPU 内核工程专业知识仍持续惠及开源 AI 生态的团队。

什么是 Gemma 4 E2B，为何如此重要？

Gemma 4 E2B 是谷歌 Gemma 语言模型家族的一个专门变体，针对边缘部署进行了微调和压缩。"E2B" 指代一种针对设备端推理优化的编码器-解码器桥接架构，而该模型全称中的 "QAT"——gemma-4-E2B-it-qat-mobile-transformers——代表 量化感知训练。这种技术在训练阶段模拟低精度算术，从而生成一个能够优雅地处理 8 位甚至 4 位量化而不会遭受灾难性精度损失的模型。

与传统的训练后量化（PTQ）不同，QAT 将数值鲁棒性直接构建到模型的权重和激活中。其成果是一个紧凑但能力强大的大语言模型，能够轻松适应浏览器内存限制，同时保持强大的指令跟随行为。结合移动设备优化的 Transformer 模块，Gemma 4 E2B 成为 浏览器内 AI 推理的理想候选——这一用例在两年前几乎是不切实际的。

Gemma 4 E2B 模型关键规格

架构：采用移动设备优化 Transformer 层的编码器-解码器桥接架构
量化：支持 QAT，在 4 位和 8 位精度级别下均具鲁棒性
目标部署：边缘设备、移动浏览器以及 WebGPU 加速环境
托管于 Hugging Face： google/gemma-4-E2B-it-qat-mobile-transformers
许可：开放权重，适用于研究和商业原型开发

速度基准：M4 Max 上每秒 255 令牌

当 WebML 社区报告在 Apple M4 Max 上完全在浏览器内运行 Gemma 4 E2B 模型达到 每秒 255 令牌 时，AI 工程界为之侧目。以供参考：

人类阅读速度对于深度理解平均约为每秒 5–7 个令牌。
典型的云端托管大语言模型 API 在理想网络条件下可提供每秒 20–60 个令牌。
本地桌面大语言模型运行器（如使用 GPU 卸载的 llama.cpp）在消费级硬件上通常最高可达 40–100 tok/s。
255 tok/s 意味着该模型可以大约在 两秒内 生成一篇完整的 500 字文章——比大多数用户滚屏的速度还快。

这种速度彻底改变了用户体验。延迟变得不可察觉。实时应用——对话智能体、代码自动补全、实时翻译——感觉即时响应。而这一切都发生在一个标准的网页浏览器标签内，无需安装任何二进制文件。

为何 M4 Max 在 WebGPU 工作负载中表现出色

Apple 的 M4 Max 拥有统一内存架构、支持硬件加速光线追踪和网格着色的高带宽 GPU，以及先进的神经网络引擎。至关重要的是，M4 Max 通过 WebGPU API 将这些 GPU 资源暴露给浏览器。 WebGPU 是一种现代图形和计算接口，取代了 WebGL，具有更低的开销和对 GPU 命令缓冲区的更精细控制。Fable 5 内核充分利用了这些能力，最大程度地减少了 CPU-GPU 同步停顿，并最大化着色器占用率。

Fable 5：WebGPU 内核背后的工作室

Fable 5 是一家在实时图形、GPU 计算和跨平台优化方面拥有深厚专业知识的工作室。在关闭之前，该团队投入了大量精力来打造专为大语言模型推理量身定制的 WebGPU 内核。他们的工作重点包括：

融合注意力内核——将多个注意力操作合并到单个 GPU 调度中，以减少内存带宽消耗。
自定义矩阵乘法着色器——手工调优的 WGSL（WebGPU 着色语言）代码，在浏览器环境中性能超越通用线性代数库。
内存布局优化——重新排列权重张量，以在 Apple 等基于块状渲染的 GPU 架构上实现合并内存访问模式。
异步管线调度——将数据传输与计算重叠，以保持 GPU 持续满载并最小化空闲周期。

当 Fable 5 停止运营时，这些内核本可能随之消失。然而，WebML 社区挺身而出，保存并完善了代码库。这些内核现已在 Hugging Face Spaces 上公开可用，既是实用工具，也是任何对基于浏览器的 AI GPU 加速感兴趣的人的教育资源。

"在 Fable 5 关闭之前，它帮助我们优化了 Gemma 4 WebGPU 内核，使我的 M4 Max 达到了每秒约 255 令牌的速度。今天，我们发布演示和内核，供您亲自体验。"
——xenovatech，WebML 社区贡献者

WebGPU：驱动浏览器内 AI 加速的引擎

WebGPU 是由 W3C 标准化的 WebGL 继任者，从底层设计上旨在将现代 GPU 特性——计算着色器、存储缓冲区和显式命令编码——暴露给 Web 应用。与受制于其 OpenGL ES 起源的 WebGL 不同， WebGPU 直接映射到原生 API，例如 Apple Silicon 上的 Metal、Android 和 Linux 上的 Vulkan，以及 Windows 上的 DirectX 12。

为何 WebGPU 在大语言模型推理中性能超越 WebGL

计算着色器支持：WebGPU 原生支持通用 GPU 计算，使矩阵乘法和注意力机制能够作为着色器调度运行。
更低的驱动开销：显式缓冲区管理和命令编码降低了提交 GPU 工作所需的 CPU 侧成本。
存储缓冲区绑定：大型权重张量可以直接绑定为存储缓冲区，避免了 WebGL 所需的基于纹理的变通方法。
时间戳查询：开发人员可以精确测量 GPU 执行时间，从而对瓶颈内核进行有针对性的优化。
跨平台一致性：单一 WGSL 着色器代码库可在 macOS、Windows、ChromeOS 和 Android 上运行，只需最少的平台特定调整。

Fable 5 内核利用了所有这些优势。通过直接使用 WGSL 编写并绕过中间抽象层，该团队实现了通用推理引擎在浏览器环境中难以匹敌的 GPU 占用率水平。

演示工作方式——技术解析

托管于 Hugging Face Spaces 上的 Gemma 4 WebGPU 演示 提供了一个完整的、自包含的推理环境。当您加载页面时，底层操作如下：

WebGPU 适配器初始化：浏览器请求一个 GPU 适配器，优先选择高性能的独立或集成 GPU 路径。在 M4 Max 上，这映射到 Metal 后端。
模型权重加载：量化后的 Gemma 4 E2B 权重从 Hugging Face 的 CDN 获取并上传到 GPU 存储缓冲区。经 QAT 训练的权重无需运行时校准。
内核编译：来自 Fable 5 内核的 WGSL 着色器源码被编译成 GPU 专用二进制代码。此过程仅执行一次，编译后的管线缓存用于后续推理。
JavaScript 中的分词：一个轻量级的 SentencePiece 分词器，完全使用 JavaScript 实现，将用户输入转换为令牌 ID，无需服务器调用。
自回归生成循环：模型迭代运行——每次前向传播生成一个令牌，该令牌作为下一步的输入反馈。融合注意力及矩阵乘法内核在每次迭代中执行。
流式输出：令牌被解码为文本并逐步显示，创造出熟悉的流式聊天体验——完全本地，完全在浏览器内。

🚀 体验在线演示

亲身体验 255 tok/s 的浏览器内推理。无需安装——只需一个兼容 WebGPU 的浏览器（Chrome 113+、Edge 113+ 或同等版本）。

🔗 Hugging Face 上的 Gemma 4 WebGPU 内核演示

内核源代码包含在 Space 仓库中，供开发人员学习和适配。

可行见解：开发者可从 Fable 5 内核中学到什么

开源的 WebGPU 内核不仅仅是演示——它们是一堂基于浏览器的 GPU 优化大师课。以下是针对构建自己的浏览器内推理解决方案的开发者的具体收获：

1. 在性能关键路径上拥抱 WGSL

虽然像 TensorFlow.js 和 ONNX Runtime Web 这样的高级框架提供了便利，但对于 Transformer 特定操作，手工调优的 WGSL 着色器始终优于自动生成的内核。Fable 5 内核证明，直接用 WGSL 编写的融合注意力可将内存往返次数减少 30–50%，相较于通用实现。

2. 重视内存带宽胜于浮点运算次数

在 Apple M 系列等统一内存架构上，瓶颈很少是原始计算能力。相反，内存带宽和缓存利用率决定了吞吐量。Fable 5 内核使用分块计算模式，将中间结果保留在 GPU 线程组内存中，大幅减少了对全局设备内存的读取。

3. 利用 QAT 模型进行浏览器部署

量化感知训练生成的模型在低精度下数值稳定。在部署到浏览器时——内存需与其他标签页和应用程序共享——使用像 Gemma 4 E2B 这样的 QAT 模型可避免训练后量化方法常出现的精度下降。

4. 使用 WebGPU 时间戳查询进行持续性能分析

Fable 5 团队使用 WebGPU 内置的时间戳查询特性来精确识别哪些着色器调度消耗了最多的 GPU 周期。这种数据驱动的方法使他们能够将优化工作集中在真正的瓶颈上，而不是凭猜测。

更广泛的影响：浏览器内 AI 走向主流

Gemma 4 E2B 在浏览器内以 255 tok/s 运行 的发布标志着一个范式转变。多年来，主流观点认为严肃的 AI 推理需要云 GPU 或专用的本地运行时。此演示直接挑战了这一假设。请考虑其下游效应：

保护隐私的 AI：敏感数据永不离用户设备。医疗、法律和金融应用可以利用强大的大语言模型，而无需承担数据外泄风险。
离线优先体验：一旦模型权重被缓存，推理即可在无网络连接的情况下工作——非常适合野外工作、旅行以及宽带不可靠的地区。
零安装部署：用户通过 URL 即可访问前沿 AI。无需应用商店审批、无安装摩擦、无版本管理烦恼。
民主化访问：随着 WebGPU 支持在浏览器和设备上扩展，全球更多用户无需高端专用硬件即可获得强大的本地 AI 能力。

局限性与当前挑战

尽管性能令人印象深刻，但仍存在若干限制：

浏览器兼容性：WebGPU 尚未得到普遍支持。Safari 的实现落后于 Chrome 和 Edge，而 Firefox 的支持仍在开发中。
模型大小限制：虽然 Gemma 4 E2B 针对边缘部署进行了优化，但更大的模型（700 亿参数以上）即使采用激进的量化，仍然超出实用的浏览器内存限制。
首次加载延迟：在首次访问时下载数 GB 的模型权重在较慢连接上可能需要几分钟，不过缓存可缓解后续访问的这一情况。
散热降频：在笔记本电脑上持续以 255 tok/s 生成可能会触发散热降频，从而在长时间会话中降低吞吐量。
内核维护负担：手工调优的 WGSL 内核需要持续维护，以跟踪 WebGPU 规范演变和新的 GPU 架构。

常见问题解答（FAQ）

Gemma 4 E2B 到底是什么？

Gemma 4 E2B 是谷歌基于 Gemma 架构的量化、移动设备优化大语言模型。它使用量化感知训练（QAT）在低精度下保持准确性，并专门为设备端和浏览器内部署而设计。其在 Hugging Face 上的完整模型名称为 gemma-4-E2B-it-qat-mobile-transformers。

浏览器如何达到每秒 255 令牌的速度？

该速度来自多种因素的结合：由 Fable 5 使用 WGSL 编写的高度优化的 WebGPU 内核、Apple 强大的 M4 Max GPU 及其统一内存架构、QAT 压缩模型权重的效率，以及 WebGPU API 的低开销命令编码。这些因素共同消除了通常会拖慢浏览器推理速度的瓶颈。

Fable 5 是谁，为什么他们的内核如此重要？

Fable 5 是一家专注于 GPU 优化和实时图形的开发工作室。在关闭之前，他们与 WebML 社区合作，为大语言模型推理创建了自定义 WebGPU 内核。他们的工作产出了已知最快的基于浏览器的 Transformer 实现。这些内核已被开源，现由社区维护，确保优化专业知识在工作室关闭后得以存续。

我可以在 M4 Max 以外的硬件上运行吗？

可以。尽管 255 tok/s 的基准测试是在 M4 Max 上实现的，但该演示可在任何具有兼容 WebGPU 浏览器的设备上运行。性能将根据 GPU 能力和内存带宽而有所不同。Windows 和 Linux 上的高端独立 GPU，以及其他 Apple Silicon 芯片（M1、M2、M3 系列）也可以运行该演示，但令牌速率会有所不同。

Gemma 4 E2B 模型适合生产环境使用吗？

该模型是开放权重的，可用于研究和商业原型开发。然而，生产部署应考虑模型的量化级别、特定任务要求，以及 4 位或 8 位精度下的准确性是否满足您应用的质量标准。WebGPU 演示本身主要是一个教育和实验工具。

如何在我的项目中使用 WebGPU 内核？

访问 Hugging Face Space 并浏览源代码文件。WGSL 着色器代码注释完善，可适配其他 Transformer 模型。您将需要兼容 WebGPU 的浏览器，并对 GPU 计算概念有基本了解，才能针对您自己的用例修改内核。

哪些浏览器支持此演示的 WebGPU？

截至 2025 年，Google Chrome 113+、Microsoft Edge 113+ 和 Opera 提供了鲁棒的 WebGPU 支持。Safari 的 WebGPU 实现正在改善，但在性能上可能落后。Firefox 支持正在积极开发中。为获得最佳体验，请在配备强大 GPU 的设备上使用最新的 Chrome 或 Edge 版本。

结论：浏览器原生 AI 的里程碑

Gemma 4 E2B WebGPU 演示达到每秒 255 令牌 的发布，代表的意义远不止一个令人印象深刻的基准测试。它具体化了 AI 社区许多人多年来追求的一个愿景： 强大、快速且完全本地的语言模型在用户早已所在之处——浏览器——中运行。

Fable 5 内核证明了开源贡献的恒久价值。尽管该工作室已经关闭，其工程专业知识得以延续，由一个充满热情的社区推动加速，并通过一个简单的 URL 触手可及。对于开发者而言，该代码库提供了丰富的 WebGPU 优化技术学习资源。对于用户来说，它展示了一个未来，在这个未来中，AI 是瞬时的、隐私的，并且不受云依赖的限制。

尝试演示，研究内核，并思考当每秒 255 令牌的推理仅在浏览器标签页之遥时，您可以构建什么。浏览器内 AI 的时代已经到来——而且速度飞快。

🔗 探索相关资源

📂 WebGPU 内核演示 + 源代码

🧠 Hugging Face 上的 Gemma 4 E2B 模型