AIGridHQ News
返回首页

Gemma 4 E2B 利用 WebGPU 内核在浏览器中以 255 tok/s 运行 —— Fable 5 优化传承详解

📅 2026-06-18 Reddit - LocalLLaMA
Gemma 4 E2B 利用 WebGPU 内核在浏览器内运行,速度达 255 tok/s——Fable 5 的优化遗产 | 完整指南

Gemma 4 E2B 利用 WebGPU 内核在浏览器内运行,速度达 255 tok/s——Fable 5 优化遗产解析

云端托管大语言模型与完全本地化、浏览器原生推理之间的壁垒刚刚被大幅降低。 谷歌的 Gemma 4 E2B——Gemma 系列中经量化且针对移动设备优化的迭代版本——现在完全在网页浏览器内运行, 在 Apple M4 Max 上达到了惊人的 每秒 255 令牌。这一里程碑是通过使用由 Fable 5 最初开发并精炼的自定义 WebGPU 内核实现的。Fable 5 是一家现已关闭的工作室,其优化成果已向社区开源。如今,任何人都可以体验 Hugging Face 上的实时演示,并查阅使这一突破成为可能的内核代码。

量化感知训练(QAT)、移动优先的 Transformer 架构与 WebGPU 原始并行计算能力的融合,开启了一个新前沿:生产级的大语言模型推理永不离开您的设备。 无需服务器往返、无需 API 密钥、没有因网络拥塞导致的延迟峰值——只有纯粹、本地的令牌生成,其速度可与专用桌面应用程序相媲美。而在这个故事的核心,是 Fable 5 苦乐参半的遗产:一个在关闭后,其 GPU 内核工程专业知识仍持续惠及开源 AI 生态的团队。

什么是 Gemma 4 E2B,为何如此重要?

Gemma 4 E2B 是谷歌 Gemma 语言模型家族的一个专门变体,针对边缘部署进行了微调和压缩。"E2B" 指代一种针对设备端推理优化的编码器-解码器桥接架构, 而该模型全称中的 "QAT"——gemma-4-E2B-it-qat-mobile-transformers——代表 量化感知训练。 这种技术在训练阶段模拟低精度算术,从而生成一个能够优雅地处理 8 位甚至 4 位量化而不会遭受灾难性精度损失的模型。

与传统的训练后量化(PTQ)不同,QAT 将数值鲁棒性直接构建到模型的权重和激活中。其成果是一个紧凑但能力强大的大语言模型,能够轻松适应浏览器内存限制,同时保持强大的指令跟随行为。 结合移动设备优化的 Transformer 模块,Gemma 4 E2B 成为 浏览器内 AI 推理的理想候选——这一用例在两年前几乎是不切实际的。

Gemma 4 E2B 模型关键规格

  • 架构:采用移动设备优化 Transformer 层的编码器-解码器桥接架构
  • 量化:支持 QAT,在 4 位和 8 位精度级别下均具鲁棒性
  • 目标部署:边缘设备、移动浏览器以及 WebGPU 加速环境
  • 托管于 Hugging Face: google/gemma-4-E2B-it-qat-mobile-transformers
  • 许可:开放权重,适用于研究和商业原型开发

速度基准:M4 Max 上每秒 255 令牌

当 WebML 社区报告在 Apple M4 Max 上完全在浏览器内运行 Gemma 4 E2B 模型达到 每秒 255 令牌 时,AI 工程界为之侧目。以供参考:

  • 人类阅读速度对于深度理解平均约为每秒 5–7 个令牌。
  • 典型的云端托管大语言模型 API 在理想网络条件下可提供每秒 20–60 个令牌。
  • 本地桌面大语言模型运行器(如使用 GPU 卸载的 llama.cpp)在消费级硬件上通常最高可达 40–100 tok/s。
  • 255 tok/s 意味着该模型可以大约在 两秒内 生成一篇完整的 500 字文章——比大多数用户滚屏的速度还快。

这种速度彻底改变了用户体验。延迟变得不可察觉。实时应用——对话智能体、代码自动补全、实时翻译——感觉即时响应。而这一切都发生在一个标准的网页浏览器标签内,无需安装任何二进制文件。

为何 M4 Max 在 WebGPU 工作负载中表现出色

Apple 的 M4 Max 拥有统一内存架构、支持硬件加速光线追踪和网格着色的高带宽 GPU,以及先进的神经网络引擎。至关重要的是,M4 Max 通过 WebGPU API 将这些 GPU 资源暴露给浏览器。 WebGPU 是一种现代图形和计算接口,取代了 WebGL,具有更低的开销和对 GPU 命令缓冲区的更精细控制。Fable 5 内核充分利用了这些能力,最大程度地减少了 CPU-GPU 同步停顿,并最大化着色器占用率。

Fable 5:WebGPU 内核背后的工作室

Fable 5 是一家在实时图形、GPU 计算和跨平台优化方面拥有深厚专业知识的工作室。在关闭之前,该团队投入了大量精力来打造专为大语言模型推理量身定制的 WebGPU 内核。他们的工作重点包括:

  1. 融合注意力内核——将多个注意力操作合并到单个 GPU 调度中,以减少内存带宽消耗。
  2. 自定义矩阵乘法着色器——手工调优的 WGSL(WebGPU 着色语言)代码,在浏览器环境中性能超越通用线性代数库。
  3. 内存布局优化——重新排列权重张量,以在 Apple 等基于块状渲染的 GPU 架构上实现合并内存访问模式。
  4. 异步管线调度——将数据传输与计算重叠,以保持 GPU 持续满载并最小化空闲周期。

当 Fable 5 停止运营时,这些内核本可能随之消失。然而,WebML 社区挺身而出,保存并完善了代码库。这些内核现已在 Hugging Face Spaces 上公开可用,既是实用工具,也是任何对基于浏览器的 AI GPU 加速感兴趣的人的教育资源。

"在 Fable 5 关闭之前,它帮助我们优化了 Gemma 4 WebGPU 内核,使我的 M4 Max 达到了每秒约 255 令牌的速度。 今天,我们发布演示和内核,供您亲自体验。"
——xenovatech,WebML 社区贡献者

WebGPU:驱动浏览器内 AI 加速的引擎

WebGPU 是由 W3C 标准化的 WebGL 继任者,从底层设计上旨在将现代 GPU 特性——计算着色器、存储缓冲区和显式命令编码——暴露给 Web 应用。与受制于其 OpenGL ES 起源的 WebGL 不同, WebGPU 直接映射到原生 API,例如 Apple Silicon 上的 Metal、Android 和 Linux 上的 Vulkan,以及 Windows 上的 DirectX 12。

为何 WebGPU 在大语言模型推理中性能超越 WebGL

  • 计算着色器支持:WebGPU 原生支持通用 GPU 计算,使矩阵乘法和注意力机制能够作为着色器调度运行。
  • 更低的驱动开销:显式缓冲区管理和命令编码降低了提交 GPU 工作所需的 CPU 侧成本。
  • 存储缓冲区绑定:大型权重张量可以直接绑定为存储缓冲区,避免了 WebGL 所需的基于纹理的变通方法。
  • 时间戳查询:开发人员可以精确测量 GPU 执行时间,从而对瓶颈内核进行有针对性的优化。
  • 跨平台一致性:单一 WGSL 着色器代码库可在 macOS、Windows、ChromeOS 和 Android 上运行,只需最少的平台特定调整。

Fable 5 内核利用了所有这些优势。通过直接使用 WGSL 编写并绕过中间抽象层,该团队实现了通用推理引擎在浏览器环境中难以匹敌的 GPU 占用率水平。

演示工作方式——技术解析

托管于 Hugging Face Spaces 上的 Gemma 4 WebGPU 演示 提供了一个完整的、自包含的推理环境。当您加载页面时,底层操作如下:

  1. WebGPU 适配器初始化:浏览器请求一个 GPU 适配器,优先选择高性能的独立或集成 GPU 路径。在 M4 Max 上,这映射到 Metal 后端。
  2. 模型权重加载:量化后的 Gemma 4 E2B 权重从 Hugging Face 的 CDN 获取并上传到 GPU 存储缓冲区。经 QAT 训练的权重无需运行时校准。
  3. 内核编译:来自 Fable 5 内核的 WGSL 着色器源码被编译成 GPU 专用二进制代码。此过程仅执行一次,编译后的管线缓存用于后续推理。
  4. JavaScript 中的分词:一个轻量级的 SentencePiece 分词器,完全使用 JavaScript 实现,将用户输入转换为令牌 ID,无需服务器调用。
  5. 自回归生成循环:模型迭代运行——每次前向传播生成一个令牌,该令牌作为下一步的输入反馈。融合注意力及矩阵乘法内核在每次迭代中执行。
  6. 流式输出:令牌被解码为文本并逐步显示,创造出熟悉的流式聊天体验——完全本地,完全在浏览器内。

🚀 体验在线演示

亲身体验 255 tok/s 的浏览器内推理。无需安装——只需一个兼容 WebGPU 的浏览器(Chrome 113+、Edge 113+ 或同等版本)。

🔗 Hugging Face 上的 Gemma 4 WebGPU 内核演示

内核源代码包含在 Space 仓库中,供开发人员学习和适配。

可行见解:开发者可从 Fable 5 内核中学到什么

开源的 WebGPU 内核不仅仅是演示——它们是一堂基于浏览器的 GPU 优化大师课。以下是针对构建自己的浏览器内推理解决方案的开发者的具体收获:

1. 在性能关键路径上拥抱 WGSL

虽然像 TensorFlow.js 和 ONNX Runtime Web 这样的高级框架提供了便利,但对于 Transformer 特定操作,手工调优的 WGSL 着色器始终优于自动生成的内核。Fable 5 内核证明,直接用 WGSL 编写的融合注意力可将内存往返次数减少 30–50%,相较于通用实现。

2. 重视内存带宽胜于浮点运算次数

在 Apple M 系列等统一内存架构上,瓶颈很少是原始计算能力。相反,内存带宽和缓存利用率决定了吞吐量。Fable 5 内核使用分块计算模式,将中间结果保留在 GPU 线程组内存中,大幅减少了对全局设备内存的读取。

3. 利用 QAT 模型进行浏览器部署

量化感知训练生成的模型在低精度下数值稳定。在部署到浏览器时——内存需与其他标签页和应用程序共享——使用像 Gemma 4 E2B 这样的 QAT 模型可避免训练后量化方法常出现的精度下降。

4. 使用 WebGPU 时间戳查询进行持续性能分析

Fable 5 团队使用 WebGPU 内置的时间戳查询特性来精确识别哪些着色器调度消耗了最多的 GPU 周期。这种数据驱动的方法使他们能够将优化工作集中在真正的瓶颈上,而不是凭猜测。

更广泛的影响:浏览器内 AI 走向主流

Gemma 4 E2B 在浏览器内以 255 tok/s 运行 的发布标志着一个范式转变。多年来,主流观点认为严肃的 AI 推理需要云 GPU 或专用的本地运行时。此演示直接挑战了这一假设。请考虑其下游效应:

  • 保护隐私的 AI:敏感数据永不离用户设备。医疗、法律和金融应用可以利用强大的大语言模型,而无需承担数据外泄风险。
  • 离线优先体验:一旦模型权重被缓存,推理即可在无网络连接的情况下工作——非常适合野外工作、旅行以及宽带不可靠的地区。
  • 零安装部署:用户通过 URL 即可访问前沿 AI。无需应用商店审批、无安装摩擦、无版本管理烦恼。
  • 民主化访问:随着 WebGPU 支持在浏览器和设备上扩展,全球更多用户无需高端专用硬件即可获得强大的本地 AI 能力。

局限性与当前挑战

尽管性能令人印象深刻,但仍存在若干限制:

  • 浏览器兼容性:WebGPU 尚未得到普遍支持。Safari 的实现落后于 Chrome 和 Edge,而 Firefox 的支持仍在开发中。
  • 模型大小限制:虽然 Gemma 4 E2B 针对边缘部署进行了优化,但更大的模型(700 亿参数以上)即使采用激进的量化,仍然超出实用的浏览器内存限制。
  • 首次加载延迟:在首次访问时下载数 GB 的模型权重在较慢连接上可能需要几分钟,不过缓存可缓解后续访问的这一情况。
  • 散热降频:在笔记本电脑上持续以 255 tok/s 生成可能会触发散热降频,从而在长时间会话中降低吞吐量。
  • 内核维护负担:手工调优的 WGSL 内核需要持续维护,以跟踪 WebGPU 规范演变和新的 GPU 架构。

常见问题解答(FAQ)

Gemma 4 E2B 到底是什么?

Gemma 4 E2B 是谷歌基于 Gemma 架构的量化、移动设备优化大语言模型。它使用量化感知训练(QAT)在低精度下保持准确性,并专门为设备端和浏览器内部署而设计。其在 Hugging Face 上的完整模型名称为 gemma-4-E2B-it-qat-mobile-transformers

浏览器如何达到每秒 255 令牌的速度?

该速度来自多种因素的结合:由 Fable 5 使用 WGSL 编写的高度优化的 WebGPU 内核、Apple 强大的 M4 Max GPU 及其统一内存架构、QAT 压缩模型权重的效率,以及 WebGPU API 的低开销命令编码。这些因素共同消除了通常会拖慢浏览器推理速度的瓶颈。

Fable 5 是谁,为什么他们的内核如此重要?

Fable 5 是一家专注于 GPU 优化和实时图形的开发工作室。在关闭之前,他们与 WebML 社区合作,为大语言模型推理创建了自定义 WebGPU 内核。他们的工作产出了已知最快的基于浏览器的 Transformer 实现。这些内核已被开源,现由社区维护,确保优化专业知识在工作室关闭后得以存续。

我可以在 M4 Max 以外的硬件上运行吗?

可以。尽管 255 tok/s 的基准测试是在 M4 Max 上实现的,但该演示可在任何具有兼容 WebGPU 浏览器的设备上运行。性能将根据 GPU 能力和内存带宽而有所不同。Windows 和 Linux 上的高端独立 GPU,以及其他 Apple Silicon 芯片(M1、M2、M3 系列)也可以运行该演示,但令牌速率会有所不同。

Gemma 4 E2B 模型适合生产环境使用吗?

该模型是开放权重的,可用于研究和商业原型开发。然而,生产部署应考虑模型的量化级别、特定任务要求,以及 4 位或 8 位精度下的准确性是否满足您应用的质量标准。WebGPU 演示本身主要是一个教育和实验工具。

如何在我的项目中使用 WebGPU 内核?

访问 Hugging Face Space 并浏览源代码文件。WGSL 着色器代码注释完善,可适配其他 Transformer 模型。您将需要兼容 WebGPU 的浏览器,并对 GPU 计算概念有基本了解,才能针对您自己的用例修改内核。

哪些浏览器支持此演示的 WebGPU?

截至 2025 年,Google Chrome 113+Microsoft Edge 113+Opera 提供了鲁棒的 WebGPU 支持。Safari 的 WebGPU 实现正在改善,但在性能上可能落后。Firefox 支持正在积极开发中。为获得最佳体验,请在配备强大 GPU 的设备上使用最新的 Chrome 或 Edge 版本。


结论:浏览器原生 AI 的里程碑

Gemma 4 E2B WebGPU 演示达到每秒 255 令牌 的发布,代表的意义远不止一个令人印象深刻的基准测试。它具体化了 AI 社区许多人多年来追求的一个愿景: 强大、快速且完全本地的语言模型在用户早已所在之处——浏览器——中运行。

Fable 5 内核证明了开源贡献的恒久价值。尽管该工作室已经关闭,其工程专业知识得以延续,由一个充满热情的社区推动加速,并通过一个简单的 URL 触手可及。对于开发者而言,该代码库提供了丰富的 WebGPU 优化技术学习资源。对于用户来说,它展示了一个未来,在这个未来中,AI 是瞬时的、隐私的,并且不受云依赖的限制。

尝试演示,研究内核,并思考当每秒 255 令牌的推理仅在浏览器标签页之遥时,您可以构建什么。浏览器内 AI 的时代已经到来——而且速度飞快。