AIGridHQ News
返回首页

Gemma 4 E2BがWebGPUカーネルを使用しブラウザ上で255トークン/秒を実現 ― Fable 5最適化の遺産を解説

📅 2026-06-18 Reddit - LocalLLaMA
Gemma 4 E2BがWebGPUカーネルでブラウザ内255トークン/秒を実現 — Fable 5の最適化レガシー | 完全ガイド

Gemma 4 E2BがWebGPUカーネルでブラウザ内255トークン/秒を実現 — Fable 5の最適化レガシーを解説

クラウドホスト型の大規模言語モデルと完全ローカル・ブラウザネイティブ推論の間の壁が、劇的に引き下げられました。 GoogleのGemma 4 E2Bは、Gemmaファミリーの量子化・モバイル最適化版であり、Apple M4 Max上で驚異の毎秒255トークンをブラウザ内で完全に実現します。このマイルストーンは、現在は閉鎖されたスタジオFable 5が独自に開発・改良したWebGPUカーネルを使用して達成され、その最適化成果はコミュニティ向けにオープンソース化されています。今日、誰でもHugging Faceのライブデモを試し、このブレークスルーを可能にしたカーネルを検証できます。

量子化アウェアトレーニング(QAT)、モバイルファーストのTransformerアーキテクチャ、そしてWebGPUの生の並列計算能力の融合が、デバイスから離れない本格的なLLM推論という新たな境地を切り開きました。サーバーラウンドトリップも、APIキーも、ネットワーク輻輳によるレイテンシの急上昇もありません。専用デスクトップアプリケーションに匹敵する速度で、純粋にローカルでトークンを生成します。そしてこの物語の中心には、閉鎖後もオープンソースAIエコシステムに恩恵をもたらし続ける、GPUカーネルエンジニアリングの専門家集団Fable 5のほろ苦い遺産があります。

Gemma 4 E2Bとは何か、なぜ重要なのか?

Gemma 4 E2Bは、GoogleのGemma言語モデルファミリーの特殊な派生版であり、エッジデプロイメント向けにファインチューニングおよび圧縮されています。「E2B」は、デバイス上推論に最適化されたエンコーダ・デコーダブリッジアーキテクチャを指し、モデルの正式名称であるgemma-4-E2B-it-qat-mobile-transformersの「QAT」は量子化アウェアトレーニング(Quantization-Aware Training)を意味します。この手法はトレーニング段階で低精度演算をシミュレートし、深刻な精度低下を起こさずに8ビットまたは4ビットの量子化にスムーズに対応できるモデルを生み出します。

従来のポストトレーニング量子化(PTQ)とは異なり、QATはモデルの重みとアクティベーションに数値的ロバスト性を直接組み込みます。その結果、ブラウザのメモリ制約に十分収まりながら、強力な命令追従能力を維持するコンパクトかつ高性能なLLMが得られます。モバイル最適化Transformerブロックと組み合わせることで、Gemma 4 E2Bはブラウザ内AI推論の最有力候補となります。これはわずか2年前にはほぼ非現実的だったユースケースです。

Gemma 4 E2Bモデルの主要スペック

  • アーキテクチャ: モバイル最適化Transformerレイヤーを備えたエンコーダ・デコーダブリッジ
  • 量子化: QAT対応、4ビットおよび8ビット精度で高いロバスト性を発揮
  • 対象デプロイメント: エッジデバイス、モバイルブラウザ、WebGPU加速環境
  • Hugging Faceホスト: google/gemma-4-E2B-it-qat-mobile-transformers
  • ライセンス: オープンウェイト、研究および商用プロトタイピングに適合

速度ベンチマーク:M4 Maxで毎秒255トークン

WebMLコミュニティがApple M4 Max上でGemma 4 E2Bモデルを完全ブラウザ内実行し、毎秒255トークンを報告した時、AIエンジニアリングの世界は注目しました。この数値を理解するために:

  • 人間の読書速度は、深い理解を伴う場合、平均して毎秒5〜7トークンです。
  • 一般的なクラウドホストLLM APIは、理想的なネットワーク条件で毎秒20〜60トークンを配信します。
  • ローカルデスクトップLLMランナー(GPUオフロードを使用するllama.cppなど)は、一般消費者向けハードウェアで40〜100トークン/秒がピークとなることが多いです。
  • 255トークン/秒とは、500ワードのエッセイ全体を約2秒で生成できることを意味し、ほとんどのユーザーがスクロールするよりも高速です。

この速度はユーザー体験を変革します。レイテンシは知覚できなくなります。リアルタイムアプリケーション(会話エージェント、コード自動補完、リアルタイム翻訳など)が瞬時に感じられます。しかもこれらすべてが、単一のバイナリもインストールせずに、標準のウェブブラウザタブ内で行われます。

M4 MaxがWebGPUワークロードで優れる理由

AppleのM4 Maxは、ユニファイドメモリアーキテクチャ、ハードウェアアクセラレーテッドレイトレーシングとメッシュシェーディング機能を備えた高帯域幅GPU、そして高度なNeural Engineを搭載しています。重要なのは、M4 MaxがWebGPU APIを介してこれらのGPUリソースをブラウザに公開することです。WebGPUは、オーバーヘッドが低くGPUコマンドバッファに対するきめ細かな制御を提供する最新のグラフィックスおよびコンピュートインターフェースであり、WebGLを置き換えます。Fable 5のカーネルはこれらの機能を最大限に活用し、CPU-GPU同期ストールを最小限に抑え、シェーダ占有率を最大化します。

Fable 5:WebGPUカーネルを開発したスタジオ

Fable 5は、リアルタイムグラフィックス、GPUコンピュート、およびクロスプラットフォーム最適化に深い専門知識を持つ開発スタジオでした。閉鎖前に、チームは大規模言語モデル推論に特化したWebGPUカーネルの開発に多大な努力を注ぎました。彼らの作業の焦点は以下でした:

  1. 融合アテンションカーネル — 複数のアテンション操作を単一のGPUディスパッチに結合し、メモリ帯域幅の使用を削減。
  2. カスタム行列乗算シェーダ — ブラウザコンテキストで汎用線形代数ライブラリを上回るパフォーマンスを発揮する、手作業でチューニングされたWGSL(WebGPU Shading Language)コード。
  3. メモリレイアウト最適化 — AppleのようなタイルベースGPUアーキテクチャで合体メモリアクセスパターンを実現するための重みテンソル再配置。
  4. 非同期パイプラインスケジューリング — データ転送と計算をオーバーラップさせ、GPUを飽和状態に保ちアイドルサイクルを最小化。

Fable 5が活動を停止した際、これらのカーネルは消失する可能性がありました。しかし、WebMLコミュニティが介入し、コードベースを保存・改良しました。現在、カーネルはHugging Face Spacesで公開されており、AIのブラウザベースGPUアクセラレーションに関心のある人にとって実用的なツールであると同時に教育リソースとしても役立っています。

「Fable 5が閉鎖される前に、彼らは私たちのGemma 4 WebGPUカーネルの最適化を支援してくれました。私のM4 Maxで毎秒約255トークンに達しました。本日、皆さんがご自身で試せるようにデモとカーネルを公開します。」
— xenovatech、WebMLコミュニティコントリビューター

WebGPU:ブラウザ内AIアクセラレーションを支えるエンジン

WebGPUは、W3C標準のWebGL後継であり、コンピュートシェーダ、ストレージバッファ、明示的なコマンドエンコーディングといった最新のGPU機能をWebアプリケーションに公開するためにゼロから設計されました。OpenGL ESの遺産に制約されていたWebGLとは異なり、WebGPUはMetal(Appleシリコン)、Vulkan(AndroidおよびLinux)、DirectX 12(Windows)などのネイティブAPIに直接マッピングされます。

LLM推論でWebGPUがWebGLを上回る理由

  • コンピュートシェーダサポート: WebGPUは汎用GPUコンピュートをネイティブにサポートし、行列乗算やアテンションメカニズムをシェーダディスパッチとして実行可能。
  • 低ドライバオーバーヘッド: 明示的なバッファ管理とコマンドエンコーディングにより、GPU作業の投入に伴うCPU側コストを削減。
  • ストレージバッファバインディング: 大規模な重みテンソルを直接ストレージバッファとしてバインド可能で、WebGLで必要だったテクスチャベースの回避策を回避。
  • タイムスタンプクエリ: 開発者はGPU実行時間を正確に測定でき、ボトルネックカーネルのターゲット最適化が可能。
  • クロスプラットフォーム一貫性: 単一のWGSLシェーダコードベースが、最小限のプラットフォーム固有調整でmacOS、Windows、ChromeOS、Android上で動作。

Fable 5のカーネルは、これらの利点のすべてを活用しています。WGSLで直接記述し、中間抽象化レイヤーをバイパスすることで、チームはブラウザコンテキストで汎用推論エンジンが苦戦するGPU占有率レベルを達成しました。

デモの仕組み — 技術的ウォークスルー

Hugging Face SpacesでホストされているGemma 4 WebGPUデモは、完全に自己完結型の推論環境を提供します。ページを読み込んだ際に内部的に何が起こるかを説明します:

  1. WebGPUアダプタ初期化: ブラウザがGPUアダプタを要求し、高性能なディスクリートGPUまたは統合GPUパスを優先。M4 Maxでは、これがMetalバックエンドにマッピングされます。
  2. モデル重み読み込み: 量子化されたGemma 4 E2B重みがHugging FaceのCDNから取得され、GPUストレージバッファにアップロード。QATトレーニング済み重みはランタイムキャリブレーション不要。
  3. カーネルコンパイル: Fable 5カーネルのWGSLシェーダソースがGPU固有のバイナリコードにコンパイル。これは一度だけ行われ、コンパイル済みパイプラインは以降の推論のためにキャッシュされます。
  4. JavaScriptトークン化: 純粋なJavaScriptで実装された軽量SentencePieceトークナイザが、サーバー呼び出しなしでユーザー入力をトークンIDに変換。
  5. 自己回帰生成ループ: モデルが反復的に実行され、各フォワードパスが1トークンを生成し、次のステップの入力としてフィードバック。融合アテンションカーネルとmatmulカーネルが各反復で実行。
  6. ストリーミング出力: トークンがテキストにデコードされ、逐次表示。完全ローカルかつ完全ブラウザ内で、おなじみのストリーミングチャット体験を生み出します。

🚀 ライブデモを試す

毎秒255トークンのブラウザ内推論を直接体験してください。インストール不要 — WebGPU互換ブラウザ(Chrome 113+、Edge 113+、または同等のもの)のみ必要です。

🔗 Hugging Face上のGemma 4 WebGPUカーネルデモ

カーネルのソースコードは、開発者が学習および適応できるようにSpaceリポジトリに含まれています。

実践的洞察:開発者がFable 5カーネルから学べること

オープンソース化されたWebGPUカーネルは単なるデモ以上のものであり、ブラウザベースのGPU最適化に関するマスタークラスです。独自のブラウザ内推論ソリューションを構築する開発者向けの具体的なポイントを以下に示します:

1. パフォーマンス重視のパスにはWGSLを採用する

TensorFlow.jsやONNX Runtime Webなどの高レベルフレームワークは利便性を提供しますが、Transformer固有の操作では、手動チューニングされたWGSLシェーダが自動生成カーネルを一貫して上回ります。Fable 5カーネルは、WGSLで直接記述された融合アテンションが、汎用実装と比較してメモリラウンドトリップを30〜50%削減できることを示しています。

2. FLOPSよりメモリ帯域幅を優先する

Apple Mシリーズのようなユニファイドメモリアーキテクチャでは、生の計算能力がボトルネックになることはほとんどありません。代わりに、メモリ帯域幅とキャッシュ利用率がスループットを左右します。Fable 5カーネルは、中間結果をGPUスレッドグループメモリに保持するタイルド計算パターンを使用し、グローバルデバイスメモリからの読み取りを大幅に削減します。

3. ブラウザ展開にQATモデルを活用する

量子化アウェアトレーニングは、低精度で数値的に安定したモデルを生成します。メモリが他のタブやアプリケーションと共有されるブラウザに展開する場合、Gemma 4 E2BのようなQATモデルを使用することで、ポストトレーニング量子化手法でよく見られる精度劣化を回避できます。

4. WebGPUタイムスタンプクエリで徹底的にプロファイリングする

Fable 5チームは、WebGPUの組み込みタイムスタンプクエリ機能を使用して、どのシェーダディスパッチが最も多くのGPUサイクルを消費しているかを正確に特定しました。このデータ駆動型アプローチにより、推測ではなく真のボトルネックに最適化の努力を集中できました。

より広範な意味:ブラウザ内AIが主流に

ブラウザ内で毎秒255トークンで動作するGemma 4 E2Bのリリースは、パラダイムシフトを告げるものです。長年、本格的なAI推論にはクラウドGPUまたは専用ローカルランタイムが必要だという認識が支配的でした。このデモはその前提に真っ向から挑戦します。その波及効果を考察します:

  • プライバシ保護AI: 機密データがデバイスから離れません。医療、法律、金融アプリケーションは、データ漏洩リスクなしに強力なLLMを活用できます。
  • オフラインファースト体験: モデル重みがキャッシュされれば、インターネット接続なしで推論が動作。フィールドワーク、旅行、信頼性の低いブロードバンド地域に最適です。
  • ゼロインストール展開: ユーザーはURL経由で最先端AIにアクセス。アプリストア承認も、インストールの摩擦も、バージョン管理の頭痛もありません。
  • 民主化されたアクセス: WebGPUサポートがブラウザやデバイス全体に拡大するにつれて、世界中のより多くのユーザーがハイエンド専用ハードウェアなしで高性能なローカルAIにアクセスできるようになります。

制限事項と現在の課題

印象的なパフォーマンスにもかかわらず、いくつかの制限が残っています:

  • ブラウザ互換性: WebGPUはまだ普遍的にサポートされていません。Safariの実装はChromeやEdgeに遅れており、Firefoxのサポートはまだ開発中です。
  • モデルサイズ制約: Gemma 4 E2Bはエッジ展開に最適化されていますが、より大規模なモデル(70B以上のパラメータ)は、積極的な量子化を行っても実用的なブラウザメモリ制限を超えます。
  • 初回読み込み遅延: 初回訪問時に数ギガバイトのモデル重みをダウンロードするには、低速接続では数分かかる可能性があります。ただし、キャッシングにより再訪問時にはこれが軽減されます。
  • サーマルスロットリング: ラップトップで毎秒255トークンの生成を持続するとサーマルスロットリングを引き起こし、長時間のセッションでスループットが低下する可能性があります。
  • カーネルメンテナンス負担: 手動チューニングされたWGSLカーネルは、WebGPU仕様の進化や新しいGPUアーキテクチャに対応するための継続的なメンテナンスが必要です。

よくある質問(FAQ)

Gemma 4 E2Bとは正確に何ですか?

Gemma 4 E2Bは、Gemmaアーキテクチャに基づくGoogleの量子化・モバイル最適化大規模言語モデルです。量子化アウェアトレーニング(QAT)を使用して低精度でも精度を維持し、デバイス上およびブラウザ内展開向けに特別に設計されています。Hugging Faceでの完全なモデル名はgemma-4-E2B-it-qat-mobile-transformersです。

ブラウザはどのようにして毎秒255トークンを達成するのですか?

この速度は、Fable 5によってWGSLで記述された高度に最適化されたWebGPUカーネル、ユニファイドメモリアーキテクチャを備えたAppleの強力なM4 Max GPU、QAT圧縮モデル重みの効率性、そしてWebGPU APIの低オーバーヘッドコマンドエンコーディングが組み合わさって実現されます。これらが共に、ブラウザベースの推論を通常遅延させるボトルネックを排除します。

Fable 5とは誰で、なぜ彼らのカーネルが重要なのですか?

Fable 5は、GPU最適化とリアルタイムグラフィックスを専門とする開発スタジオでした。閉鎖前に、彼らはWebMLコミュニティと協力して、LLM推論用のカスタムWebGPUカーネルを作成しました。彼らの作業は、既知のブラウザベースTransformer実装の中で最速のものを生み出しました。カーネルはオープンソース化され、現在コミュニティによって維持されており、スタジオ閉鎖後も最適化の専門知識が生き続けることを保証しています。

M4 Max以外のハードウェアでも実行できますか?

はい。255トークン/秒のベンチマークはM4 Maxで達成されましたが、デモはWebGPU互換ブラウザを備えた任意のデバイスで動作します。パフォーマンスはGPUの能力とメモリ帯域幅によって異なります。WindowsおよびLinuxのハイエンドディスクリートGPU、ならびに他のAppleシリコンチップ(M1、M2、M3シリーズ)でもデモを実行できますが、トークンレートは異なります。

Gemma 4 E2Bモデルは本番環境での使用に適していますか?

モデルはオープンウェイトであり、研究および商用プロトタイピングに使用できます。ただし、本番展開では、モデルの量子化レベル、特定のタスク要件、および4ビットまたは8ビット精度での精度がアプリケーションの品質基準を満たすかどうかを考慮する必要があります。WebGPUデモ自体は主に教育および実験ツールです。

自分のプロジェクトでWebGPUカーネルを使い始めるには?

Hugging Face Spaceにアクセスし、ソースファイルを探索してください。WGSLシェーダコードは十分にコメントされており、他のTransformerモデルに適応できます。カーネルを独自のユースケース向けに変更するには、WebGPU互換ブラウザとGPUコンピュートの基本概念の理解が必要です。

このデモにWebGPUをサポートするブラウザは?

2025年現在、Google Chrome 113+Microsoft Edge 113+Operaが堅牢なWebGPUサポートを提供しています。SafariのWebGPU実装は改善されつつありますが、パフォーマンスで遅れる可能性があります。Firefoxのサポートは活発に開発中です。最高の体験を得るには、高性能GPUを搭載したデバイスで最新のChromeまたはEdgeリリースを使用してください。


結論:ブラウザネイティブAIのマイルストーン

毎秒255トークンを達成したGemma 4 E2B WebGPUデモのリリースは、印象的なベンチマーク以上のものを表しています。これは、AIコミュニティの多くが長年追求してきたビジョンを結晶化したものです:高性能、高速、かつ完全にローカルな言語モデルが、ユーザーがすでにいる場所 — ブラウザ — で動作すること。

Fable 5カーネルは、オープンソース貢献の永続的な価値の証です。スタジオは閉鎖されましたが、そのエンジニアリングの専門知識は生き続け、情熱的なコミュニティによって加速され、シンプルなURLを通じてアクセス可能です。開発者にとって、このコードベースはWebGPU最適化技術の豊富な学習リソースを提供します。ユーザーにとっては、AIが瞬時に、プライベートに、クラウド依存の制約から解放される未来を垣間見せてくれます。

デモを試し、カーネルを学び、毎秒255トークンの推論がブラウザタブ一つで実現する時に何を構築できるか考えてみてください。ブラウザ内AIの時代が到来しました — そしてそれは高速です。