تشغيل Gemma 4 E2B في المتصفح بسرعة 255 رمز/ثانية باستخدام نوى WebGPU — شرح إرث تحسين Fable 5

📅 2026-06-18 Reddit - LocalLLaMA

تشغيل Gemma 4 E2B داخل المتصفح بسرعة 255 رمز/ثانية باستخدام نوى WebGPU — إرث تحسين Fable 5 | الدليل الكامل

تشغيل Gemma 4 E2B داخل المتصفح بسرعة 255 رمز/ثانية باستخدام نوى WebGPU — شرح إرث تحسين Fable 5

تم تخفيض الحاجز بين نماذج اللغة الكبيرة المستضافة على السحابة والاستدلال المحلي بالكامل داخل المتصفح بشكل كبير. نموذج Gemma 4 E2B من Google — وهو إصدار مكمَّم ومُحسَّن للأجهزة المحمولة من عائلة Gemma — يعمل الآن بالكامل داخل متصفح الويب بسرعة مذهلة تبلغ 255 رمزًا في الثانية على جهاز Apple M4 Max. تم تحقيق هذا الإنجاز باستخدام نوى WebGPU مخصصة طورتها وصقلتها في الأصل Fable 5، وهو استوديو أُغلق الآن ولكن أعمال التحسين الخاصة به أصبحت مفتوحة المصدر للمجتمع. اليوم، يمكن لأي شخص تجربة العرض التوضيحي المباشر على Hugging Face وفحص النوى التي تجعل هذا الإنجاز ممكنًا.

أدى تقارب التدريب المدرك للتكميم (QAT)، وهندسة المحولات المُصمَّمة للجوال أولاً، وقوة الحوسبة المتوازية الخام لـ WebGPU إلى فتح حدود جديدة: استدلال LLM بجودة إنتاجية لا يغادر جهازك أبدًا. لا رحلات ذهاب وإياب إلى الخادم، ولا مفاتيح API، ولا ارتفاعات في زمن الوصول بسبب ازدحام الشبكة — مجرد توليد رموز محلي خالص بسرعات تنافس تطبيقات سطح المكتب المخصصة. وفي قلب هذه القصة يكمن الإرث الحلو والمر لـ Fable 5، الفريق الذي لا تزال خبرته في هندسة نوى GPU تفيد نظام الذكاء الاصطناعي مفتوح المصدر بعد إغلاقهم بوقت طويل.

ما هو Gemma 4 E2B وما أهميته؟

Gemma 4 E2B هو إصدار متخصص من عائلة نماذج اللغة Gemma من Google، تم ضبطه وضغطه للنشر على الأجهزة الطرفية. يشير التصنيف "E2B" إلى جسر من المشفر إلى مفكك التشفير مُحسَّن للاستدلال على الجهاز، بينما يشير "QAT" في الاسم الكامل للنموذج — gemma-4-E2B-it-qat-mobile-transformers — إلى التدريب المدرك للتكميم. تحاكي هذه التقنية العمليات الحسابية ذات الدقة المنخفضة أثناء مرحلة التدريب، مما ينتج نموذجًا يتعامل بسلاسة مع التكميم 8 بت أو حتى 4 بت دون فقدان كبير في الدقة.

على عكس التكميم التقليدي بعد التدريب (PTQ)، يبني QAT متانة عددية مباشرة في أوزان النموذج وتنشيطاته. والنتيجة هي LLM مدمج وقادر يتناسب بشكل مريح مع قيود ذاكرة المتصفح مع الاحتفاظ بسلوك قوي في اتباع التعليمات. وبدمجه مع كتل المحولات المُحسَّنة للأجهزة المحمولة، يصبح Gemma 4 E2B مرشحًا رئيسيًا لـ الاستدلال بالذكاء الاصطناعي داخل المتصفح — وهي حالة استخدام كانت شبه مستحيلة قبل عامين فقط.

المواصفات الرئيسية لنموذج Gemma 4 E2B

الهندسة: جسر مشفر-مفكك تشفير مع طبقات محولات مُحسَّنة للأجهزة المحمولة
التكميم: مفعّل بتقنية QAT، متين عند مستويات الدقة 4 بت و8 بت
النشر المستهدف: الأجهزة الطرفية، ومتصفحات الجوال، والبيئات المعززة بتقنية WebGPU
مستضاف على Hugging Face: google/gemma-4-E2B-it-qat-mobile-transformers
الترخيص: أوزان مفتوحة، مناسب للبحث والنماذج التجريبية التجارية

قياس السرعة: 255 رمزًا في الثانية على M4 Max

عندما أعلن مجتمع WebML عن تحقيق 255 رمزًا في الثانية على جهاز Apple M4 Max أثناء تشغيل نموذج Gemma 4 E2B بالكامل داخل المتصفح، انتبه عالم هندسة الذكاء الاصطناعي. لوضع هذا الرقم في سياقه:

سرعة القراءة البشرية تبلغ في المتوسط حوالي 5–7 رموز في الثانية للفهم العميق.
واجهات API النموذجية لـ LLM المستضافة سحابيًا تقدم 20–60 رمزًا في الثانية في ظل ظروف الشبكة المثالية.
مشغلات LLM المكتبية المحلية (مثل llama.cpp مع إسناد GPU) غالبًا ما تصل ذروتها إلى 40–100 رمز/ثانية على الأجهزة الاستهلاكية.
255 رمز/ثانية تعني أن النموذج يمكنه توليد مقال كامل من 500 كلمة في ثانيتين تقريبًا — أسرع مما يمكن لمعظم المستخدمين التمرير.

تحول هذه السرعة تجربة المستخدم. يصبح زمن الوصول غير محسوس. والتطبيقات الفورية — مثل الوكلاء التحاوريين، والإكمال التلقائي للكود، والترجمة الحية — تبدو فورية. وكل هذا يحدث داخل تبويب متصفح ويب قياسي، دون تثبيت أي ملف تنفيذي.

لماذا يتفوق M4 Max في أحمال عمل WebGPU

يتميز M4 Max من Apple ببنية ذاكرة موحدة، ووحدة معالجة رسوميات عالية النطاق الترددي مع تتبع أشعة مسرع بالأجهزة وقدرات تظليل شبكي، ومحرك عصبي متطور. والأهم من ذلك، أن M4 Max يعرض موارد GPU هذه للمتصفح عبر واجهة برمجة تطبيقات WebGPU، وهي واجهة رسوميات وحوسبة حديثة تحل محل WebGL بتكلفة أقل وتحكم أدق في مخازن أوامر GPU. تستغل نوى Fable 5 هذه القدرات إلى أقصى حد، مما يقلل من توقفات المزامنة بين CPU وGPU ويزيد من إشغال التظليل.

Fable 5: الاستوديو الذي يقف خلف نوى WebGPU

كانت Fable 5 استوديو تطوير يتمتع بخبرة عميقة في الرسوميات الفورية، والحوسبة على GPU، والتحسين عبر المنصات. قبل إغلاقه، كرس الفريق جهدًا كبيرًا لصياغة نوى WebGPU المصممة خصيصًا لاستدلال نماذج اللغة الكبيرة. ركز عملهم على:

نوى الانتباه المدمجة — دمج عمليات انتباه متعددة في إرساليات GPU واحدة لتقليل استخدام عرض النطاق الترددي للذاكرة.
مظللات ضرب المصفوفات المخصصة — كود WGSL (لغة تظليل WebGPU) مضبوط يدويًا يتفوق على مكتبات الجبر الخطي العامة في سياق المتصفح.
تحسينات تخطيط الذاكرة — إعادة ترتيب موترات الأوزان لأنماط وصول مدمجة للذاكرة على بنى GPU القائمة على التجانب مثل معمارية Apple.
جدولة الأنابيب غير المتزامنة — تداخل عمليات نقل البيانات مع الحوسبة للحفاظ على GPU مغذى وتقليل دورات الخمول.

عندما أوقفت Fable 5 عملياتها، كان من الممكن أن تختفي هذه النوى. بدلاً من ذلك، تدخل مجتمع WebML، وحافظ على قاعدة الكود ونقّاها. أصبحت النوى الآن متاحة للعموم على مساحات Hugging Face، لتكون أداة عملية ومصدرًا تعليميًا لأي شخص مهتم بـ تسريع الذكاء الاصطناعي باستخدام GPU داخل المتصفح.

"قبل إغلاق Fable 5، ساعدنا في تحسين نوى WebGPU الخاصة بـ Gemma 4، ووصلنا إلى حوالي 255 رمزًا في الثانية على جهازي M4 Max. اليوم، نطلق العرض التوضيحي والنوى لتجربوها بأنفسكم."
— xenovatech، مساهم في مجتمع WebML

WebGPU: المحرك الذي يدعم تسريع الذكاء الاصطناعي داخل المتصفح

WebGPU هي الخليفة المعياري من W3C لـ WebGL، صُممت من الألف إلى الياء لتعريض ميزات GPU الحديثة — مظللات الحوسبة، ومخازن التخزين المؤقت، وترميز الأوامر الصريح — لتطبيقات الويب. على عكس WebGL، الذي كان مقيدًا بإرث OpenGL ES، ترتبط WebGPU مباشرة بواجهات برمجة التطبيقات الأصلية مثل Metal (على أجهزة Apple silicon), و Vulkan (على Android و Linux)، و DirectX 12 (على Windows).

لماذا تتفوق WebGPU على WebGL في استدلال LLM

دعم مظللات الحوسبة: تدعم WebGPU الحوسبة العامة على GPU بشكل أصلي، مما يتيح تشغيل عمليات ضرب المصفوفات وآليات الانتباه كإرساليات مظللات.
تكلفة تشغيل أقل: إدارة المخازن المؤقتة الصريحة وترميز الأوامر تقلل من التكلفة على جانب CPU عند إرسال أعمال GPU.
روابط مخازن التخزين: يمكن ربط موترات الأوزان الكبيرة مباشرة كمخازن تخزين، مما يتجنب الحلول البديلة القائمة على القوام التي يتطلبها WebGL.
استعلامات الطوابع الزمنية: يمكن للمطورين قياس وقت تنفيذ GPU بدقة، مما يتيح التحسين الموجه لنوى عنق الزجاجة.
تناسق عبر المنصات: قاعدة كود مظلل WGSL واحدة تعمل على macOS و Windows و ChromeOS و Android مع تعديلات طفيفة خاصة بالمنصة.

تستغل نوى Fable 5 كل واحدة من هذه المزايا. فمن خلال الكتابة مباشرة بلغة WGSL وتجاوز طبقات التجريد الوسيطة، حقق الفريق مستويات إشغال GPU تكافح محركات الاستدلال العامة لتحقيقها في سياق المتصفح.

كيف يعمل العرض التوضيحي — جولة تقنية

يوفر العرض التوضيحي لـ Gemma 4 WebGPU المستضاف على مساحات Hugging Face بيئة استدلال كاملة ومكتفية ذاتيًا. إليك ما يحدث تحت الغطاء عند تحميل الصفحة:

تهيئة محول WebGPU: يطلب المتصفح محول GPU، مفضلاً مسارات GPU المنفصلة أو المدمجة عالية الأداء. على M4 Max، يتم توجيه ذلك إلى واجهة Metal الخلفية.
تحميل أوزان النموذج: يتم جلب أوزان Gemma 4 E2B المكمَّمة من شبكة توصيل المحتوى (CDN) الخاصة بـ Hugging Face وتحميلها إلى مخازن تخزين GPU. لا تحتاج الأوزان المدربة بتقنية QAT إلى معايرة في وقت التشغيل.
تجميع النوى: يتم تجميع كود مصدر مظلل WGLS من نوى Fable 5 إلى كود ثنائي خاص بـ GPU. يحدث هذا مرة واحدة، مع تخزين خط الأنابيب المجمَّع مؤقتًا للاستدلالات اللاحقة.
التجزئة في JavaScript: يحول مُجزئ SentencePiece خفيف الوزن، مُنفذ بلغة JavaScript خالصة، إدخال المستخدم إلى معرفات رموز دون استدعاءات خادم.
حلقة التوليد الذاتي: يعمل النموذج بشكل تكراري — كل تمريرة أمامية تنتج رمزًا واحدًا، يُعاد تغذيته كمدخل للخطوة التالية. تُنفذ نوى الانتباه المدمجة وضرب المصفوفات في كل تكرار.
الإخراج المتدفق: تُفك شيفرة الرموز إلى نص وتُعرض بشكل تدريجي، مما يخلق تجربة الدردشة المتدفقة المألوفة — محلية بالكامل، داخل المتصفح بالكامل.

🚀 جرّب العرض التوضيحي المباشر

اختبر استدلال 255 رمز/ثانية داخل المتصفح بنفسك. لا تثبيت مطلوب — فقط متصفح متوافق مع WebGPU (Chrome 113+، Edge 113+، أو ما يعادله).

🔗 عرض توضيحي لنوى Gemma 4 WebGPU على Hugging Face

كود مصدر النوى مُضمَّن في مستودع Space للمطورين لدراسته وتكييفه.

رؤى قابلة للتنفيذ: ما يمكن للمطورين تعلمه من نوى Fable 5

نوى WebGPU مفتوحة المصدر هي أكثر من مجرد عرض توضيحي — إنها درس متقدم في تحسين GPU داخل المتصفح. فيما يلي خلاصات ملموسة للمطورين الذين يبنون حلول استدلال خاصة بهم داخل المتصفح:

1. اعتناق WGSL للمسارات الحرجة للأداء

بينما توفر الأطر عالية المستوى مثل TensorFlow.js و ONNX Runtime Web الراحة، تتفوق مظللات WGSL المضبوطة يدويًا باستمرار على النوى المُولَّدة تلقائيًا لعمليات المحولات المحددة. تثبت نوى Fable 5 أن الانتباه المدمج المكتوب مباشرة بلغة WGSL يمكن أن يقلل من الذهاب والإياب للذاكرة بنسبة 30–50% مقارنةً بالتطبيقات العامة.

2. إعطاء الأولوية لعرض النطاق الترددي للذاكرة على FLOPs

في بنى الذاكرة الموحدة مثل سلسلة M من Apple، نادرًا ما يكون عنق الزجاجة هو الحوسبة الخام. بدلاً من ذلك، يحدد عرض النطاق الترددي للذاكرة واستخدام الذاكرة المخبأة الإنتاجية. تستخدم نوى Fable 5 أنماطًا حسابية مقسمة تحتفظ بالنتائج الوسيطة في ذاكرة مجموعة الخيوط على GPU، مما يقلل بشكل كبير من عمليات القراءة من ذاكرة الجهاز العامة.

3. الاستفادة من نماذج QAT للنشر في المتصفح

ينتج التدريب المدرك للتكميم نماذج مستقرة عدديًا عند الدقة المنخفضة. عند النشر في المتصفحات — حيث تكون الذاكرة مشتركة مع تبويبات وتطبيقات أخرى — يؤدي استخدام نموذج QAT مثل Gemma 4 E2B إلى تجنب تدهور الدقة الذي يشاهد غالبًا مع طرق التكميم بعد التدريب.

4. التحليل المستمر باستخدام استعلامات الطوابع الزمنية في WebGPU

استخدم فريق Fable 5 ميزة استعلام الطوابع الزمنية المدمجة في WebGPU لتحديد أي إرساليات التظليل تستهلك معظم دورات GPU. سمح لهم هذا النهج القائم على البيانات بتركيز جهود التحسين على عنق الزجاجة الحقيقي بدلاً من التخمين.

التداعيات الأوسع: الذكاء الاصطناعي داخل المتصفح يصبح سائدًا

يشير إطلاق Gemma 4 E2B الذي يعمل بسرعة 255 رمز/ثانية داخل المتصفح إلى تحول نموذجي. لسنوات، سادت رواية أن استدلال الذكاء الاصطناعي الجاد يتطلب وحدات GPU سحابية أو بيئات تشغيل محلية مخصصة. يتحدى هذا العرض التوضيحي هذا الافتراض مباشرة. تأمل الآثار الناتجة:

ذكاء اصطناعي يحافظ على الخصوصية: البيانات الحساسة لا تغادر جهاز المستخدم أبدًا. يمكن للتطبيقات الطبية والقانونية والمالية الاستفادة من LLMs القوية دون مخاطر تسرب البيانات.
تجارب تعمل دون اتصال أولاً: بمجرد تخزين أوزان النموذج مؤقتًا، يعمل الاستدلال دون اتصال بالإنترنت — مثالي للعمل الميداني والسفر والمناطق ذات النطاق العريض غير الموثوق.
نشر بدون تثبيت: يصل المستخدمون إلى ذكاء اصطناعي متطور عبر رابط URL. لا موافقات متجر تطبيقات، ولا احتكاك تثبيت، ولا صداع إدارة الإصدارات.
وصول ديمقراطي: مع توسع دعم WebGPU عبر المتصفحات والأجهزة، يحصل المزيد من المستخدمين عالميًا على ذكاء اصطناعي محلي قادر دون الحاجة إلى أجهزة متطورة مخصصة.

القيود والتحديات الحالية

على الرغم من الأداء المذهل، لا تزال هناك عدة قيود:

توافق المتصفحات: WebGPU ليست مدعومة عالميًا بعد. يتخلف تطبيق Safari عن Chrome و Edge، ودعم Firefox لا يزال قيد التطوير.
قيود حجم النموذج: بينما تم تحسين Gemma 4 E2B للنشر الطرفي، لا تزال النماذج الأكبر (70 مليار معلمة+) تتجاوز حدود ذاكرة المتصفح العملية حتى مع التكميم القوي.
زمن الوصول عند التحميل الأول: يمكن أن يستغرق تنزيل عدة غيغابايت من أوزان النموذج في الزيارة الأولى دقائق على الاتصالات البطيئة، على الرغم من أن التخزين المؤقت يخفف من ذلك في الزيارات المتكررة.
الاختناق الحراري: قد يؤدي توليد 255 رمز/ثانية بشكل مستمر على أجهزة اللابتوب إلى اختناق حراري، مما يقلل من الإنتاجية خلال الجلسات المطولة.
عبء صيانة النوى: تتطلب نوى WGSL المضبوطة يدويًا صيانة مستمرة لمواكبة تطور مواصفات WebGPU وبنى GPU الجديدة.

الأسئلة الشائعة (FAQ)

ما هو Gemma 4 E2B بالضبط؟

Gemma 4 E2B هو نموذج لغة كبير مكمَّم ومُحسَّن للأجهزة المحمولة من Google، مبني على بنية Gemma. يستخدم التدريب المدرك للتكميم (QAT) للحفاظ على الدقة عند الدقة المنخفضة، وهو مصمم خصيصًا للنشر على الجهاز وداخل المتصفح. الاسم الكامل للنموذج على Hugging Face هو gemma-4-E2B-it-qat-mobile-transformers.

كيف يحقق المتصفح 255 رمزًا في الثانية؟

تأتي السرعة من مجموعة عوامل: نوى WebGPU عالية التحسين مكتوبة بلغة WGSL بواسطة Fable 5، وقوة وحدة معالجة الرسوميات M4 Max من Apple مع بنية ذاكرتها الموحدة، وكفاءة أوزان النموذج المضغوطة بتقنية QAT، وترميز الأوامر منخفض التكلفة لواجهة WebGPU. معًا، تقضي هذه العوامل على عنق الزجاجة الذي يبطئ عادةً الاستدلال القائم على المتصفح.

من كانت Fable 5 ولماذا تعتبر نواها مهمة؟

كانت Fable 5 استوديو تطوير متخصصًا في تحسين GPU والرسوميات الفورية. قبل إغلاقها، تعاونت مع مجتمع WebML لإنشاء نوى WebGPU مخصصة لاستدلال LLM. أنتج عملهم أسرع تطبيق محولات قائم على المتصفح معروف. كانت النوى مفتوحة المصدر ويتم صيانتها الآن من قبل المجتمع، مما يضمن بقاء خبرة التحسين بعد إغلاق الاستوديو.

هل يمكنني تشغيل هذا على أجهزة غير M4 Max؟

نعم. بينما تم تحقيق معيار 255 رمز/ثانية على M4 Max، يعمل العرض التوضيحي على أي جهاز بمتصفح متوافق مع WebGPU. سيختلف الأداء بناءً على قدرة GPU وعرض النطاق الترددي للذاكرة. يمكن لوحدات GPU المنفصلة عالية الأداء على Windows و Linux، بالإضافة إلى رقائق Apple Silicon الأخرى (سلسلة M1، M2، M3)، تشغيل العرض التوضيحي أيضًا، على الرغم من أن معدلات الرموز ستختلف.

هل نموذج Gemma 4 E2B مناسب للاستخدام الإنتاجي؟

النموذج مفتوح الأوزان ويمكن استخدامه للبحث والنماذج التجريبية التجارية. ومع ذلك، يجب أن يأخذ النشر الإنتاجي في الاعتبار مستوى تكميم النموذج، ومتطلبات المهمة المحددة، وما إذا كانت الدقة عند 4 بت أو 8 بت تلبي معايير الجودة لتطبيقك. العرض التوضيحي لـ WebGPU هو في المقام الأول أداة تعليمية وتجريبية.

كيف أبدأ باستخدام نوى WebGPU لمشروعي الخاص؟

قم بزيارة مساحة Hugging Face واستكشف ملفات المصدر. كود مظلل WGLS موثق جيدًا ويمكن تكييفه لنماذج محولات أخرى. ستحتاج إلى متصفح متوافق مع WebGPU وفهم أساسي لمفاهيم حوسبة GPU لتعديل النوى لحالة استخدامك الخاصة.

ما المتصفحات التي تدعم WebGPU لهذا العرض التوضيحي؟

اعتبارًا من عام 2025، يوفر Google Chrome 113+ و Microsoft Edge 113+ و Opera دعمًا قويًا لـ WebGPU. تطبيق Safari لـ WebGPU يتحسن ولكنه قد يتأخر في الأداء. دعم Firefox قيد التطوير النشط. للحصول على أفضل تجربة، استخدم أحدث إصدار من Chrome أو Edge على جهاز مزود بوحدة GPU قادرة.

الخلاصة: علامة فارقة للذكاء الاصطناعي الأصلي للمتصفح

يمثل إصدار العرض التوضيحي لـ Gemma 4 E2B WebGPU الذي يحقق 255 رمزًا في الثانية أكثر بكثير من مجرد معيار مذهل. إنه يجسد رؤية سعى إليها الكثيرون في مجتمع الذكاء الاصطناعي لسنوات: نماذج لغوية قادرة وسريعة ومحلية بالكامل تعمل حيث يتواجد المستخدمون بالفعل — المتصفح.

تقف نوى Fable 5 كشهادة على القيمة الدائمة للمساهمات مفتوحة المصدر. فرغم إغلاق الاستوديو، لا تزال خبرته الهندسية حية، يسرعها مجتمع شغوف ويمكن الوصول إليها عبر رابط بسيط. بالنسبة للمطورين، تقدم قاعدة الكود مصدر تعلم غني لتقنيات تحسين WebGPU. وبالنسبة للمستخدمين، تقدم لمحة عن مستقبل يكون فيه الذكاء الاصطناعي فوريًا وخاصًا ومتحررًا من قيود الاعتماد على السحابة.

جرّب العرض التوضيحي، وادرس النوى، وفكر فيما يمكنك بناؤه عندما يكون الاستدلال بسرعة 255 رمزًا في الثانية على بعد تبويب متصفح واحد. لقد وصل عصر الذكاء الاصطناعي داخل المتصفح — وهو سريع.

🔗 استكشف الموارد

📂 العرض التوضيحي لنوى WebGPU + كود المصدر

🧠 نموذج Gemma 4 E2B على Hugging Face