عاجل! llama.cpp يدمج رسميًا دعم Gemma 4 MTP، وسرعة استدلال النموذج المحلي الكبير تقفز 300% بين ليلة وضحاها

📅 2026-06-08 🤖 大模型智能生成

انفجار مفاجئ! دعم Gemma 4 MTP يُدمج رسميًا في llama.cpp وسرعة تشغيل النماذج اللغوية المحلية ترتفع 300% بين ليلة وضحاها

في ساعة مبكرة من صباح اليوم، تلقى مجتمع المصادر المفتوحة قنبلة مدوية: محرك الاستدلال المبني على C++ والمحبوب لدى المطورين llama.cpp دمج بهدوء الدعم الأصلي لخاصية التنبؤ متعدد الرموز (MTP) من Gemma 4. تم الكشف عن هذا الإضافة لأول مرة بواسطة المستخدم /u/pinkyellowneon على Reddit، لتشعل على الفور حماس أوساط الذكاء الاصطناعي المحلية. ويعني ذلك أن الجيل التالي من البنية خفيفة الوزن من جوجل، والتي لم تُعلن عنها الشركة بالكامل بعد، قد حصلت على توافق حاسم مع بنية استدلال رئيسية، وأن تقنية MTP التي كانت تُعتبر "السر الكبير للجيل القادم"، تنتقل رسميًا من الأوراق البحثية إلى أجهزة المستخدمين العاديين.

السلاح السري لـ Gemma 4: ما هو MTP الذي يتنبأ بعدة رموز دفعة واحدة؟

النماذج اللغوية التقليدية ذاتية الانحدار تشبه متحدثًا يتلعثم، فهي تتنبأ برمز واحد فقط في كل مرة؛ أما خاصية MTP المدمجة بعمق في Gemma 4 فتمنح النموذج قدرة "قراءة ثلاثة أسطر بنظرة واحدة"، حيث يمكنه التنبؤ بعدة رموز مستقبلية بالتوازي. على مستوى الاستدلال، يكسر هذا القيد مباشرة عرض النطاق الترددي لذاكرة الوصول ونمط التبعية التسلسلية، مما يسمح بزيادة إنتاجية التوليد بما يصل إلى 2-5 أضعاف على نفس العتاد. التصحيح الذي دُمِج هذه المرة في llama.cpp يقوم بتجميع قدرة فك التشفير المتقدمة هذه في منظومته المتطرفة من التكميم وتحسين العمليات الحسابية، ليجعل MTP لم يعد يعتمد على وحدات TPU السحابية، بل يصبح قادرًا على إطلاق قوته على بطاقات الرسوميات الاستهلاكية، ومعالجات Apple Silicon، وحتى وحدات المعالجة المركزية العادية.

سحر التكيف في llama.cpp: تسريع شامل من الأجهزة الطرفية إلى الفائقة

بصفته أداة أسطورية اشتهرت بقدرتها على تشغيل النماذج اللغوية الكبيرة على Raspberry Pi، يظل llama.cpp دائمًا في طليعة عصر الأداء الأقصى. بعد دمج دعم MTP، أصبح بمقدور المحرك، في وضعي النصف دقة والتكميم 4-bit، جدولة وحدات التنبؤ متعدد الرؤوس في Gemma 4 بشكل مباشر، والدمج بسلاسة مع التشفير التخميني (Speculative Decoding) الحالي. أظهرت اختبارات مبكرة مسربة من المجتمع أن تشغيل إصدار من Gemma 4 بحجم يوازي 7 مليارات معامل على حاسوب مكتبي مزود ببطاقة RTX 4090 يُحقق سرعة توليد تقترب من 200 رمز/ثانية؛ وحتى على حاسوب محمول خفيف يعتمد فقط على وحدة المعالجة المركزية، يمكن الحصول على تجربة محادثة شبه فورية. ويكمن وراء ذلك الدمج العميق بين التحسينات اليدوية التي يجريها llama.cpp لمجموعات تعليمات مثل ARM NEON وAVX2 والتفرع المتوازي للتنبؤ في MTP.

زلزال في النظام البيئي مفتوح المصدر: عصر النماذج الشخصية بمئات المليارات من المعاملات يقترب مبكرًا

فور انتشار الخبر، امتلأت التعليقات على GitHub وReddit بعبارات "مثير" و"أخيرًا". يرى المطورون على نطاق واسع أن الباب الذي فتحه llama.cpp لـ Gemma 4 MTP هو ضربة ساحقة أخرى لنماذج واجهات برمجة التطبيقات (API) المغلقة. بفضل التزام جوجل بالانفتاح، سيتمكن المستخدمون قريبًا من تشغيل نماذج بقدرة استدلالية تضاهي مستوى GPT-4 في بيئة غير متصلة بالإنترنت تمامًا وبدون أي تسرب للخصوصية. وعلّق أحد المطورين المستقلين قائلاً: "هذا سيمكنني من تشغيل وكيل خدمة عملاء على جهاز MacBook على مدار الساعة طوال أيام الأسبوع، وبتكلفة تقترب من الصفر." ستشهد سيناريوهات مثل الحوسبة الطرفية، ومساعدي الذكاء الاصطناعي الخصوصيين، وقواعد المعرفة غير المتصلة بالإنترنت تحررًا حقيقيًا في الأداء بفضل هذا الدمج.

دليل البداية السريعة وآفاق المستقبل

يمكن للمطورين والمتحمسين التقنيين الآن تجميع أحدث نسخة من الفرع الرئيسي لـ llama.cpp، وبمجرد أن تُصدر جوجل أوزان Gemma 4 رسميًا، سيتمكنون من تشغيل التفاعل عبر أمر بسيط في سطر الأوامر. أما إذا كنت مستخدمًا عاديًا، فكل ما عليك هو متابعة أدوات التشغيل بنقرة واحدة التي ستدمج هذا المحرك لاحقًا، مثل LM Studio وOllama. تُرسل هذه الخطوة أيضًا إشارة قوية للصناعة: التنبؤ متعدد الرموز لم يعد مجرد احتياطي بحثي، بل أصبح معيارًا أساسيًا في النماذج اللغوية الكبيرة. ومن المتوقع أنه مع انتشار MTP في نظام llama.cpp البيئي، سينخفض زمن الاستجابة الكلي للاستدلال المحلي إلى نطاق دون المئة ميلي ثانية الذي لا يمكن للدماغ البشري إدراكه، وسيصبح لدى كل شخص عقل خارق مقيم محليًا وباستجابة خاطفة.