ذاكرة 12 جيجابايت تحقق 120 رمز/ثانية، إصدار Gemma 4 QAT يضع استدلال النماذج الكبيرة على المسار السريع الاستهلاكي

📅 2026-06-07 🤖 大模型智能生成

ذاكرة فيديو 12 جيجابايت تقدم 120 رمزًا/ثانية، إصدار Gemma 4 QAT يُدخل استدلال النماذج الضخمة في المسار السريع للاستهلاكي

استيقظت لتجد أن بطاقة 12 جيجابايت أصبحت فجأة أداة سحرية للنماذج الضخمة

قبل ساعات قليلة، أصدرت Google بهدوء النسخ المعدلة بتدريب الإدراك الكمي (QAT) من سلسلة Gemma 4، حيث أشعل الإصدار ذو 12 مليار معلمة حماس اللاعبين ذوي الذاكرة المحدودة. أجرى أحد المطورين اختبارًا فوريًا على بطاقته التي تحوي 12 جيجابايت من ذاكرة الفيديو، وكانت النتيجة مذهلة: بعد تحميل النموذج بالكامل في الذاكرة، قفزت سرعة الاستدلال إلى 120 رمزًا في الثانية. هذا ليس رقمًا من عنقود سحابي، بل أداء حقيقي يعمل على بطاقة استهلاكية فردية.

QAT + MTP، سحر مزدوج لعصر كل شريحة من عرض النطاق

التوليفة التقنية في هذا الخبر بالغة الأناقة. QAT، أي تدريب الإدراك الكمي، يختلف عن التكميم التقليدي بعد التدريب، حيث يُدخل التمثيلات منخفضة الدقة في الرسم البياني للحوسبة أثناء التدريب، ليتعلم النموذج الحفاظ على مخرجات عالية الجودة في بيئات ذات بتات منخفضة مثل int8 أو int4. أما MTP (التنبؤ متعدد الرموز) فيتنبأ بعدة رموز في مسار أمامي واحد، مما يرفع الإنتاجية بشكل كبير. استخدم المطور حزمة استدلال مبنية على llama.cpp مع رقعة MTP خاصة بـ Gemma 4، وقام بتحميل النموذج الرئيسي المكمّم gemma-4-12B-it-qat-GGUF الذي أصدرته Unsloth، بالإضافة إلى نموذج مساعد غير مكمّم qat-q4_0 مقدم من Google ومخصص للتوليد المساعد، والذي تم تحويله أيضًا إلى صيغة GGUF ورفعه على HuggingFace. هذه التشكيلة من نموذج رئيسي ونموذج مساعد صغير للمسودة تشبه فكرة فك الترميز التخميني، مما يرفع كفاءة التوليد إلى مستوى أعلى.

ماذا تعني 120 رمزًا/ثانية: نقلة نوعية من القابل للاستخدام إلى فائق السلاسة

سرعة 120 رمزًا في الثانية تفوق سرعة القراءة البشرية بعدة أضعاف، وفي سيناريوهات مثل المحادثة الفورية، إكمال الأكواد، والإجابة عن الأسئلة من قاعدة معرفية محلية، تجعل الانتظار شبه معدوم. في السابق، كانت محاولة إدخال نموذج لائق بحجم 10 مليارات معلمة أو أكثر في ذاكرة 12 جيجابايت تعني القبول بسرعات تتراوح بين 10 و20 رمزًا/ثانية أو حتى أقل، مع تجاوز حدود الذاكرة باستمرار. الآن، بفضل كفاءة ضغط QAT وتحسينات الإنتاجية عبر MTP، يحول إصدار Gemma 4 QAT بطاقة بمستوى RTX 4070 أو 3080 أو A2000 إلى خادم استدلال شخصي. هذا لا يترك تأخير واجهات API السحابية بعيدًا فحسب، بل يحمي خصوصية البيانات أيضًا، وهو مكسب كبير للنشر الخفيف في المؤسسات ولبيئة المطورين المتحمسين.

المنظومة مفتوحة المصدر تواكب بسرعة، ويمكن التشغيل واللعب على HuggingFace الآن

من الجدير بالملاحظة أن السلسلة الكاملة استخدمت فقط مكونات مفتوحة المصدر: llama.cpp، صيغة GGUF، سكربتات التكميم من Unsloth، وملفات النماذج التي حولها المجتمع ورفعها بسرعة. هذا الانفتاح يعني عتبة دخول منخفضة للغاية، فأي مطور لديه ذاكرة فيديو 12 جيجابايت يمكنه إعادة إنتاج منحنى السرعة هذا في غضون نصف ساعة. اختيار Google للدفع بتقنيتي QAT و MTP معًا في Gemma 4 يُظهر بوضوح رؤيتها للطلب المتعطش من مجتمع المصادر المفتوحة على نماذج صغيرة عالية السرعة، وهي بذلك تنقل أحدث تقنيات تسريع الاستدلال عمليًا إلى أجهزة المستخدمين.

هل ستُشعل موجة جديدة من حمى الاستدلال المحلي؟

نتيجة 120 رمزًا/ثانية ليست مجرد رقم قياسي معزول، بل قد تعيد تعريف توقعات الناس حول "النماذج الضخمة المحلية". فعندما يتمكن نموذج 12 مليار معلمة من العمل بهذه السرعة على بطاقة متوسطة، مع احتفاظه بجودة توليد ممتازة بفضل QAT، فإن تلك الصورة النمطية التي تقول إنه لا بد من ذاكرة فيديو ضخمة أو اللجوء إلى السحابة تتحطم. بالنسبة لمطوري التطبيقات الرأسية، هذا يعني إمكانية دمج Gemma 4 QAT في ملحقات بيئات التطوير، مساعدي الطرفية، المترجمات دون اتصال، وغيرها من المنتجات، لتحقيق خصخصة خفيفة الوزن حقًا. ومع نضوج المزيد من صيغ التكميم وتحسينات MTP لاحقًا، يمكننا التوقع بأداء جيد على أجهزة بذاكرة 8 جيجابايت أو حتى أقل. هذه ليست مجرد عملية إطلاق نموذج بسيطة، بل خطوة محورية لوضع الاستدلال العالي الإنتاجية على مسار يصبح في متناول الجميع.