انخفاض حاد بنسبة 70% في تكلفة الاستدلال طويل السياق؟ تقرير مقارن شامل عبر جميع الأبعاد لتكميم ذاكرة التخزين المؤقت KV لنموذج Qwen 3.6 27B
هل انخفضت تكلفة الاستدلال طويل السياق بنسبة 70%؟ تقرير مقارن شامل حول تكميم ذاكرة التخزين المؤقت KV لنموذج Qwen 3.6 27B
أزمة الذاكرة في استدلال النماذج الكبيرة بطول السياق تتلاشى بهدوء بفضل تقنية تُسمى "تكميم ذاكرة التخزين المؤقت KV". اليوم، أشعل اختبار الأداء المعياري لتكميم ذاكرة KV لنموذج Qwen 3.6 27B الذي نشره المطور المجتمعي Anbeeld حماس مجتمع المطورين. غطى الاختبار 75 تركيبة إعدادات مختلفة تماماً، حيث قارن بين مستويات التكميم q8 وq6 وq5 وq4 مع طرق ضغط متطورة مثل KVarN وTurboQuant وTCQ، ليقدم لأول مرة بوصلة بيانات حقيقية وباردة للاستراتيجية المثلى للتكميم في سيناريوهات السياق الطويل.
قانون البقاء تحت "جدار الذاكرة": لماذا يُعد تكميم ذاكرة KV بالغ الأهمية
عندما تعالج نماذج اللغة الكبيرة مستندات طويلة تصل إلى عشرات أو مئات الآلاف من الرموز (tokens)، تلتهم ذاكرة التخزين المؤقت للمفاتيح والقيم (KV Cache) ذاكرة الفيديو بسرعة مذهلة. في عملية استدلال نموذجية بطول السياق، غالباً ما تتجاوز الذاكرة التي تشغلها ذاكرة KV بكثير حجم أوزان النموذج نفسه. صحيح أن التكميم التقليدي q8 أو الدقة الكاملة يحافظان على الدقة، لكنهما يُجبران وحدات معالجة الرسوميات (GPU) الفاخرة على أن تصبح "حمّالة ذاكرة". تهدف هذه الاختبارات المعيارية المكثفة لنموذج Qwen 3.6 27B إلى الإجابة عن سؤال حاد: هل يمكننا ضغط ذاكرة KV إلى أقصى حد، مع إبقاء النموذج محتفظاً بقدرة استيعابية واعية في المهام النصية الطويلة؟ أظهرت النتائج أن مخطط التكميم المتشائم وصولاً إلى q4 مع بنية بيانات KVarN، يبقي انخفاض الأداء ضمن نطاق يمكن تجاهله في معظم سيناريوهات فهم اللغة الطبيعية. وهذا يعني أن بطاقة رسوميات استهلاكية كانت بالكاد تتعامل مع سياق 8K، أصبح بوسعها الآن تشغيل تنبيهات بسلاسة تصل إلى 32K أو أطول.
صراع 75 تركيبة: مبارزة شرسة بين q4 إلى q8 وKVarN وTurboQuant وTCQ
إن الاختبار المعياري الذي نشره Anbeeld هذه المرة ليس مجرد مقارنة بسيطة للدقة، بل هو مسح هولوغرافي لنموذج التكميم نفسه. في مصفوفة الاختبار، أظهر KVarN (تطبيع ترتيب المفاتيح والقيم المدرك)، بوصفه صيغة مدعومة أصلاً في النسخة التمهيدية v0.3.2 من محرك BeeLlama.cpp، تفوقاً فريداً في الحفاظ على دقة توزيع الانتباه، خاصة في السيناريوهات منخفضة البتات، حيث يكبح انهيار المعلومات المحلية الناتج عن القيم الشاذة بشكل أفضل من التكميم المنتظم البسيط. أما TurboQuant وTCQ (التكميم المضغوط للمحولات) فيمثلان مسارين يعتمدان على التوزيع الإحصائي والإدراك البنيوي على التوالي؛ يتميز الأول بتكلفة معالجة مسبقة منخفضة للغاية، بينما يقدم الثاني في مستوى q5 نقطة ارتداد مذهلة في الدقة. بيانات 75 زوجاً من التكوينات ترسم بوضوح منحنى شامل للكفاءة مقابل التكلفة: بالنسبة لمهام التوليد المدعوم بالاسترجاع (RAG) التي تتطلب تناسقاً في الحقائق، لا يزال المقيمون الحذرون يفضلون q6 مع TCQ؛ أما بالنسبة للمهام الثقيلة في التلخيص والتحليل الجماعي ذات السياق الطويل جداً والحساسة للميزانية، فإن مخطط q4+KVarN المتشائم يبرز كأداة لا يستهان بها لخفض التكاليف.
BeeLlama.cpp: "محرك العمليات الخاصة" لاستدلال السياق الطويل
من الجدير بالذكر أن جميع هذه الاختبارات المعيارية لم تُجرَ باستخدام llama.cpp الأصلي، بل نُفذت على الفرع BeeLlama.cpp الذي يحتفظ به Anbeeld بنفسه. وهذا ليس مصادفة. فأطر الاستدلال السائدة تفتقر منذ فترة طويلة إلى دعم الدقة المتوسطة مثل q6_0 وأنواع التكميم التجريبية مثل TurboQuant وTCQ، بينما يدمج BeeLlama.cpp هذه الأنواع الإضافية بدقة، ليفتح للباحثين مختبراً باليستياً مجهزاً بجميع أنواع الأسلحة ورادارات القياس. ولا سيما أن قدرة الاستدعاء السلس لـ KVarN في الإصدار الجديد تتيح للمطورين مقارنة مباشرة بين إنتاجية الاستدلال وخسارة الحيرة (Perplexity) لمخططات ضغط الذاكرة المؤقتة المختلفة دون الحاجة إلى التعديل على أوزان النموذج. تتجاوز أهمية هذا المحرك كونه مجرد أداة، إذ يتحول إلى ساحة معيارية للمجتمع للتحقق من خوارزميات ضغط ذاكرة KV للجيل القادم.
من التجارب الورقية إلى التطبيق العملي: استجواب واعٍ من مجتمع مفتوح المصدر
إن هذا التقييم العميق الذي قاده مطور فردي يلقي في الواقع قنبلة وعي على الصناعة بأكملها: لا ينبغي أن تظل تكلفة نشر النماذج الكبيرة محصورة في تكميم أوزان النموذج فحسب، فكميم ذاكرة KV وتنظيم البيانات يحملان أيضاً فرص تحسين تصل إلى عشرات النقاط المئوية. ومع اضطلاع نماذج متوسطة الحجم وقوية مثل Qwen 3.6 بأدوار متزايدة في موجة النشر المحلي والخاص، فإن كل بت من الذاكرة الحساسة يُترجم مباشرة إلى كهرباء وحرارة وتكاليف حوسبة حقيقية. إن المقال والبيانات الكاملة التي نشرها Anbeeld هذه المرة ليست مجرد وليمة دسمة لعشاق التقنية، بل تقدم بصورة غير مباشرة موطئ قدم عقلاني لفرق الهندسة العالقة في سباق تسلح "نماذج أكبر وسياقات أطول" – فقبل أن تضاعف العتاد القادم سعة ذاكرة الفيديو، انفتح بهدوء باب دمقرطة استدلال السياق الطويل عبر توليفة بارعة من أساليب التكميم.