"القمامة الإلكترونية" تنتفض: حاسوب قديم بدون معالج رسوميات بـ150 دولاراً يشغّل أحدث نموذج ضخم من غوغل "جيما 4" بسلاسة

📅 2026-06-08 🤖 大模型智能生成

انتفاضة "النفايات الإلكترونية": حاسوب قديم بدون GPU بـ150 دولارًا يشغّل أحدث نموذج كبير من Google "Gemma 4" بسلاسة

وداعًا لقلق GPU: المعالج القديم i5-8500 يصنع معجزة السرعة

معالج Core i5-8500 صدر عام 2018، وذاكرة DDR4 بسعة 32 جيجابايت، بدون بطاقة رسوميات منفصلة، وبتكلفة إجمالية لا تتجاوز 150 دولارًا – هذا الكمبيوتر الذي يُوصف بـ"كمبيوتر البطاطس" المنسي في السرد التقني السائد، يتحدى القاعدة الصارمة القائلة إن النماذج الكبيرة تحتاج إلى GPU باهظة الثمن. مستخدم على Reddit تمكّن من تشغيل Gemma-4-26B-A4B الذي أصدرته Google للتو، على جهازه الذي يعمل بنظام Linux، باستخدام محرك استدلال خفيف الوزن هو Koboldcpp، محققًا سرعة مذهلة تبلغ 7 توكينز/ثانية بسلاسة. بدون قلق من نقص ذاكرة الفيديو، وبدون انفجار في استهلاك الطاقة، استطاع هذا الكمبيوتر المكتبي القديم المُجمّع من السوق المستعملة تشغيل أحدث نموذج متناثر الخبراء.

فك شيفرة Gemma 4: بنية مزيج الخبراء تمنح "كمبيوتر البطاطس" حياة جديدة

البطل الحقيقي وراء ذلك هو تصميم مزيج الخبراء (MoE) الذي تعتمده Gemma 4. فرغم أن العدد الإجمالي لمعاملات النموذج يصل إلى 26 مليارًا، إلا أنه في كل عملية استدلال لا يتم تنشيط سوى حوالي 4 مليارات معامل نشط. هذه البنية القائمة على "معاملات إجمالية كبيرة ومعاملات نشطة صغيرة" أكثر توافقًا بطبيعتها مع عرض النطاق الترددي للذاكرة وشدة الحوسبة. لو شبّهنا الأمر بصورة مبسطة، فهو أشبه بفريق استشاري يضم 26 خبيرًا، لكن في كل مرة يُطرح سؤال، لا يتحدث سوى 4 من أكثر الخبراء ملاءمةً بينما يلتزم الآخرون الصمت. وهكذا، حتى على منصة تعتمد على وحدة المعالجة المركزية فقط وتفتقر إلى ذاكرة فيديو سريعة وعالية السعة، لا يزال النموذج قادرًا على الاكتفاء بالذاكرة العادية، وبالاستعانة بتقنيات التكميم وأُطُر الاستدلال المستندة إلى llama.cpp، يوزّع حمل الحوسبة بالتساوي على أنوية المعالجة المتعددة، محققًا سرعة استجابة تفوق بكثير نماذج الجيل السابق الكثيفة.

ماذا تعني سرعة 7 توكينز/ثانية؟ نقلة نوعية من بالكاد قابل للاستخدام إلى حوار سلس

بالنسبة للمستخدمين المخضرمين الذين شغّلوا نماذج كبيرة على وحدة المعالجة المركزية، كانت النماذج الكثيفة التي تبلغ حوالي 12 مليار معامل، حتى لو أمكن تشغيلها، ترافقها سرعة بطيئة تثير القلق في توليد الكلمات، ولا تتجاوز كونها "أفضل من لا شيء". أما كفاءة التوليد البالغة 7 توكينز/ثانية فقد تجاوزت بثبات عتبة تجربة الحوار الفوري بين الإنسان والآلة: فهي تتيح لك التحدث كما لو كنت تتحدث مع شخص آخر، دون أن تشعر تقريبًا بأي تأخير مُرهق. هذا يمثل المرة الأولى التي يتحول فيها الاستدلال بدون GPU من "لعبة للمهوسين" إلى أداة موثوقة قادرة على تحمل مهام إنتاجية خفيفة مثل الإجابة عن الأسئلة اليومية وتلخيص النصوص والمساعدة في البرمجة. والأهم من ذلك أن هذه السرعة تحققت دون أي عتاد مخصص لتسريع الذكاء الاصطناعي، مما يُكثّف كل إمكانيات النماذج الكبيرة المحلية التي كانت بعيدة المنال سابقًا، داخل صندوق حاسوب قديم لا يلفت الأنظار.

الإعلان الصامت عن ديمقراطية الذكاء الاصطناعي: ذكاء متطور في متناول الجميع

"يمكنك التباهي بأجهزتك الفائقة التي تفوق أسعارها أسعار السيارات المستعملة، أما أنا فأتباهى بحاسوبي المكتبي القديم المهترئ." هذه الدعابة من المستخدم تلامس تمامًا مشاعر الجماهير المُهمَّشة في مجال الذكاء الاصطناعي. بينما تتصدر عناوين الأخبار معارك الرقاقات ونماذج بمئات المليارات من المعاملات وعناقيد بآلاف البطاقات، يأتي أداء Gemma-4-26B-A4B الرشيق على خردة إلكترونية بقيمة 150 دولارًا ليثبت بصمت طريقًا آخر: ثورة الكفاءة هي الإتاحة الحقيقية للجميع. فهي تتيح للمطورين الأفراد والطلاب والمهوسين ذوي الميزانيات المحدودة إمكانية الوصول إلى قدرات تفكير نموذجية متطورة، بتكلفة أجهزة شبه معدومة، وفي بيئة خاصة غير متصلة بالإنترنت تمامًا. هذا ليس مجرد استعراض تقني، بل هو حركة مساواة في ملكية واستخدام الذكاء الاصطناعي. فعندما تبدأ النماذج اللغوية الأكثر تقدمًا في التدفق بهدوء على معالجات منسية، فإن الحواجز تبدأ بالانهيار من القاعدة.