نحن بحاجة ماسة إلى نموذج 80-160 مليار: سوق أجهزة الذاكرة الموحدة يحتاج إلى المزيد من النماذج
نحن بحاجة ماسة إلى نموذج بين 80 و160 مليار معامل: سوق أجهزة الذاكرة الموحدة يحتاج إلى المزيد من النماذج
لقد تغير مشهد استدلال الذكاء الاصطناعي المحلي بشكل كبير. قبل بضع سنوات فقط، كان تشغيل نموذج بسبعين مليار معامل على أجهزة استهلاكية بمثابة حلم بعيد المنال. أما اليوم، فأجهزة تحتوي على 96 جيجابايت، أو 128 جيجابايت، أو حتى 192 جيجابايت من الذاكرة الموحدة تقبع على مكاتبنا — أجهزة Mac Studio وMacBook Pro من Apple بشرائح M-series Max/Ultra، ومنصات AMD Ryzen AI Max "Strix Halo"، وDGX Spark من NVIDIA، وتجهيزات متعددة وحدات GPU مثل 4×RTX 3090 أو RTX 6000 Pro. هذه الأجهزة تتلهف لنقطة مثالية لا يلبيها النظام البيئي الحالي للنماذج. يصرخ المجتمع: نحن بحاجة ماسة إلى نموذج بين 80 و160 مليار معامل. سوق أجهزة الذاكرة الموحدة يحتاج إلى المزيد من النماذج.
في الأشهر الثلاثة الماضية، شهدنا فيضًا من النماذج الصغيرة القادرة مثل Qwen 27B وGemma 31B — المُحسَّنة للسرعة على وحدات GPU منخفضة الذاكرة والأجهزة الطرفية. وفي الطرف الآخر تقبع نماذج كثيفة ضخمة ونماذج خليط الخبراء (400 مليار، و600 مليار، وحتى تريليون معامل) التي تتطلب خوادم متعددة وحدات GPU من الدرجة المؤسسية. لكن الفئة الوسطى — النماذج التي تتراوح بين 80 مليارًا و160 مليار معامل — تظل نقطة عمياء. هذه بالضبط هي البنى التي يمكنها إشباع ملامح أنظمة الذاكرة الموحدة الغنية بالذاكرة والمقيدة بعرض النطاق الترددي، وتقديم مزيج غير مسبوق من الذكاء المحلي، وطول السياق، والقدرة على الاستدلال. يتعمق هذا المقال في أسباب عدم التطابق بين العتاد والنماذج، والأجهزة المتعطشة لعمالقة الفئة المتوسطة، وما يمكننا فعله كمجتمع لتسريع التغيير.
صعود العتاد الاستهلاكي عالي الذاكرة الموحدة
لقد محت بنى الذاكرة الموحدة الخط التاريخي الفاصل بين ذاكرة RAM الخاصة بوحدة المعالجة المركزية وذاكرة VRAM الخاصة بوحدة معالجة الرسوميات. عندما يكون تجمع واحد بسعة 96 جيجابايت أو 128 جيجابايت متاحًا لكل من المعالج والمحرك العصبي أو وحدة GPU المدمجة، يمكن لأوزان النموذج بالكامل، وذاكرة التخزين المؤقت KV، ونافذة السياق أن تقيم في مساحة واحدة متجاورة. هذا يغير قواعد اللعبة في استدلال نماذج اللغة الكبيرة محليًا. دعونا نحلل المنصات الرائدة.
Apple Silicon: أجهزة Mac بسعة 96 جيجابايت أو أكثر
أصبحت شرائح M-series Ultra وMax في تكوينات Mac Studio وMacBook Pro الراقية محبوبة عشاق الذكاء الاصطناعي المحلي. يمكن لشريحة M2 Ultra مع 192 جيجابايت من الذاكرة الموحدة نظريًا تحميل نموذج 180B مُكمَّم بعمق بالكامل في ذاكرة RAM، مع عرض نطاق ترددي يصل إلى 800 جيجابايت/ثانية على Ultra. حتى M3 Max مع 96 جيجابايت أو 128 جيجابايت يُعد آلة استدلال منتجة. ومع ذلك، تحتاج هذه الأجهزة إلى نماذج تستفيد بالكامل من سعة ذاكرتها دون الحاجة إلى قوة حوسبة وحدة GPU بحجم مراكز البيانات. نموذج 100B مُكمَّم إلى 4-bit يناسب بشكل مريح 50–60 جيجابايت، تاركًا مساحة واسعة لنافذة سياق 128 ألف رمز.
AMD Ryzen AI Max وعصر Strix Halo
رقائق AMD Ryzen AI Max (Strix Halo)، مع ما يصل إلى 128 جيجابايت من ذاكرة LPDDR5X الموحدة ووحدة GPU مدمجة قوية RDNA 3.5، تمثل إجابة x86 على Apple Silicon. تظهر المعايير المبكرة أن وحدات APU هذه يمكنها تشغيل نماذج 70B محليًا بالكامل. لكن مع توفر 128 جيجابايت، فهي تمد ساقيها — متلهفة لنموذج خليط خبراء (MoE) بحجم 120B أو 150B يناسب 100 جيجابايت بعد التكميم إلى 4-bit. حاليًا، تظل هذه الجيجابايتات خاملة جزئيًا لأن النظام البيئي للبرمجيات لم يُصدر بعد النماذج التي تطابق شهية العتاد.
NVIDIA DGX Spark ومحطات العمل عالية الذاكرة
يضع DGX Spark من NVIDIA (المعروف سابقًا باسم Project Digits) بنية Grace-Hopper على سطح المكتب، مع 128 جيجابايت من ذاكرة LPDDR5X الموحدة. إنه مصمم لتطوير الذكاء الاصطناعي. في نفس الوقت، يقوم المستخدمون الذين يمتلكون بطاقات RTX 6000 Pro (48 جيجابايت لكل منها) أو تجهيزات بأربع RTX 3090 (بإجمالي 96 جيجابايت من GDDR6X) بتجميع ذاكرة VRAM عبر توازي النماذج. يمكن لهذه الأنظمة استضافة نموذج ضخم، لكنها لا تريد وحش 400B يزحف بسرعات رمز برمز. إنهم يريدون نموذجًا كثيفًا 130B أو MoE بـ 160B يعمل بسرعة تفاعلية تتراوح بين 5–10 رموز في الثانية.
تجهيزات متعددة وحدات GPU وأنظمة بذاكرة DDR4/DDR5 بسعة 128 جيجابايت
ثورة هادئة تحدث أيضًا بين المستخدمين الذين لديهم ذاكرة نظام عالية السعة (128 جيجابايت DDR4/DDR5) ووحدات GPU منفصلة يمكنها تولي جزء من النموذج. من خلال استدلال الوضع المنقسم في llama.cpp، يمكنهم تشغيل نماذج كبيرة عبر ذاكرة RAM الخاصة بوحدة المعالجة المركزية وذاكرة VRAM الخاصة بوحدة GPU. ومع ذلك، تتضاءل خيارات النماذج بشكل كبير فوق 70B. ملاحظة المجتمع ترن صادقة: "هناك الكثير من الناس الذين لديهم الكثير ولكن ليس بما يكفي من الذاكرة 'البطيئة'." العتاد في انتظار.
مشهد النماذج الحالي: طرفان متناقضان
انقسمت حديقة النماذج مفتوحة المصدر والمضبوطة مجتمعيًا مؤخرًا إلى معسكرين متميزين، تاركة فجوة في المنتصف.
نماذج صغيرة مُحسَّنة للسرعة (27B–32B)
في الربع الأخير، استهدفت أكثر الإصدارات إشادةً الآلات عالية السرعة ومنخفضة السعة. Qwen 27B وGemma 31B استثنائيان بالنسبة لحجميهما، ويعملان بسهولة على وحدات GPU بسعة 24 جيجابايت VRAM وحتى على الهواتف الذكية عند تكميمها. إنها توفر اتباعًا سريعًا للتعليمات، واستخدام الأدوات، واستدلالًا مقبولًا. لكن معرفتها بالعالم، وفهمها الدقيق للتعليمات، واستقرارها في السياقات الطويلة لا تزال أقل بكثير مما يمكن أن يقدمه نموذج 100B+. لقد صُممت لأوسع جمهور ممكن، وليس لأولئك الذين استثمروا بالفعل في تجمعات ذاكرة 96 جيجابايت+.
نماذج ضخمة (400B+)
على الشاطئ المقابل تقبع عمالقة مثل DeepSeek-V3 (671B MoE)، وLlama 3.1 405B، والاندماجات المجتمعية المتنوعة بمقياس 600B. هذه النماذج ذكية بشكل مذهل لكنها تتطلب بشكل روتيني عقدًا متعددة من A100 80GB أو H100 لتقديمها بوتيرة مقبولة. حتى DGX Spark لا يمكنه سوى تشغيل نموذج 405B مُكمَّم بقوة بسرعة 1–2 رمز في الثانية، مما يجعله غير عملي للاستخدام التفاعلي. الفجوة في الموارد بين 32B و400B هائلة.
الفئة المتوسطة المفقودة: 80–160 مليار معامل
بين 80 و160 مليار معامل يكمن فضاء تصميم متوافق تمامًا مع أجهزة الذاكرة الموحدة التي تتراوح سعتها بين 96 جيجابايت و192 جيجابايت. تأمل:
- نموذج كثيف 100B بتكميم Q4_K_M يحتاج تقريبًا إلى 56 جيجابايت من الذاكرة. يترك 40–70 جيجابايت فارغة لذاكرة التخزين المؤقت KV، مما يتيح حتى 100 ألف رمز من السياق على نظام 128 جيجابايت.
- نموذج MoE بحجم 140B (مع حوالي 20B معامل نشط لكل رمز) يمكن أن يعمل بسرعات مبهرة على M3 Max، مستخدمًا جزءًا ضئيلًا من عرض النطاق الترددي للذاكرة مقارنة بنموذج كثيف مماثل، مع تقديم استدلال متطور.
- نموذج 160B مُكمَّم إلى 3-bit يناسب 65 جيجابايت، تاركًا هامشًا سخيًا لتعدد المهام على MacBook بسعة 96 جيجابايت.
الطلب حاد. المنشور المجتمعي الذي أثار هذا النقاش لم يكن مجرد أمنية — لقد كان انعكاسًا لآلاف المستخدمين بأجهزة Apple >96GB، وأنظمة Ryzen AI 395، ووحدات DGX Spark، ومحطات العمل متعددة وحدات GPU الذين سئموا جماعيًا من تشغيل نماذج 70B "الصغيرة" التي لا تشبع عتادهم، أو نماذج 400B+ التي تجعل مراوحهم تصرخ من أجل تدفق 0.3 رمز/ثانية.
لماذا نحن بحاجة ماسة إلى نماذج 80–160B لأجهزة الذاكرة الموحدة
ملاءمة مثالية لمخازن VRAM/RAM بسعة 96–192 جيجابايت
نموذج 80B مُكمَّم إلى 4-bit يشغل حوالي 45 جيجابايت؛ ونموذج 160B حوالي 85 جيجابايت. هذه الأحجام هي "منطقة غولديلوكس" لتكوينات 96 جيجابايت، و128 جيجابايت، و192 جيجابايت التي تغمر سوق المستخدمين المحترفين. يمكن للمستخدمين تخصيص أوزان النموذج، ونافذة سياق ضخمة، وحتى نموذج ثانٍ للفك التكهني أو مُشفِّر رؤية — كل ذلك داخل نفس تجمع الذاكرة الموحدة دون اللجوء إلى التبديل على SSD.
موازنة الذكاء وسرعة الاستدلال
جودة النموذج تتدرج مع عدد المعاملات. القفزة من 70B إلى 130B غالبًا ما تجلب قفزة نوعية في الاستدلال المنطقي، وتوليد الشيفرات، والتخطيط متعدد الخطوات، والاستدعاء الواقعي. في نفس الوقت، يمكن لنموذج 130B على وحدة Strix Halo APU أن يحقق 8–12 رمزًا/ثانية مع خلفيات أطر ML مُحسَّنة مثل MLC-LLM أو llama.cpp مع تسريع Metal/CUDA/ROCm. هذا سريع بما يكفي للمحادثة الفورية، والحلقات الوكيلية، ومساعدي الطيار المساعد المحليين — دون البطء المانع لوحش 405B.
تمكين سير العمل الوكيلي المتطور محليًا
مستقبل الذكاء الاصطناعي المحلي وكيلي: نماذج يمكنها التصفح ذاتيًا، وكتابة الشيفرات، وإدارة الملفات، وتنفيذ مهام متعددة الخطوات. تتطلب مثل هذه الوكلاء ذاكرة عمل كبيرة (ذاكرة تخزين مؤقت KV) والقدرة على التعامل مع مخططات استخدام الأدوات المعقدة. نموذج 70B غالبًا ما يعاني للحفاظ على خطط متماسكة عبر آفاق طويلة؛ ونموذج 400B بطيء جدًا. يمكن أن يكون نموذج 80–160B هو دماغ الوكيل الذاتي المثالي لمساعد خاص دائم التشغيل على الجهاز.
رؤى قابلة للتنفيذ: كيف يمكن للمجتمع الدفع نحو المزيد من النماذج
إصدارات النماذج مدفوعة بإشارات السوق وضجيج المجتمع. إليك كيف يمكننا جعل الفئة المتوسطة المفقودة مستحيلة التجاهل:
- التعبير عن الطلب على المنصات مفتوحة المصدر – افتح قضايا ومناقشات على GitHub في المشاريع الكبرى (llama.cpp، MLC-LLM، vLLM) لعرض قدرة العتاد وفجوة النماذج.
- قياس وعرض جاهزية العتاد – انشر معايير استدلال للنماذج الكبيرة الحالية على أجهزة 96 جيجابايت+، مع الإشارة صراحةً إلى مقدار المساحة المتبقية.
- تشجيع المختبرات على إصدار نقاط تفتيش وسيطة – اطلب من شركات الذكاء الاصطناعي الرائدة (Meta، Qwen، DeepSeek، Mistral) إصدار ليس فقط متغيرات 7B-30B و400B+، بل أيضًا نقاط تفتيش تدريب 80B-160B يمكن للمجتمع ضبطها.
- تمويل ورعاية الضبط الدقيق المجتمعي – جمّع الموارد عبر التمويل الجماعي لأخذ نموذج أساسي مفتوح المصدر 80B وإنشاء نسخ توجيهية، وشيفرات، ووكيلية مُحسَّنة لاستدلال الذاكرة الموحدة بتكميم 4-bit.
- إنشاء لوحة صدارة موحدة – صنّف النماذج تحديدًا على معيار أداء "الاستدلال المحلي 96–192 جيجابايت"، معطيًا رؤية للنماذج التي تناسب ملف تعريف العتاد هذا.
اعتبارات تقنية لتشغيل نماذج 80–160B على الذاكرة الموحدة
التكميم، Q4_K_M، ومتطلبات الذاكرة
للنشر المحلي العملي، التكميم غير قابل للتفاوض. إليك مرجع سريع لاستخدام الذاكرة (تقريبي) مع تجمع ذاكرة موحدة 128 جيجابايت:
- نموذج 80B، Q4_K_M: حوالي 45 جيجابايت. يترك 83 جيجابايت فارغة — مثالي لنوافذ سياق 100 ألف+ رمز.
- نموذج 120B، Q4_K_M: حوالي 67 جيجابايت. يتيح 60 جيجابايت لذاكرة التخزين المؤقت KV والنفقات العامة للنظام، كافية لسياق 64 ألف رمز.
- نموذج 160B، IQ3_XXS: حوالي 65 جيجابايت مع احتفاظ قوي بالجودة. يتيح تشغيل نموذج 160B حتى على أجهزة Mac بسعة 96 جيجابايت مع سياق معتدل.
تقنية التكميم الفعال موجودة اليوم. ما ينقص هو قاعدة النموذج التي تزيد نسبة الجودة لكل جيجابايت في هذه الفئة من المعاملات.
عرض النطاق الترددي للذاكرة مقابل الحوسبة: عنق الزجاجة
أنظمة الذاكرة الموحدة غالبًا ما تكون مقيدة بعرض النطاق الترددي، وليس الحوسبة. M2 Ultra يقدم 800 جيجابايت/ثانية، وStrix Halo APU يقدم حوالي 500 جيجابايت/ثانية. نموذج كثيف 100B بتكميم 4-bit يقرأ 50 جيجابايت لكل خطوة توليد رمز. عند 800 جيجابايت/ثانية، يكون الناتج النظري للرموز حوالي 16 رمزًا/ثانية — تفاعلي تمامًا. يمكن لبنى MoE تحويل هذا أكثر بإبقاء المعاملات النشطة منخفضة (مثلًا، 20B من 140B)، وبالتالي تقليل قراءة الذاكرة لكل رمز. الصناعة تحتاج إلى نماذج MoE أو نماذج متفرقة في نطاق 80–160B مصممة مع أخذ خاصية عرض النطاق الترددي هذه في الاعتبار.
أسئلة متكررة
لماذا لا نشغل نموذج 70B مع نافذة سياق ضخمة فقط؟
بينما يمكن تمديد نماذج 70B إلى سياقات طويلة، فإن قدرتها الأساسية على الاستدلال تبلغ سقفها. نموذج 100B–130B يمتلك بطبيعته عمقًا واقعيًا أكبر، وتسلسل فكري أفضل، واستخدام أدوات أكثر موثوقية، حتى قبل أي تمديد للسياق. إنه الفرق بين نموذج يمكنه تلخيص مستند من 200 صفحة ونموذج يمكنه أيضًا الإحالة المرجعية والاستدلال بعمق عبره دون هلوسة.
هل يمكنني حاليًا تشغيل نموذج 120B على Mac بذاكرة RAM سعة 128 جيجابايت؟
تقنيًا نعم — يمكنك تنزيل Goliath 120B أو اندماج قائم على Llama-2 مُكمَّم. لكن فجوة الجودة مقارنة بالبنى الحديثة صارخة لأن تلك النماذج القديمة لم تستفد من أحدث بيانات التدريب المسبق وتقنيات المحاذاة. الهدف هو الحصول على نماذج حديثة 80–160B بوصفات تدريب من فئة Qwen-2، أو DeepSeek، أو Gemma.
ما هو أفضل إطار عمل لاستدلال نماذج 80–160B على الذاكرة الموحدة؟
llama.cpp (مع خلفيات Metal، أو CUDA، أو ROCm) هو محبوب المجتمع لكفاءته في استخدام الذاكرة. MLC-LLM يقدم أداءً ممتازًا على Metal وVulkan. بالنسبة لسير العمل الوكيلي، يوفر LM Studio وOllama أغلفة سهلة الاستخدام. عنق الزجاجة ليس في وقت التشغيل — إنه في توفر ملفات النماذج المُكمَّمة جيدًا.
هل هناك أي نماذج 80–160B مُعلن عنها قريبًا؟
بينما تظهر همسات أحيانًا على تويتر الذكاء الاصطناعي وفي مدونات مختبرات الأبحاث، لم يتم تأكيد أي إصدار مفتوح المصدر كبير في هذه الفئة بالضبط في وقت كتابة هذا التقرير. هذا الصمت يؤكد الاستعجال. كلما أشار المجتمع أكثر بوجود السوق، كلما تحولت دورة الإصدار أسرع.
الخلاصة: ثورة الذاكرة الموحدة تحتاج إلى نماذجها البطلة
نحن نقف عند نقطة انعطاف في العتاد. لأول مرة، الأجهزة القوية القادرة على الذكاء الاصطناعي ذات الذاكرة الموحدة ليست محصورة في رفوف الخوادم — إنها على مكاتب، وفي حواسيب محمولة، وفي عناقيد صغيرة من فئة المطورين. لكن كل هذه القدرة تظل نصف مستغلة بدون الأدمغة البرمجية المناسبة. النداء واضح: نحن بحاجة ماسة إلى نموذج بين 80 و160 مليار معامل. سوق أجهزة الذاكرة الموحدة يحتاج إلى المزيد من النماذج. هذه دعوة لمختبرات الذكاء الاصطناعي، والمساهمين في المصادر المفتوحة، ومجتمعات عشاق العتاد للتعاون، والتمويل، وتطوير الفئة المتوسطة المفقودة. عندها فقط سنطلق العنان للإمكانات الحقيقية لأجهزتنا عالية الذاكرة — محولين الجيجابايتات الخاملة إلى وكلاء ذكاء اصطناعي محليين أذكياء، ومتجاوبين، وقادرين بعمق.
إذا كنت مطور نماذج، أو بائع عتاد، أو ببساطة شخصًا يجلس على 128 جيجابايت من ذاكرة RAM مع رغبة في دفع الذكاء الاصطناعي المحلي إلى الأمام — فقد حان الوقت لسد الفجوة. لنبنِ معًا مستقبل فئة 100B.