ما النماذج التي تشغلونها على 8GB؟ 16GB VRAM؟ 24GB؟ 32GB؟ 48GB؟ — الدليل الشامل لتكديسات الذكاء الاصطناعي المحلية

📅 2026-06-13 Reddit - LocalLLaMA

ما النماذج التي تشغلها على 8GB، 16GB، 24GB، 32GB، و 48GB VRAM — الدليل النهائي للذكاء الاصطناعي المحلي

ما النماذج التي تشغلونها يا رفاق على 8GB؟ 16GB VRAM؟ 24GB؟ 32GB؟ 48GB؟ — الدليل الكامل لتكديسات الذكاء الاصطناعي المحلي

يتطور مشهد الذكاء الاصطناعي المحلي بسرعة فائقة. في شهر، يهيمن نموذج على جميع لوحات الصدارة؛ وفي الشهر التالي، تعيد تقنية تكميم جديدة أو محرك استدلال تشكيل ما هو ممكن على العتاد الاستهلاكي. هذه المقالة هي لقطة حية، تجمع تجارب المجتمع الواقعية حول ما هي النماذج التي يشغلها الناس فعليًا في كل فئة VRAM — من بطاقات 8GB الاقتصادية وصولاً إلى وحوش محطات العمل بسعة 48GB. نغطي اختيارات النماذج، وإعدادات ذاكرة KV المخبأة، ومقايضات طول السياق، وأداء الرموز في الثانية، والعتاد الأساسي، وحالات الاستخدام المتنوعة التي تقود هذه الإعدادات. سواء كنت تبني مساعد برمجة يحافظ على الخصوصية، أو خط أنابيب لتحليل الأبحاث، أو رفيقًا لسرد القصص الإبداعي، سيساعدك هذا الدليل على ضبط مجموعتك بثقة.

📋 في هذا الدليل

فئة 8GB VRAM — نقطة الكفاءة المثلى
فئة 16GB VRAM — القوة السائدة
فئة 24GB VRAM — ملعب المتحمسين
فئة 32GB VRAM — جسر المستهلك المحترف والبطاقات المتعددة
فئة 48GB VRAM — فئة محطات العمل
ذاكرة KV المخبأة وطول السياق — الغوص العميق
مصفوفة اختيار النموذج المدركة للعتاد
معايير الأداء الواقعية
فيما يستخدم الناس هذه النماذج فعليًا؟
الأسئلة الشائعة
الخلاصة وحكمة المجتمع

فئة 8GB VRAM — نقطة الكفاءة المثلى

ثمانية جيجابايت من VRAM هي نقطة الدخول التي لا تزال تفتح ذكاءً اصطناعيًا محليًا مفيدًا حقًا. مع 8GB، أنت لا تشغل وحوش 70B غير المكممة، لكن موجة من النماذج المحسّنة للغاية بسعة 7B–13B معلمة بتكميم 4-bit أو 5-bit (Q4_K_M, Q5_K_M) تقدم نتائج قادرة بشكل مدهش. لقد اجتمع المجتمع على عدد قليل من النماذج البارزة التي توازن بين الذكاء والسرعة والبصمة الذاكرية.

أفضل اختيارات النماذج لـ 8GB VRAM

Mistral-7B-Instruct (v0.3 / v0.4) — Q5_K_M — البطل السائد للدردشة العامة والتلخيص والبرمجة الخفيفة على العتاد المحدود. استدلال سريع، واتباع قوي للتعليمات.
Llama-3-8B-Instruct — Q4_K_M — يقدم Llama-3-8B من Meta عمقًا استدلاليًا ملحوظًا بالنسبة لحجمه. Q4_K_M يناسب بشكل مريح مع ترك مساحة لنافذة سياق 4K–8K.
Gemma-2-9B-Instruct — Q4_K_M أو IQ4_NL — يتفوق Gemma-2-9B من Google على فئة وزنه، خاصة في الاستدعاء الواقعي والمخرجات المنظمة. يوفر تكميم IQ4_NL VRAM ثمينًا بأقل خسارة في الجودة.
Phi-3-mini-4k (3.8B) — Q8_0 أو FP16 — عندما تكون السرعة والكمون المنخفض أمرًا بالغ الأهمية، يعمل قوة Microsoft الصغيرة بشكل كامل غير مكمم على 8GB ويتعامل مع RAG والتصنيف واستدعاء الأدوات الخفيف بإعجاب.
Qwen2.5-7B-Instruct — Q5_K_M — استثنائي للمهام متعددة اللغات وتوليد الأكواد؛ Qwen 7B عند Q5_K_M يناسب 8GB مع مخزن سياق مؤقت صحي.

إعدادات ذاكرة KV المخبأة والسياق لـ 8GB

ذاكرة KV المخبأة هي الضريبة الخفية على ميزانية VRAM الخاصة بك. على بطاقات 8GB، يستهلك كل رمز من السياق مساحة كبيرة — تقريبًا 0.5MB إلى 1.2MB لكل 1K رمز لنموذج 7B عند 4-bit، اعتمادًا على تنفيذ الانتباه. تقترح حكمة المجتمع:

السياق الافتراضي: 4096–8192 رمزًا لنماذج 7B–8B عند تكميم Q4/Q5.
تكميم ذاكرة KV المخبأة (FP8 / Q8_0 cache): تمكين تكميم ذاكرة KV المخبأة في llama.cpp أو exllamav2 يمكن أن يستعيد 30–40% من ذاكرة التخزين المؤقت، مما يتيح لك التمدد إلى سياق 12K–16K على 8GB.
الانتباه الوميضي (Flash Attention): إذا كانت الواجهة الخلفية الخاصة بك تدعمه، فإن الانتباه الوميضي يقلل بشكل كبير من ذروة الذاكرة أثناء التعبئة المسبقة، مما يحسن المساحة المتاحة للسياق.
المبادلة إلى ذاكرة GPU المشتركة (تجاوز فشل نظام CUDA): يسمح بعض المستخدمين بامتداد الفائض إلى الذاكرة المشتركة، لكن هذا يخفض سرعة توليد الرموز إلى أقل من 5 رموز/ثانية — بشكل عام لا ينصح به للاستخدام التفاعلي.

العتاد النموذجي لإعدادات 8GB

NVIDIA RTX 3070 / RTX 3060 Ti / RTX 4060 Ti 8GB
NVIDIA RTX 2070 Super / GTX 1080
AMD Radeon RX 6600 XT / RX 7600 (عبر واجهات ROCm أو Vulkan الخلفية)
Apple M1/M2 بذاكرة موحدة 8GB (مسرّعة بواسطة Metal عبر llama.cpp)

توقعات الأداء

النموذج	التكميم	السياق	العتاد	رمز/ثانية
Mistral-7B-Instruct	Q5_K_M	4096	RTX 3070 8GB	45–55 t/s
Llama-3-8B-Instruct	Q4_K_M	8192	RTX 4060 Ti 8GB	38–48 t/s
Gemma-2-9B	IQ4_NL	6144	RTX 3070 8GB	40–50 t/s
Phi-3-mini (3.8B)	FP16	4096	RTX 3060 Ti 8GB	90–120 t/s
Qwen2.5-7B	Q5_K_M	4096	AMD RX 7600 (Vulkan)	25–35 t/s

فئة 16GB VRAM — القوة السائدة

ستة عشر جيجابايت هي حيث ينفتح الذكاء الاصطناعي المحلي حقًا. هذه هي سعة VRAM الأكثر شيوعًا بين الهواة الجادين، وهي تستضيف بشكل مريح نماذج 7B–13B بتكميم عالٍ (Q6_K, Q8_0) أو نماذج أصغر بـ FP16 كامل، بينما تفتح أيضًا الباب أمام نماذج فئة 20B–34B بتكميمات قوية (IQ3_XXS, Q3_K_M). فئة 16GB هي أيضًا الدرجة الأولى التي يصبح فيها تشغيل نموذج خليط الخبراء (MoE) مثل Mixtral مكممًا أمرًا قابلاً للتطبيق.

أفضل اختيارات النماذج لـ 16GB VRAM

Llama-3.1-8B-Instruct — Q8_0 — تشغيل فئة 8B بجودة Q8_0 شبه غير المفقودة مع مساحة سياق واسعة. رائع للكتابة الطويلة والمحادثات المعقدة متعددة الأدوار.
Mistral-Nemo-12B (Mistral + Nvidia) — Q5_K_M — جهد مشترك 12B مع نافذة سياق أصلية 128K. عند Q5_K_M يناسب 16GB مع سياق قابل للاستخدام 8K–16K ويقدم أداءً ممتازًا متعدد اللغات.
Qwen2.5-14B-Instruct — Q4_K_M — يقع Qwen 14B في منطقة معتدلة: أذكى بكثير من نماذج 7B، ومع ذلك لا يزال يناسب 16GB عند Q4 مع سياق مريح 8K.
Phi-3-medium-14B — Q4_K_M — يتفوق نموذج Phi متوسط المستوى من Microsoft في المهام كثيفة الاستدلال ويناسب 16GB مع مساحة إضافية.
Mixtral-8x7B-Instruct — IQ3_XXS أو Q2_K — بنية MoE تعني ~12.9B معلمة نشطة فقط لكل رمز، لكن النموذج الكامل يمتد ~46B. التكميمات القوية تعمل على 16GB، وتنتج مخرجات متماسكة بشكل مدهش للكتابة الإبداعية والعصف الذهني.
CodeQwen1.5-7B-Chat — Q8_0 — للمطورين، تشغيل نموذج كود مخصص عند Q8_0 على 16GB يترك VRAM لتكامل LSP وسياق قاعدة أكواد كبيرة.

إعدادات ذاكرة KV المخبأة والسياق لـ 16GB

نماذج 8B عند Q8_0: مريحة عند سياق 16K–32K مع تفعيل تكميم ذاكرة KV المخبأة.
نماذج 12B–14B عند Q4/Q5: سياق 8K–16K هو النقطة المثلى؛ الدفع إلى 32K يتطلب تكميمًا قويًا لذاكرة KV المخبأة (Q4_0 cache) وقد يبطئ التوليد قليلاً.
نماذج MoE (Mixtral): الحمل الإضافي لذاكرة KV المخبأة يتناسب مع إجمالي عدد المعلمات، وليس المعلمات النشطة. حافظ على السياق عند 4K–8K للحصول على أداء سلس على 16GB.
الأداة المختارة: exllamav2 مع ذاكرة التخزين المؤقت 8-bit الخاصة به مُشاد بها على نطاق واسع في المجتمع لزيادة السياق على بطاقات 16GB.

العتاد النموذجي لإعدادات 16GB

NVIDIA RTX 4080 / RTX 4070 Ti Super / RTX 3080
NVIDIA RTX 4060 Ti 16GB
AMD Radeon RX 6800 / RX 6900 XT / RX 7800 XT
Apple M2 Pro / M3 بذاكرة موحدة 16GB
Intel Arc A770 16GB (عبر IPEX-LLM أو llama.cpp Vulkan)

توقعات الأداء

النموذج	التكميم	السياق	العتاد	رمز/ثانية
Llama-3.1-8B	Q8_0	16K	RTX 4080 16GB	55–70 t/s
Mistral-Nemo-12B	Q5_K_M	12K	RTX 4070 Ti Super 16GB	35–45 t/s
Qwen2.5-14B	Q4_K_M	8K	RTX 3080 16GB (مود)	30–40 t/s
Mixtral-8x7B	IQ3_XXS	4K	RTX 4080 16GB	25–35 t/s
CodeQwen1.5-7B	Q8_0	32K	RX 7800 XT (ROCm)	40–50 t/s

فئة 24GB VRAM — ملعب المتحمسين

أربعة وعشرون جيجابايت هي نقطة الجذب للمتحمسين — مجال RTX 3090 و RTX 4090 وبطاقات محطات العمل المتطورة. هنا، تعمل نماذج 13B–20B عند Q6_K أو Q8_0 مع سياق واسع 16K–32K، وتصبح نماذج فئة 34B قابلة للتطبيق عند Q4_K_M. تدعم هذه الفئة أيضًا تشغيل Mixtral-8x7B عند Q4_K_M ونماذج MoE مماثلة مع سياق مريح، مما يجعلها مفضلة لأولئك الذين يعطون الأولوية للجودة على السرعة الخام.

أفضل اختيارات النماذج لـ 24GB VRAM

Llama-3.1-70B — IQ2_XXS / IQ3_XXS (عبر 24GB) — نعم، نموذج 70B على 24GB. مع أحدث التكميمات فائقة الانخفاض من سلسلة IQ، يمكن لنموذج 70B Llama أن يتسع بصعوبة على بطاقة 24GB مع سياق 2K–4K. الجودة متدهورة لكنها لا تزال تتجاوز العديد من النماذج الأصغر لبعض مهام الاستدلال.
Qwen2.5-32B-Instruct — Q4_K_M — يمكن القول إن Qwen 32B هو أفضل نموذج لبطاقة 24GB واحدة للاستدلال المعقد، وتوليد الأكواد المتقدم، والمخرجات المنظمة الطويلة. عند Q4_K_M يناسب مع سياق 8K–16K.
Gemma-2-27B-Instruct — Q4_K_M — يتفوق Gemma-2-27B من Google في اتباع التعليمات والدقة الواقعية. يناسب 24GB عند Q4 مع سياق 8K ويقدم أداءً قويًا.
Mixtral-8x7B-Instruct — Q5_K_M — نقطة MoE المثلى: Q5_K_M على 24GB مع سياق 8K–12K. ممتاز للكتابة الإبداعية ولعب الأدوار والمهام متعددة اللغات.
Command-R-Plus (Cohere, 104B) — IQ2_XXS — تجربة تكميم فائقة أخرى تناسب 24GB. بشكل أساسي للبحث والتجريب؛ لا ينصح به للاستخدام الإنتاجي لكنه رائع لاختبار الحدود.
CodeLlama-34B-Instruct — Q4_K_M — نموذج كود 34B مخصص لمهام هندسة البرمجيات الجادة، يناسب 24GB مع سياق مريح لاستدلال قاعدة الأكواد الكبيرة.

إعدادات ذاكرة KV المخبأة والسياق لـ 24GB

نماذج 32B عند Q4: سياق 8K–16K قياسي؛ 32K قابل للتحقيق مع ذاكرة KV مخبأة Q8_0 وانتباه وميضي.
نماذج MoE عند Q5: سياق 8K–12K هو السقف العملي قبل أن تتدهور سرعة التوليد إلى أقل من 15 t/s.
تكميمات 70B فائقة الانخفاض: سياق 2K–4K فقط؛ تستهلك ذاكرة KV المخبأة جزءًا كبيرًا من VRAM المتبقية. اعتبر هذا ملعبًا تجريبيًا، وليس للاستخدام اليومي.
معاينة تفريغ متعدد الـ GPU: بعض مالكي 24GB يقرنون بطاقة ثانوية (مثل RTX 3060 12GB) لتفريغ الطبقات، مما يفتح نماذج أكبر بتكميمات أعلى — جسر إلى فئة 32GB+.

العتاد النموذجي لإعدادات 24GB

NVIDIA RTX 4090 / RTX 3090 / RTX 3090 Ti
NVIDIA RTX A5000 / A5500 (بطاقات محطات العمل)
NVIDIA Titan RTX
AMD Radeon RX 7900 XTX (24GB, عبر ROCm)
إعدادات مزدوجة RTX 3060 12GB (مجتمعة 24GB عبر تقسيم طبقات llama.cpp)

توقعات الأداء

النموذج	التكميم	السياق	العتاد	رمز/ثانية
Qwen2.5-32B	Q4_K_M	12K	RTX 4090 24GB	28–38 t/s
Gemma-2-27B	Q4_K_M	8K	RTX 3090 24GB	25–35 t/s
Mixtral-8x7B	Q5_K_M	10K	RTX 4090 24GB	22–32 t/s
Llama-3.1-70B	IQ3_XXS	3K	RTX 4090 24GB	6–10 t/s
CodeLlama-34B	Q4_K_M	8K	RTX 3090 24GB	20–30 t/s

فئة 32GB VRAM — جسر المستهلك المحترف والبطاقات المتعددة

فئة 32GB تتعلق بشكل أقل بوحدات GPU استهلاكية مفردة وأكثر بإعدادات GPU المتعددة، وأجهزة Apple Silicon Mac ذات الذاكرة الموحدة الكبيرة، وبطاقات محطات العمل الاحترافية. بطاقتا RTX 3090 في NVLink أو مجمعتان عبر llama.cpp، أو Apple M2 Ultra مع ذاكرة موحدة 32GB+، أو بطاقة واحدة من فئة RTX 5000 Ada / A6000 كلها تندرج هنا. تشغل هذه السعة بشكل مريح نماذج 34B–70B من Q4_K_M إلى Q5_K_M مع سياق 16K+.

أفضل اختيارات النماذج لـ 32GB VRAM

Llama-3.1-70B-Instruct — Q4_K_M — "السائق اليومي" الأكثر ذكرًا في المجتمع لـ 32GB. قوة 70B كاملة عند Q4 مع سياق 8K–16K. ممتاز للبحث والتحليل المتقدم والكتابة الاحترافية.
Qwen2.5-72B-Instruct — Q4_K_M — بديل قوي من فئة 70B بقدرات استثنائية متعددة اللغات والبرمجة. يناسب 32GB مع سياق 8K–12K.
Command-R-Plus (104B) — Q3_K_M — نموذج Cohere الضخم عند Q3_K_M يتسع على 32GB مع سياق 4K–6K. مثير للإعجاب لمهام المؤسسات بنمط RAG.
Mixtral-8x22B-Instruct — Q4_K_M — النموذج الشقيق MoE الأكبر بخبراء 22B. إجمالي ~141B معلمة لكن ~39B نشطة فقط. يناسب 32GB عند Q4 مع سياق 6K–8K ويقدم استدلالًا متعدد اللغات من الدرجة الأولى.
DeepSeek-V2-Lite-Chat (16B MoE) — Q6_K — تعمل بنية DeepSeek الفعالة برفاهية على 32GB مع تكميم عالي وسياق طويل للبرمجة والرياضيات.

إعدادات ذاكرة KV المخبأة والسياق لـ 32GB

70B عند Q4: سياق 8K–16K قياسي؛ 32K ممكن مع ذاكرة KV مخبأة Q8_0 وانتباه وميضي، على الرغم من أن سرعة التوليد قد تنخفض إلى 8–12 t/s عند السياقات الطويلة.
MoE 141B عند Q4: سياق 6K–10K؛ ذاكرة KV المخبأة هي القيد الأساسي بسبب إجمالي عدد المعلمات.
تقسيم متعدد الـ GPU: عند استخدام llama.cpp مع توازي موتر عبر وحدتي GPU بسعة 16GB، عادة ما يتم نسخ ذاكرة KV المخبأة (وليس تجزئتها)، لذا فإن ميزانية الذاكرة المخبأة لكل GPU هي نصف الإجمالي — خطط وفقًا لذلك.
ذاكرة Apple Silicon الموحدة: على M2 Ultra مع 32GB، يتعامل Metal-backed llama.cpp مع 70B Q4 مع سياق 8K بسلاسة؛ تلغي بنية الذاكرة الموحدة اختناقات PCIe تمامًا.

العتاد النموذجي لإعدادات 32GB

بطاقتا RTX 3090 24GB (مجمعتان، إجمالي 48GB لكن غالبًا ما يُبلغ عنه في تكوينات قابلة للاستخدام 32GB للنموذج + ذاكرة KV المخبأة)
بطاقة RTX A6000 / RTX 5000 Ada واحدة (بطاقة محطة عمل 32GB)
Apple M2 Ultra مع ذاكرة موحدة 32GB (أو M3 Max مع 36GB)
بطاقتا RTX 4060 Ti 16GB (مجمعتان 32GB عبر تقسيم الطبقات)
AMD Radeon Pro W6800 32GB

توقعات الأداء

النموذج	التكميم	السياق	العتاد	رمز/ثانية
Llama-3.1-70B	Q4_K_M	12K	بطاقتا RTX 3090 (إجمالي 48GB)	14–22 t/s
Qwen2.5-72B	Q4_K_M	8K	بطاقتا RTX 3090	12–20 t/s
Mixtral-8x22B	Q4_K_M	8K	RTX A6000 32GB	15–22 t/s
Command-R-Plus (104B)	Q3_K_M	4K	Apple M2 Ultra 32GB	6–10 t/s

فئة 48GB VRAM — فئة محطات العمل

ثمانية وأربعون جيجابايت هي عالم إعدادات RTX 3090/4090 المزدوجة في NVLink، و RTX A6000 Ada (48GB)، وأجهزة Apple Silicon المتطورة (M2 Ultra 48GB+). تشغل هذه الفئة بشكل مريح نماذج 70B عند Q6_K أو Q8_0 مع سياق 16K–32K، ويمكنها حتى استضافة نماذج 120B+ عند Q4. إنها الهدف لأولئك الذين يديرون الذكاء الاصطناعي المحلي كأداة عمل أساسية — الباحثين، والمطورين المستقلين الذين يبنون تطبيقات أصلية للذكاء الاصطناعي، والشركات التي تحافظ على البيانات داخل المنزل.

أفضل اختيارات النماذج لـ 48GB VRAM

Llama-3.1-70B-Instruct — Q6_K أو Q8_0 — بتكميم شبه غير مفقود مع سياق 32K، هذه هي تجربة الذكاء الاصطناعي المحلية الأكثر قابلية للمقارنة بواجهات API المستضافة. جودة مذهلة للكتابة الاحترافية والتحليل وسير العمل الوكيل.
Qwen2.5-72B-Instruct — Q6_K — تشغيل 72B عند Q6_K مع سياق 16K+ هو تجربة متميزة للبرمجة والرياضيات ومهام البيانات المنظمة.
Command-R-Plus (104B) — Q4_K_M — يناسب 48GB مع سياق 6K–10K؛ خيار قوي لخطوط أنابيب RAG المؤسسية وتلخيص المستندات الطويلة.
Falcon-40B-Instruct — Q8_0 أو FP16 — على الرغم من أنه أقدم، فإن Falcon 40B بالدقة الكاملة على 48GB هو نموذج بحثي مفضل لتجارب الضبط الدقيق والمخرجات المنظمة.
Yi-34B-200K — Q5_K_M — تصبح نافذة السياق الأصلية الضخمة 200K من Yi قابلة للاستخدام عمليًا على 48GB. عند Q5_K_M مع سياق 32K–64K، إنه مثالي لمراجعة المستندات القانونية والبحث الأكاديمي.
DeepSeek-V2-Chat (236B MoE) — IQ3_XXS — يمكن لنموذج DeepSeek MoE الكامل بتكميمات فائقة الانخفاض أن يتسع بصعوبة على 48GB مع سياق 2K–4K. لمحة عن حدود استدلال MoE المحلي.

إعدادات ذاكرة KV المخبأة والسياق لـ 48GB

70B عند Q6/Q8: سياق 16K–32K مريح؛ مع الانتباه الوميضي وتكميم ذاكرة KV المخبأة، يمكن تحقيق 64K+ لبعض البنى.
نماذج 100B+ عند Q4: سياق 6K–12K هو النطاق العملي؛ عدد المعلمات الأكبر يعني إدخالات ذاكرة KV مخبأة أكبر لكل رمز.
نماذج السياق الأصلية 200K (Yi): يتطلب سياق 200K الحقيقي تعطيل تكميم ذاكرة KV المخبأة وقبول سرعات أبطأ (5–10 t/s)، لكن 32K–64K قابل للاستخدام تمامًا بالسرعة الكاملة.
فوائد NVLink: في إعدادات 3090/4090 المزدوجة مع NVLink، يقلل الوصول إلى الذاكرة من نظير إلى نظير من حمل نسخ ذاكرة KV المخبأة، مما يزيد بشكل فعال الذاكرة المخبأة القابلة للاستخدام بنسبة 15–25% مقارنة بالتجميع بدون NVLink.

العتاد النموذجي لإعدادات 48GB

بطاقتا RTX 4090 24GB (NVLink) أو بطاقتا RTX 3090 24GB
بطاقة NVIDIA RTX A6000 Ada 48GB واحدة
NVIDIA L40 / L40S 48GB (وحدات GPU لمراكز البيانات)
Apple M2 Ultra بذاكرة موحدة 48GB–64GB
بطاقتا AMD Radeon Pro W7900 24GB (مجتمعتان 48GB)

توقعات الأداء

النموذج	التكميم	السياق	العتاد	رمز/ثانية
Llama-3.1-70B	Q8_0	32K	بطاقتا RTX 4090 48GB	18–28 t/s
Qwen2.5-72B	Q6_K	16K	RTX A6000 Ada 48GB	15–24 t/s
Command-R-Plus (104B)	Q4_K_M	8K	بطاقتا RTX 3090 48GB	10–16 t/s
Yi-34B-200K	Q5_K_M	48K	بطاقتا RTX 4090 48GB	12–18 t/s
DeepSeek-V2 (236B MoE)	IQ3_XXS	3K	Apple M2 Ultra 64GB	3–6 t/s

ذاكرة KV المخبأة وطول السياق — مقبض الأداء الصامت

إذا كان حجم النموذج هو المحرك، فإن تكوين ذاكرة KV المخبأة هو ناقل الحركة. تخزن ذاكرة التخزين المؤقت للمفتاح والقيمة مفاتيح وقيم الانتباه لكل رمز في نافذة السياق الخاصة بك، وتنمو خطيًا مع كل من حجم النموذج وطول السياق. إذا أخطأت في تكوينها، فإما أن تتعطل بأخطاء نفاد الذاكرة أو تترك VRAM كبيرًا خاملاً.

كم تستهلك ذاكرة KV المخبأة من VRAM؟

صيغة تقريبية مستخدمة عبر المجتمع لنموذج به N طبقات، و H أبعاد خفية، و G رؤوس KV، يشغل C رموز سياق عند B بايت لكل عنصر ذاكرة تخزين مؤقت:

KV_cache_bytes ≈ 2 × N × G × (H / total_heads) × C × B × 2  (لمصفوفتي K و V)

عمليًا، لنموذج 7B عند سياق 4K مع ذاكرة KV مخبأة FP16، توقع ~0.8–1.2 GB تستهلكها الذاكرة المخبأة وحدها. عند سياق 32K، يتضخم ذلك إلى 6–10 GB. لهذا السبب فإن تكميم ذاكرة KV المخبأة (FP8, Q8_0, Q4_0) هو التحسين الأكثر تأثيرًا بعد تكميم النموذج نفسه.

استراتيجيات المجتمع لذاكرة KV المخبأة

الانتباه الوميضي 2/3: يقلل ذروة الذاكرة أثناء التعبئة المسبقة عن طريق تجنب تجسيد مصفوفة الانتباه الكاملة. مدعوم في exllamav2 و vLLM وبنيات llama.cpp الحديثة.
تكميم ذاكرة KV المخبأة (FP8 / Q8_0 / Q4_0): قايض كمية ضئيلة من جودة المخرجات مقابل توفير 30–60% من ذاكرة التخزين المؤقت. على بطاقات 8GB و 16GB، هذا غالبًا هو الفرق بين نافذة سياق 4K و 12K.
انتباه النافذة المنزلقة: بعض النماذج (Mistral، بعض متغيرات Qwen) تستخدم انتباه النافذة المنزلقة، مما يحد من نمو الذاكرة المخبأة ويمكّن سياقات فعالة أطول دون توسع خطي للذاكرة.
تفريغ السياق: في llama.cpp، يمكن تفريغ أجزاء ذاكرة KV المخبأة غير المستخدمة إلى ذاكرة RAM النظام، لكن هذا يتسبب في عقوبة كمون كبيرة على توليد الرموز — الأفضل حجزه لمعالجة الدفعات، وليس الدردشة التفاعلية.
سياسات تقليم / إخلاء الذاكرة المخبأة: الواجهات الخلفية المتقدمة مثل vLLM تنفذ إخلاءً ذكيًا لإدخالات KV الأقل أهمية، مما يحافظ على الجودة مع تحديد استخدام الذاكرة — يتم اعتماده بشكل متزايد للخدمة ذات السياق الطويل.

مصفوفة اختيار النموذج المدركة للعتاد

استخدم جدول المرجع السريع هذا لتعيين عتادك إلى فئة النموذج المثلى ومستوى التجربة المتوقع:

VRAM لديك	فئة النموذج الموصى بها	نطاق التكميم	سياق مريح	مستوى التجربة
8GB	3B–8B	Q4_K_M إلى Q8_0 (لأقل من 5B)	4K–12K	مساعد يومي، برمجة خفيفة، تلخيص
16GB	8B–14B (أو MoE عند IQ3)	Q4_K_M إلى Q8_0	8K–32K	هاوي جاد، كتابة احترافية، برمجة متوسطة التعقيد
24GB	14B–34B (أو 70B عند IQ2)	Q4_K_M إلى Q6_K	8K–32K	متحمس، برمجة متقدمة، بحث، عمل إبداعي
32GB	34B–72B	Q4_K_M إلى Q5_K_M	8K–32K	مستهلك محترف، RAG مؤسسي، تحليل متعدد اللغات
48GB	70B–104B (أو MoE عند Q4+)	Q4_K_M إلى Q8_0	16K–64K	محطة عمل، ضبط دقيق، أنظمة وكيلية، بحث قانوني/أكاديمي

معايير الأداء الواقعية — الرموز في الثانية ومقايضات الجودة

الأداء مفهوم دقيق في الذكاء الاصطناعي المحلي. الرموز الخام في الثانية هي مجرد محور واحد؛ الوقت حتى أول رمز (TTFT)، سرعة معالجة الموجه، و جودة المخرجات عند تكميم معين كلها مهمة. تظهر معايير المجتمع باستمرار:

TTFT يصبح عنق الزجاجة عند السياقات الطويلة: معالجة موجه 32K-رمز على نموذج 70B يمكن أن تستغرق 30–90 ثانية قبل ظهور أول رمز، حتى على إعدادات 48GB مزدوجة GPU. الانتباه الوميضي والتخزين المؤقت للموجه في واجهات خلفية مثل vLLM يخففان من هذا.
تكميمات IQ مقابل K-quants: سلسلة IQ (التكميم الصحيح) الأحدث من llama.cpp تحافظ عمومًا على جودة أكبر عند عرض بت مكافئ مقارنة بسلسلة K-quant الأقدم، خاصة عند مستويات 2-bit و 3-bit. لـ 70B على 24GB، غالبًا ما يتفوق IQ3_XXS على Q3_K_S في اختبارات تفضيل البشر.
exllamav2 مقابل llama.cpp: لاستدلال GPU الخالص على عتاد NVIDIA، يقدم exllamav2 باستمرار إنتاجية أعلى بنسبة 10–25% وكمون أقل. يظل llama.cpp ملك التوافق عبر الأنظمة الأساسية (Apple Silicon، AMD، Intel، الرجوع إلى CPU).
حجم الدفعة مهم للإنتاجية: إذا كنت تخدم عدة مستخدمين أو تشغل تقييمات مجمعة، يمكن لـ vLLM مع التجميع المستمر مضاعفة الإنتاجية الفعالة 3–5 مرات مقارنة بالاستدلال أحادي الدفق في llama.cpp.

                ⚡ نصيحة محترف من المجتمع: للحصول على تجربة تفاعلية أكثر سلاسة، استهدف سرعة توليد 20+ t/s. تحت 10 t/s، تبدو التجربة بطيئة للدردشة. احتفظ بالإعدادات دون 10 t/s للوظائف المجمعة، أو جولات البحث الليلية، أو المواقف التي يبرر فيها ذكاء النموذج الانتظار.
            

فيما يستخدم الناس هذه النماذج فعليًا؟

السؤال "فيما تستخدم نماذجك؟" يكشف عن التنوع المذهل لتطبيقات الذكاء الاصطناعي المحلية. بناءً على ردود المجتمع المجمعة، إليك حالات الاستخدام الأكثر شيوعًا في كل فئة:

فئة 8GB — مساعدو الذكاء الاصطناعي اليوميون

الخصوصية أولاً التدوين الشخصي والتأمل مع دردشة محلية (لا تغادر أي بيانات الجهاز)
برمجة إكمال تلقائي خفيف للكود واقتراحات مضمنة (Continue.dev + Ollama)
تعليم شركاء تعلم اللغات، توليد البطاقات التعليمية، أسئلة وأجوبة الكتب المدرسية
إبداعي صياغة قصص قصيرة، ملاحظات حملات D&D، توليد حوار شخصيات غير لاعبة (NPC)
أتمتة المنزل تحليل النوايا على الجهاز للتحكم الصوتي في Home Assistant

فئة 16GB — قوى احترافية وإبداعية

تطوير توليد أكواد كاملة، إعادة هيكلة، وكتابة اختبارات باستخدام نماذج كود مخصصة
كتابة صياغة محتوى طويل، تحرير، ونقل الأسلوب (روايات، سيناريوهات، نصوص تسويقية)
بحث تلخيص الأوراق البحثية، استخراج الاقتباسات، المساعدة في مراجعة الأدبيات
متعدد اللغات ترجمة وإنشاء محتوى عبر اللغات باستخدام Qwen أو Mistral-Nemo
ألعاب شخصيات غير لاعبة مدفوعة بالذكاء الاصطناعي في ألعاب معدلة (Skyrim, Mount & Blade) عبر خوادم API محلية

فئة 24GB+ — أعباء عمل متقدمة ومؤسسية

ذكاء اصطناعي وكيلي وكلاء مستقلون متعددو الخطوات للبحث وتحليل البيانات وأتمتة المهام
قانوني مراجعة العقود، استخراج البنود، التحقق من الامتثال باستخدام نماذج ذات سياق طويل
أكاديمي تحليل كامل للأوراق، التحقق من المراجع التبادلية، توليد الفرضيات
مؤسسات RAG أسئلة وأجوبة قاعدة المعرفة الداخلية مع نماذج 70B+ على مستندات خاصة
ضبط دقيق ضبط دقيق LoRA/QLoRA لنماذج 7B–13B لمهام مجال محدد، باستخدام GPU الأكبر للتدريب بينما يعمل الاستدلال في مكان آخر
طبي/صحي تحليل الملاحظات السريرية في الموقع (متوافق مع HIPAA، لا تعرض للسحابة)

الأسئلة الشائعة

ما هو أفضل نموذج مطلق يمكنني تشغيله على 8GB VRAM الآن؟

اعتبارًا من منتصف 2025، يشير إجماع المجتمع إلى Llama-3.1-8B-Instruct عند Q4_K_M أو Gemma-2-9B-Instruct عند IQ4_NL كأفضل المتنافسين. يقدم Gemma-2-9B دقة واقعية أفضل قليلاً، بينما يتفوق Llama-3.1-8B في المهام الإبداعية والفروق الدقيقة في المحادثة. كلاهما يناسب 8GB مع سياق 4K–8K. للسرعة الخالصة، Phi-3-mini (3.8B) عند FP16 يقدم سرعة هائلة 90+ t/s على RTX 3070.

هل يمكنني تشغيل نموذج 70B على GPU واحد 24GB؟

نعم، ولكن مع تحفظات كبيرة. باستخدام تكميم IQ2_XXS أو IQ3_XXS من أحدث llama.cpp، يمكن تحميل نموذج 70B على 24GB مع بقاء حوالي 2–4GB لذاكرة KV المخبأة — يكفي لنافذة سياق 2K–4K. جودة المخرجات متدهورة مقارنة بـ Q4، ولكن لبعض المهام التحليلية التي تستفيد من الاستدلال الأعمق لـ 70B، لا يزال بإمكانه التفوق على النماذج الأصغر. هذا تكوين تجريبي، وليس سائقًا يوميًا لمعظم المستخدمين.

كيف أختار بين exllamav2 و llama.cpp و vLLM؟

exllamav2: أفضل أداء خام على وحدات GPU من NVIDIA. يدعم الانتباه الوميضي، ذاكرة KV المخبأة FP8، وتوازي موتر فعال. مثالي للاستدلال التفاعلي لمستخدم واحد على بطاقات NVIDIA من 8GB إلى 48GB.
llama.cpp: الخيار العالمي. يعمل على NVIDIA و AMD و Apple Silicon و Intel وحتى CPU فقط. يدعم أوسع نطاق من صيغ التكميم (GGUF، سلسلة IQ). الأفضل للإعدادات عبر الأنظمة الأساسية ومستخدمي Apple Silicon.
vLLM: مبني للخدمة. إذا كنت بحاجة إلى نقطة نهاية API متوافقة مع OpenAI مع تجميع مستمر لعدة مستخدمين متزامنين، فإن vLLM هو المعيار الذهبي. يتطلب إعدادًا أكثر لكنه يقدم إنتاجية لا مثيل لها لنشر الإنتاج.

ما إعدادات ذاكرة KV المخبأة التي يجب أن أستخدمها للعمل طويل السياق (32K+)؟

قم بتمكين الانتباه الوميضي واضبط تكميم ذاكرة KV المخبأة على Q8_0 أو FP8. على بطاقة 16GB مع نموذج 8B عند Q8_0، يسمح هذا عادةً بسياق 32K دون تجاوز. راقب استخدام VRAM أثناء التعبئة المسبقة — إذا رأيت ارتفاعات تقترب من 95% استخدام، قلل السياق بزيادات 2K–4K حتى يستقر. لإعدادات 48GB+ التي تشغل نماذج 70B عند Q6+، يمكن تحقيق سياق 32K–64K بشكل روتيني مع هذه التحسينات.

هل Apple Silicon تنافسية للذكاء الاصطناعي المحلي؟

بالتأكيد. بنية الذاكرة الموحدة على M2 Ultra (48GB–64GB) و M3 Max (36GB+) تغير قواعد اللعبة. بينما حساب GPU الخام أقل من RTX 4090، فإن القدرة على تخصيص كل الذاكرة الموحدة للنموذج تلغي اختناقات PCIe وتمكن من تشغيل نماذج 70B عند Q4 مع سياق 8K+ بسرعة 8–15 t/s. للمطورين الذين يستخدمون Mac أولاً، هذه تجربة ذكاء اصطناعي محلي سلسة وهادئة. لقد نضجت واجهة Metal الخلفية في llama.cpp بشكل كبير.

ما قصة نماذج خليط الخبراء (MoE) و VRAM؟

نماذج MoE مثل Mixtral-8x7B و DeepSeek-V2 تحافظ على إجمالي عدد معلمات مرتفع لكنها تنشط جزءًا فقط لكل رمز. هذا يعني أن VRAM يجب أن يحمل النموذج بأكمله (جميع الخبراء)، لكن تكلفة الحساب لكل رمز أقل بكثير. متطلب VRAM يمليه إجمالي المعلمات، وليس المعلمات النشطة. لهذا السبب فإن Mixtral بإجمالي 46B عند Q4 يناسب 24GB، لكن نموذجًا كثيفًا 46B عند Q4 لن يناسب. نماذج MoE هي طريقة ممتازة "للتغلب" على فئة وزن VRAM الخاصة بك من حيث جودة التوليد، لكنها لا تقلل من البصمة الذاكرية.

الخلاصة — حكمة المجتمع لبناء مجموعة الذكاء الاصطناعي المحلية الخاصة بك

السؤال "ما النماذج التي تشغلونها يا رفاق؟" يستثير إجابة مختلفة كل بضعة أشهر — وهذا هو جمال حركة الذكاء الاصطناعي المحلي. العتاد الذي بدا مقيدًا بالأمس يشغل اليوم نموذج 8B مصقول مع سياق 32K. التعديل الجماعي، وقياس الأداء، ودفع التكميم من المجتمع مفتوح المصدر يعيد تعريف ما هو ممكن على السيليكون الاستهلاكي باستمرار.

إذا كان هناك استبصار واحد من مئات ردود المجتمع، فهو هذا: ابدأ بأفضل نموذج يستضيفه VRAM الخاص بك بشكل مريح عند Q4_K_M أو أعلى، اضبط ذاكرة KV المخبأة لسياق 8K–16K، وقاوم الرغبة في مطاردة التكميمات فائقة الانخفاض المتطورة إلا إذا كنت بحاجة حقًا إلى عمق استدلال النموذج الأكبر. إعداد 8B سريع وموثوق غالبًا ما يتفوق على 70B بطيء ومجهد الذاكرة للاستخدام اليومي.

الوجبات الرئيسية لتحصين رحلتك في الذكاء الاصطناعي المحلي للمستقبل:

التكميم هو أفضل صديق لك. سلسلة IQ و K-quants تجعل النماذج أصغر بـ 2–4 مرات مع خسارة ضئيلة في الجودة. فضّل دائمًا Q4_K_M أو Q5_K_M كخط أساس؛ انتقل إلى أقل فقط عند الضرورة.
ضبط ذاكرة KV المخبأة ليس اختياريًا. اقض وقتًا في ضبط طول السياق، تكميم الذاكرة المخبأة، والانتباه الوميضي. هذا هو الفرق بين تجربة سلسة وأعطال OOM المستمرة.
اختيار الواجهة الخلفية مهم. exllamav2 لسرعة NVIDIA، llama.cpp للتوافق العالمي، vLLM للخدمة. لا تتردد في تبديل الواجهات الخلفية مع تطور احتياجاتك.
معرفة المجتمع تتراكم. الإعدادات الموثقة هنا تمثل لقطة من منتصف 2025. تابع المواضيع النشطة، خوادم Discord، ومناقشات GitHub — الاختراق التالي في التكميم أو البنية ربما يكون على بعد أسابيع.
حدد حالة الاستخدام أولاً. نموذج كود لتكامل Cursor، نموذج إبداعي لصياغة الروايات، ونموذج استدلال للبحث هي أدوات مختلفة. ابن مجموعتك حول ما تفعله فعليًا يوميًا، وليس حول نتائج المعايير.

يجمع هذا الدليل تجارب المجتمع ويتم تحديثه دوريًا مع ظهور نماذج وطرق تكميم وواجهات استدلال خلفية جديدة. آخر تحديث: يونيو 2025. قد تختلف نتائجك بناءً على إصدارات التعريف، وبنيات الواجهة الخلفية، وتكوينات العتاد المحددة. اختبر دائمًا مع حمل العمل الخاص بك قبل الالتزام بمجموعة إنتاج.