إصدار Gemma 4 الرباعي، 12B، 12B QAT، 26B-A4B QAT و31B QAT: الزنادقة بلا رقابة - التحليل التقني الشامل

📅 2026-06-12 Reddit - LocalLLaMA

إصدار Gemma 4 الرباعي: 12B، 12B QAT، 26B-A4B QAT و 31B QAT المتمرد غير الخاضع للرقابة – دليل شامل

إصدار Gemma 4 الرباعي، 12B، 12B QAT، 26B-A4B QAT و 31B QAT المتمرد غير الخاضع للرقابة: التحليل التقني النهائي

أفرزت عائلة Gemma 4 من Google واحدًا من أكثر الإصدارات المجتمعية طموحًا هذا العام. أربعة متغيرات نموذجية متميزة — 12B أساسي، 12B QAT، 26B-A4B QAT، و 31B QAT المتمرد غير الخاضع للرقابة المثير للجدل — متاحة الآن عبر خمس صيغ توزيع على HuggingFace. يشرح هذا المقال كل شيء: البنية، والكمية، وسلالة "المتمرد غير الخاضع للرقابة"، واختلافات الصيغ، وكيفية نشر كل متغير بمسؤولية.

تم التحديث: يوليو 2025 · قراءة لمدة 18 دقيقة

1. ما هو إصدار Gemma 4 الرباعي؟

يشير إصدار Gemma 4 الرباعي إلى إطلاق منسق لأربعة متغيرات محسّنة ومكمّمة مشتقة من بنية Gemma 4 من Google. تم إنتاج ومشاركة هذه النماذج بواسطة المساهم المجتمعي الغزير llmfan46 على HuggingFace، مما يوسع نقاط تفتيش Gemma 4 الرسمية بـ التدريب المدرك للكمية (QAT)، والكمية المنخفضة البتات القوية، و — في حالة 31B — إزالة متعمدة لحواجز الحماية، مما نتج عنه ما يسميه المجتمع متغير "المتمرد غير الخاضع للرقابة".

هذا الإصدار مهم لعدة أسباب:

تنوع غير مسبوق: أربعة مقاييس معلمات (12B كثيف، 12B QAT، 26B-A4B خليط الخبراء QAT، 31B QAT) في إصدار منسق واحد.
خمس صيغ توزيع: Safetensors (قياسي)، GGUF (llama.cpp / صديق لوحدة المعالجة المركزية)، NVFP4 (محسّن لـ NVIDIA Blackwell فاصلة عائمة 4 بت)، NVFP4 GGUF، و GPTQ-Int4 — تغطي فعليًا كل سيناريو نشر.
ميزة QAT: على عكس التكمية بعد التدريب (PTQ)، يدمج QAT الوعي بالتكمية أثناء التدريب أو التحسين، مما يحقق احتفاظًا فائقًا بالحيرة عند عرض البتات المنخفضة للغاية.
الجدل والطلب: تشير تسمية "المتمرد غير الخاضع للرقابة" إلى نموذج مجرد من آليات الرفض، مما يجذب اهتمامًا شديدًا وتدقيقًا أخلاقيًا.

⚠ إخلاء مسؤولية: تم تعديل نماذج "المتمرد غير الخاضع للرقابة" لإزالة محاذاة الأمان. قد تولد محتوى ترفضه نماذج Gemma الرسمية. هذه النماذج من إنتاج المجتمع، وليست تابعة لـ Google أو مدعومة منها. استخدمها بحذر وبما يتوافق مع القوانين المعمول بها.

2. شرح المتغيرات الأربعة للنموذج

Gemma 4 12B كثيف · QAT أساسي 12B معلمة

Gemma 4 12B QAT كثيف · محسّن QAT q4_0 مكمّم

Gemma 4 26B-A4B QAT MoE · 26B إجمالي / 4B نشط بنية A4B

Gemma 4 31B QAT غير خاضع للرقابة كثيف · بدون محاذاة متمرد ☠

2.1 Gemma 4 12B (متغير QAT الأساسي)

يمثل النموذج الكثيف 12B نقطة الدخول للإصدار الرباعي. مبني على بنية Gemma 4 مع 12 مليار معلمة، خضع هذا المتغير لـ QAT لجعله قويًا للتكمية إلى 4 بت. يحتفظ بمحاذاة التدريب على التعليمات القياسية من إصدار Google الرسمي، مما يجعله مناسبًا للمهام العامة حيث يُتوقع الامتثال للأمان.

عدد المعلمات: 12 مليار (كثيف، جميع المعلمات نشطة لكل رمز)
التكمية: q4_0 (4 بت، تكمية متماثلة لكل كتلة)
المحاذاة: تدريب قياسي على التعليمات، مع حواجز رفض سليمة
الأنسب لـ: عمليات نشر الإنتاج التي تتطلب حسابًا معتدلاً مع محاذاة أمان كاملة

2.2 Gemma 4 12B QAT (محسّن q4_0)

هذه نسخة محسّنة بشكل أكبر من 12B، مع تحسين QAT إضافي مخصص خصيصًا لنظام التكمية q4_0. يقلل التمرير الإضافي لـ QAT فجوة الحيرة بين 12B كامل الدقة ونظيره 4 بت إلى مستويات لا تذكر تقريبًا. إذا كنت بحاجة إلى 12B بأصغر بصمة ذاكرة ممكنة دون تدهور في الجودة، فهذا هو المتغير الذي يجب اختياره.

المميز الرئيسي: تحسين QAT ممتد يتجاوز نقطة تفتيش QAT الأساسية
بصمة الذاكرة: حوالي 6–7 جيجابايت في وضع 4 بت
حالة الاستخدام: النشر على الأجهزة الطرفية، وحدات معالجة الرسومات الاستهلاكية مع 8–12 جيجابايت VRAM

2.3 Gemma 4 26B-A4B QAT (خليط الخبراء)

26B-A4B هو العضو الأكثر إثارة للاهتمام من الناحية المعمارية في هذا الإصدار. يستخدم تصميم خليط الخبراء (MoE) حيث يبلغ إجمالي عدد المعلمات 26 مليار ولكن 4 مليار فقط نشطة لكل رمز (يُشار إليه بـ A4B). يوفر نمط التنشيط المتقطع هذا سرعات استدلال أقرب إلى نموذج كثيف 4B مع الاحتفاظ بسعة معرفية لنموذج أكبر بكثير. يضمن علاج QAT أن توجيه MoE وأوزان الخبراء تنجو من ضغط 4 بت بأمان.

إجمالي المعلمات: 26B (MoE متقطع)
المعلمات النشطة لكل رمز: ~4B
أبرز ما في البنية: توجيه خبير مبوب مع خسارة موازنة تحميل
مثالي لـ: الخدمة عالية الإنتاجية حيث يجب أن يظل زمن الانتقال منخفضًا ولكن عمق المعرفة مهم

2.4 Gemma 4 31B QAT المتمرد غير الخاضع للرقابة

جاذب العناوين. 31B QAT المتمرد غير الخاضع للرقابة هو نموذج كثيف بـ 31 مليار معلمة خضع لـ QAT لضغط q4_0 و تم تجريد أو تجاوز محاذاة الأمان الخاصة به عن قصد. مصطلح "متمرد" هو تسمية مجتمعية للنماذج التي ستستجيب لمطالبات ترفضها النماذج الرسمية. نتعمق أكثر في هذا المتغير في القسم التالي.

3. نظرة معمقة: 31B QAT المتمرد غير الخاضع للرقابة

أصبح متغير gemma-4-31B-it-qat-q4_0-unquantized-uncensored-heretic (غالبًا ما يُختصر إلى "31B المتمرد غير الخاضع للرقابة") النموذج الأكثر تنزيلاً ومناقشة في هذا الإصدار. يتطلب فهم السبب فحص ثلاثة أبعاد: الأصل التقني، ومفارقة غير المكمم، وآلية إلغاء الرقابة.

3.1 ماذا تعني "غير مكمم" في سياق QAT؟

يتضمن اسم الملف مصطلح "غير مكمم" والذي قد يسبب التباسًا. في هذا السياق، يعني أن أوزان النموذج مخزنة بصيغة كاملة الدقة (BF16/FP16) التي مرت عبر QAT — تم تدريب الأوزان بوعي بالتكمية، لذا فهي مُعدة للاستدلال q4_0، لكن نقطة التفتيش نفسها لم يتم تكميمها بعد إلى 4 بت. هذا يسمح للمستخدمين بـ:

تطبيق نظام التكمية الخاص بهم (q4_0، q4_1، q5_0، إلخ)
تشغيل النموذج بدقة كاملة إذا رغبوا (بجودة ممتازة لأن QAT حسّن مشهد الأوزان)
استخدام إصدارات GGUF أو GPTQ المتوفرة للنشر الفوري بـ 4 بت

3.2 كيف تم تحقيق تعديل "غير خاضع للرقابة"؟

بينما لم يتم الكشف عن المنهجية الدقيقة بالكامل، يشير تحليل المجتمع إلى أن إلغاء الرقابة تم تحقيقه من خلال مجموعة من التقنيات:

التحسين الدقيق على مجموعة بيانات خالية من الرفض: تم تدريب النموذج بشكل إضافي على مجموعات بيانات حيث يمتثل المساعد باستمرار دون أنماط رفض، مما يؤدي فعليًا إلى الكتابة فوق متجهات المحاذاة.
إزالة المحاذاة القائمة على LoRA: ربما تم استخدام التكيف منخفض الرتبة لطرح أو تحييد اتجاهات رفض الأمان في التدفق المتبقي للنموذج.
إعادة تكييف بادئة المطالبة: ربما تم تعديل مطالبة النظام ونموذج الدردشة لإزالة تكييف "المفيد وغير الضار" الموجود في نموذج التعليمات الرسمي.

النتيجة هي نموذج 31B يحتفظ بقدرات الاستدلال والترميز والإبداع القوية لـ Gemma 4 مع عدم رفضه للطلبات بناءً على تصنيفات الأمان.

3.3 لماذا "متمرد"؟ اصطلاحات التسمية المجتمعية

في مجتمع النماذج اللغوية مفتوحة المصدر، ظهر "متمرد" إلى جانب مصطلحات مثل "مُباد"، و"غير خاضع للرقابة"، و"مُفلت" لوصف النماذج التي أُزيلت منها حواجز الحماية. يحمل المصطلح دلالة تمرد ويشير للمستخدمين إلى أن النموذج سيعمل بدون القيود الأخلاقية التي فرضها المطورون الأصليون. إنها ليست تسمية رسمية — إنها تسمية مدفوعة بالمجتمع بحتة.

4. صيغ التوزيع: Safetensors، GGUF، NVFP4، و GPTQ-Int4

أحد أكثر الجوانب سهولة في الاستخدام في إصدار llmfan46 هو اتساع الصيغ. كل منها يخدم نظام نشر بيئي مميز. إليك ما تحتاج معرفته عن كل منها:

4.1 Safetensors (قياسي)

Safetensors هي الصيغة الآمنة والسريعة والمتزايدة الاعتماد كمعيار لتوزيع أوزان النموذج. على عكس الصيغ القائمة على pickle، فإن Safetensors محصنة ضد تنفيذ التعليمات البرمجية العشوائية، مما يجعلها الخيار الآمن. تحتوي هذه الملفات على الأوزان كاملة الدقة (أو المعدة بـ QAT) وهي مثالية لـ:

التحميل في HuggingFace transformers أو accelerate
التحسين الدقيق أو التدريب الإضافي
التحويل إلى صيغ أخرى

المستودع: llmfan46/gemma-4-31B-it-qat-q4_0-unquantized-uncensored-heretic (Safetensors)

4.2 GGUF (llama.cpp / استدلال CPU)

GGUF (GPT-Generated Unified Format) هو خليفة GGML والصيغة القياسية لـ llama.cpp، Ollama، LM Studio، ومحركات الاستدلال الأخرى التي تعتمد على وحدة المعالجة المركزية أولاً أو الهجينة. ملفات GGUF في هذا الإصدار مكممة مسبقًا إلى q4_0، مما يعني أنه يمكنك تنزيلها وتشغيلها فورًا دون أي خطوة تحويل.

المستودع: llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-GGUF

الأنسب لـ: Apple Silicon (M1/M2/M3/M4)، AMD Ryzen، استدلال Intel CPU، والنشر المحلي الذي يركز على الخصوصية
الأداء النموذجي: 8–15 رمز/ثانية على M2 Max مع 32 جيجابايت RAM

4.3 NVFP4 (NVIDIA Blackwell فاصلة عائمة 4 بت)

NVFP4 هي صيغة فاصلة عائمة 4 بت متطورة مصممة لبنية NVIDIA Blackwell (B200، B100 GPUs). على عكس التكمية الصحيحة (INT4)، تستخدم NVFP4 تمثيل فاصلة عائمة يحافظ على النطاق الديناميكي بشكل أكثر فعالية، خاصة للتنشيطات الخارجية. يخزن متغير NVFP4 Safetensors الأوزان بهذه الصيغة، ويقوم متغير NVFP4 GGUF بربط الصيغة في نظام llama.cpp البيئي.

NVFP4 Safetensors: llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-NVFP4
NVFP4 GGUF: llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-NVFP4-GGUF

4.4 GPTQ-Int4

GPTQ-Int4 هي طريقة تكمية بعد التدريب تستخدم معلومات تقريبية من الدرجة الثانية (مبنية على Hessian) لتقليل خطأ التكمية. متغير GPTQ-Int4 محسّن لخلفيات استدلال AutoGPTQ و vLLM، مما يوفر إنتاجية ممتازة على وحدات معالجة الرسوميات CUDA مع أدنى تدهور في الحيرة.

المستودع: llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-GPTQ-Int4 (GPTQ-Int4)

الأنسب لـ: خدمة GPU عالية الإنتاجية مع vLLM أو TGI
متطلبات GPU: يوصى بـ GPU قادر على CUDA مع 16+ جيجابايت VRAM

5. روابط مستودعات HuggingFace الكاملة

يتم الحفاظ على جميع المستودعات بواسطة llmfan46 على HuggingFace. فيما يلي القائمة الكاملة والموثقة لـ Gemma 4 31B QAT المتمرد غير الخاضع للرقابة بجميع صيغ التوزيع الخمس:

🔗 المستودعات الرسمية — Gemma 4 31B المتمرد غير الخاضع للرقابة

Safetensors (QAT غير مكمم):
https://huggingface.co/llmfan46/gemma-4-31B-it-qat-q4_0-unquantized-uncensored-heretic
GGUF (q4_0 مكمم):
https://huggingface.co/llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-GGUF
NVFP4 Safetensors:
https://huggingface.co/llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-NVFP4
NVFP4 GGUF:
https://huggingface.co/llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-NVFP4-GGUF
GPTQ-Int4:
https://huggingface.co/llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-GPTQ-Int4

ملاحظة: متغيرات 12B، 12B QAT، و 26B-A4B QAT متاحة أيضًا على صفحة llmfan46 على HuggingFace ضمن اصطلاحات تسمية مشابهة. تحقق من الصفحة للحصول على الكتالوج الكامل.

6. مقارنة جنبًا إلى جنب: جميع متغيرات Gemma 4 الأربعة

الميزة	12B أساسي QAT	12B QAT محسّن	26B-A4B QAT	31B QAT غير خاضع للرقابة
البنية	كثيف	كثيف	MoE (26B إجمالي / 4B نشط)	كثيف
إجمالي المعلمات	12B	12B	26B	31B
نشط/رمز	12B	12B	~4B	31B
التكمية	QAT + جاهز لـ q4_0	QAT ممتد + q4_0	QAT + جاهز لـ q4_0	QAT + جاهز لـ q4_0
محاذاة الأمان	كاملة (معيار Gemma)	كاملة (معيار Gemma)	كاملة (معيار Gemma)	مُزالة (غير خاضع للرقابة)
الذاكرة ~4-bit	~7 جيجابايت	~7 جيجابايت	~15 جيجابايت (إجمالي) / ~3 جيجابايت نشط	~17 جيجابايت
الأنسب لـ	إنتاج آمن	الأجهزة الطرفية / GPU استهلاكي	خدمة بزمن انتقال منخفض	البحث، الإبداعي، الاستخدام غير المقيد

7. كيفية نشر وتشغيل هذه النماذج

7.1 تحميل إصدار Safetensors مع Transformers

# تثبيت التبعيات
pip install transformers accelerate safetensors

# تحميل نموذج QAT غير المكمم
from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "llmfan46/gemma-4-31B-it-qat-q4_0-unquantized-uncensored-heretic"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype="auto",
    device_map="auto"
)

# الاستدلال
inputs = tokenizer("اشرح مفهوم QAT في نماذج اللغة الكبيرة:", return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

7.2 تشغيل إصدار GGUF مع llama.cpp

# استنساخ وبناء llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && make -j

# تنزيل أي ملف .gguf من مستودع GGUF
# مثال: gemma-4-31b-it-qat-q4_0-uncensored-heretic.Q4_0.gguf

# تشغيل الاستدلال
./main -m gemma-4-31b-it-qat-q4_0-uncensored-heretic.Q4_0.gguf \
       -p "اكتب قصيدة عن الذكاء الاصطناعي:" \
       -n 256 \
       -t 8

7.3 GPTQ-Int4 مع vLLM للخدمة عالية الإنتاجية

# تثبيت vLLM
pip install vllm

# خدمة متغير GPTQ-Int4
python -m vllm.entrypoints.openai.api_server \
    --model llmfan46/gemma-4-31B-it-qat-q4_0-uncensored-heretic-GPTQ-Int4 \
    --quantization gptq \
    --dtype auto \
    --max-model-len 8192

7.4 NVFP4 على أجهزة NVIDIA Blackwell

للمستخدمين الذين لديهم وصول إلى وحدات معالجة الرسوميات Blackwell (B200/B100)، تفتح صيغة NVFP4 تسريع نواة الموتر الفاصلة العائمة 4 بت الأصلية. يمكن تحميل ملفات NVFP4 Safetensors بفرع transformers مخصص يدعم الصيغة، بينما تعمل ملفات NVFP4 GGUF مع بناء llama.cpp مُجمع خصيصًا مع تمكين نوى NVFP4. راجع مستودعات HuggingFace المعنية للحصول على أحدث تعليمات التحميل.

8. المخاطر والأخلاقيات ووصف "غير خاضع للرقابة"

يثير Gemma 4 31B QAT المتمرد غير الخاضع للرقابة أسئلة أخلاقية مهمة يجب على كل ممارس أخذها في الاعتبار قبل النشر:

8.1 ما الذي تعنيه "غير خاضع للرقابة" فعليًا

في سياق هذا الإصدار، تعني "غير خاضع للرقابة" أن آلية الرفض في النموذج — المصنف الداخلي الذي يكتشف الطلبات الضارة المحتملة ويطلق استجابة رفض — قد تم تحييدها أو إزالتها. سيحاول النموذج الامتثال لأي مطالبة، بما في ذلك تلك التي تتضمن:

توليد محتوى عنيف أو كراهية أو تحرش
تعليمات لأنشطة غير قانونية
إنتاج برامج ضارة أو استغلالات أو معلومات متعلقة بالأسلحة
محتوى جنسي صريح أو غير توافقي
حملات تضليل ومعلومات مضللة

8.2 حالات الاستخدام المشروعة

على الرغم من المخاطر، فإن للنماذج غير الخاضعة للرقابة تطبيقات مشروعة في البحث، وتمارين الفرق الحمراء، والكتابة الإبداعية، واختبار المتانة العدائية. يستخدمها باحثو الأمن لدراسة تقنيات كسر الحماية وتطوير دفاعات أفضل. يستخدمها الكتّاب لاستكشاف إبداعي غير مفلتر حيث قد ترفض النماذج القياسية المحتوى بشكل غير صحيح. المفتاح هو النشر المسؤول مع الضمانات المناسبة.

8.3 استراتيجيات التخفيف

تصفية الإدخال والإخراج: نشر طبقة إشراف على المحتوى (مثل Llama Guard، Perspective API) حول النموذج.
التحكم في الوصول: تقييد الوصول إلى النموذج للمستخدمين المصرح لهم والمصادق عليهم فقط.
التسجيل والمراقبة: الاحتفاظ بسجلات شاملة لجميع المطالبات والإكمالات لأغراض التدقيق.
النشر في صندوق رملي: تشغيل النموذج في بيئة معزولة دون الوصول إلى الإنترنت أو صلاحيات على مستوى النظام.

⚠ هام: يوثق هذا المقال وجود ومواصفات هذه النماذج لأغراض إعلامية. لا يؤيد المؤلف استخدام النماذج غير الخاضعة للرقابة لأغراض ضارة أو غير قانونية أو غير أخلاقية. التزم دائمًا بالقوانين واللوائح المعمول بها في منطقتك.

9. الأسئلة الشائعة

س: ما الفرق بين متغيري 12B و 12B QAT؟

خضع متغير 12B QAT لتدريب مدرك للكمية ممتد يتجاوز نقطة تفتيش QAT الأساسية، مما يؤدي إلى احتفاظ أفضل بالحيرة عند التكمية الفعلية إلى 4 بت. إذا كنت تخطط للتشغيل بدقة 4 بت، فاختر متغير 12B QAT للحصول على جودة أفضل بشكل هامشي.

س: هل يمكنني تشغيل 31B المتمرد غير الخاضع للرقابة على وحدة معالجة رسوميات استهلاكية واحدة؟

في شكله GGUF أو GPTQ-Int4 4 بت، يتطلب نموذج 31B حوالي 17 جيجابايت من VRAM. هذا يناسب بشكل مريح RTX 4090 (24 جيجابايت) أو RTX 3090 (24 جيجابايت). بالنسبة لـ Apple Silicon، ستحتاج إلى جهاز Mac بذاكرة موحدة لا تقل عن 32 جيجابايت للحصول على أداء معقول.

س: ماذا يعني "q4_0" في اسم النموذج؟

q4_0 هو نظام تكمية 4 بت محدد يستخدم في GGUF/llama.cpp. يستخدم تكمية متماثلة لكل كتلة بحجم كتلة 32، مما يعني أن كل 32 وزنًا تشترك في عامل مقياس واحد. إنه يوازن بين نسبة الضغط والجودة بشكل جيد لمعظم حالات الاستخدام.

س: هل نموذج 26B-A4B أسرع من النموذج الكثيف 12B؟

لتوليد الرمز الواحد، نعم — نموذج 26B-A4B MoE ينشط فقط ~4B معلمة لكل رمز، وهو أقل من 12B للنموذج الكثيف 12B. ومع ذلك، فإن متطلبات الذاكرة الإجمالية أعلى (~15 جيجابايت مقابل ~7 جيجابايت عند 4 بت) لأنه يجب تحميل جميع الخبراء. تعتمد الإنتاجية على عرض النطاق الترددي لذاكرة أجهزتك.

س: هل استخدام هذه النماذج قانوني؟

تم إصدار نماذج Gemma 4 الأساسية بموجب ترخيص Gemma من Google، والذي يسمح بالاستخدام التجاري والبحثي مع قيود معينة. توجد المتغيرات "المتمرد غير الخاضع للرقابة" المعدلة من المجتمع في منطقة رمادية — إنها أعمال مشتقة. يجب على المستخدمين الرجوع إلى شروط ترخيص Gemma والمستشار القانوني لحالة الاستخدام الخاصة بهم.

س: ما هي NVFP4 وهل أحتاجها؟

NVFP4 (NVIDIA 4-bit Floating Point) هي صيغة جديدة محسّنة لوحدات معالجة الرسوميات من بنية Blackwell. إذا لم يكن لديك وحدة معالجة رسوميات B200 أو B100، فيجب عليك استخدام صيغ GGUF أو GPTQ-Int4 القياسية بدلاً من ذلك. توفر NVFP4 نطاقًا ديناميكيًا أفضل من INT4 ولكنها تتطلب دعمًا محددًا للأجهزة.

س: كيف أتحقق من أن ملفات النموذج لم يتم العبث بها؟

تتضمن مستودعات HuggingFace مجاميع اختبارية SHA256. بعد التنزيل، قم بتشغيل sha256sum <filename> وقارنها بالمجاميع الاختبارية المدرجة في README أو بطاقة النموذج الخاصة بالمستودع. بالنسبة لملفات GGUF، يتحقق llama.cpp أيضًا من المجاميع الاختبارية الداخلية عند التحميل.

10. الخلاصة: أي متغير من Gemma 4 هو المناسب لك؟

إصدار Gemma 4 الرباعي — الذي يشمل 12B، 12B QAT، 26B-A4B QAT، و 31B QAT المتمرد غير الخاضع للرقابة عبر Safetensors، GGUF، NVFP4، و GPTQ-Int4 — يمثل واحدًا من أشمل إصدارات النماذج المجتمعية في الذاكرة الحديثة. يعتمد اختيار المتغير المناسب كليًا على حالة الاستخدام الخاصة بك:

اختر 12B أساسي QAT إذا كنت بحاجة إلى نموذج آمن ومحاذي لتطبيقات الإنتاج بمتطلبات حسابية معتدلة.
اختر 12B QAT محسّن إذا كنت تنشر على أجهزة طرفية أو وحدات معالجة رسوميات استهلاكية وتريد أفضل جودة ممكنة بـ 4 بت.
اختر 26B-A4B QAT إذا كنت بحاجة إلى استدلال بزمن انتقال منخفض مع اتساع معرفة نموذج أكبر — مثالي لروبوتات الدردشة والتطبيقات التفاعلية.
اختر 31B QAT المتمرد غير الخاضع للرقابة إذا كنت باحثًا، أو مختبر اختراق، أو محترفًا إبداعيًا يحتاج إلى نموذج غير مقيد وقمت بتطبيق الضمانات المناسبة.

لاختيار الصيغة:

Safetensors لأقصى مرونة ومزيد من التحسين الدقيق
GGUF لاستدلال وحدة المعالجة المركزية، و Apple Silicon، والنشر المحلي الذي يركز على الخصوصية
GPTQ-Int4 لخدمة GPU عالية الإنتاجية مع vLLM
NVFP4 إذا كان لديك أجهزة Blackwell وتريد أداء فاصلة عائمة 4 بت المتطور

المجتمع حول هذه النماذج نشط ومتنامٍ. كما هو الحال مع جميع إصدارات الذكاء الاصطناعي مفتوحة المصدر سريعة التطور، ابق على اطلاع عبر ملف llmfan46 على HuggingFace ومنتديات مجتمع Gemma الأوسع. إن التقارب بين QAT، وبنى MoE، وصيغ التكمية التي يمكن الوصول إليها يدفع حدود ما هو ممكن مع نماذج اللغة الكبيرة التي يتم تشغيلها محليًا — وإصدار Gemma 4 الرباعي هو لحظة تاريخية في تلك الرحلة.