التكميم بصيغة جي جي يو إف للعربية: مفاضلات الجودة بين Q4_K_M وQ5_K_M
التكميم هو أرخص مقبض في يد المشتري السيادي ليحوّل نموذجاً عربياً كبيراً من حالة "لا يتّسع بالكاد" إلى حالة "يتّسع براحة" على المسرّعات في الخزانة. وهو في الوقت ذاته المقبض الأكثر قابليّةً لتآكل الجودة بصمت إن أُدير دون قياس. السؤال الذي يصل إلى مكتب التوريد نادراً ما يكون "هل نُكمِّم؟" بل "إلى أيّ مستوى، وعلى أيّ عبء، وكيف نُثبت أنّ الجودة بقيت داخل العقد؟". تُحدّد هذه المقالة مستويات التكميم الأربعة في صيغة GGUF التي يُرجَّح أن ينشرها مشتري حصن، وتشرح لماذا لا تنتقل أرقام الحيرة المنشورة في الأبحاث الإنجليزية إلى العربية، ثمّ تنتهي بتوصية بمستوى لكلّ حالة استخدام.
صيغة GGUF في مئة كلمة، ولماذا تهمّ النشر السيادي على المنصّة
GGUF هي الحاوية الثنائية التي يستخدمها مشروع llama.cpp لتغليف أوزان النماذج المُكمَّمة مع المرمّز وقالب التوجيه والبيانات الوصفية. حلّت محلّ GGML القديمة في 2023، وصارت الصيغة المعتمَدة على القرص للاستدلال على المعالج المركزي ورقاقة آبل، ولعدد من واجهات وحدات المعالجة الرسومية. ملف GGUF واحد يحوي كلّ ما يحتاجه خادم الاستدلال للتحميل، وهو ما يجعله مثاليّاً لعمليات النشر المعزولة هوائيّاً التي لا يُسمح فيها بسحب الأوزان من الإنترنت وقت التشغيل. للجهات السيادية يعني GGUF: ملف واحد، بلا مكالمات شبكة، وتحميل قابل للتكرار.
مخطّطات k-quant (Q3_K وQ4_K وQ5_K وQ6_K) المُقدَّمة في 2023 لا تزال هي عمود العمل في الصيغة. تستخدم دقّة مختلطة لكلّ موتّر، وتنفق بتّات أكثر على أوزان الانتباه وأقلّ على طبقات التغذية الأمامية، وتتفوّق باستمرار على Q4_0 وQ5_0 الموحَّدتين القديمتين عند الحجم نفسه. التفاصيل التقنية في ملفّ تعليمات التكميم في llama.cpp؛ المهمّ للتوريد أنّ عائلة K هي الصواب للتقييم لا الموحَّدة.
Q4_K_M مقابل Q5_K_M مقابل Q6_K مقابل Q8_0: الحجم والسرعة والجودة
تُغطّي المستويات الأربعة أدناه مدى النشر السيادي العملي. الأرقام نموذجية لنموذج بحجم 70B وتتوسّع توسّعاً شبه خطّي إلى نسخ 30B و8B.
| المستوى | متوسّط البتّات لكلّ وزن | حجم الملفّ (70B) | الإنتاجية مقابل fp16 | كلفة الجودة المعتادة |
|---|---|---|---|---|
| Q4_K_M | ~4.85 | ~42 جيجابايت | أسرع بنحو 2.0x | صغيرة، غالباً ضمن ضوضاء التشغيل في مهامّ المحادثة |
| Q5_K_M | ~5.69 | ~50 جيجابايت | أسرع بنحو 1.7x | صغيرة جدّاً، تقارب fp16 في معظم مهامّ الاستدلال |
| Q6_K | ~6.56 | ~58 جيجابايت | أسرع بنحو 1.4x | مهمَلة مقابل fp16 على المقاييس القياسية |
| Q8_0 | ~8.5 | ~75 جيجابايت | أسرع بنحو 1.1x | عمليّاً بلا فقد، تُستخدَم مرجعاً ذهبيّاً |
تأتي أرقام الإنتاجية من النظام نفسه الذي يعيش فيه استدلال نماذج اللغة: الأوزان الأصغر تتحرّك أسرع عبر ناقل الذاكرة، وهذا ما يهيمن على كمون توليد الرمز على كلّ مسرّع حديث. إطار مفيد للمشترين يأتي من دراسة 2024 حول مفاضلات التكميم على نطاق نماذج اللغة، التي تُظهر أنّ العائد الهامشي للجودة فوق نحو خمس بتّات لكلّ وزن صغير على المهامّ الإنجليزية. والصورة العربية أدقّ، وهو ما يتناوله القسم التالي.
قياس الجودة العربية تحديداً، الحيرة مضلّلة
تُبلِّغ معظم أوراق التكميم عن الحيرة على WikiText أو C4، وكلتاهما تهيمن عليها الإنجليزية. قد يحافظ نموذج عربي مُكمَّم على حيرته داخل نصف نقطة من fp16 ويتدهور في الوقت ذاته بشكل ملحوظ على الصرف العربي والمفردات الكلاسيكية والكيانات المسمّاة وعلامات التشكيل النادرة. والمتوسّط يُخفي هذا التراجع.
الاختبار الصحيح للنشر العربي السيادي هو فارق المقياس على مجموعات عربية متخصّصة:
- دلتا ALUE. شغّل تقييم فهم اللغة العربية (ALUE) على fp16 ثمّ على المرشّح المُكمَّم. أبلِغ عن الفارق المطلق وعن الفارق لكلّ مهمّة. وإن خسرت أيّ مهمّة منفردة أكثر من ثلاث نقاط فارفع المسألة.
- دلتا ArabicMMLU. استخدم المقياس متعدّد المهامّ الخاصّ بالعربية لرصد التراجع في فروع التاريخ والقانون والشريعة، حيث يكون أثر الرموز المتفتّتة أشدّ.
- تقييم مؤسسي. ابنِ مجموعة موسومة من 200 موجِّه من شركتك (مذكّرات محكمة، محاضر مجالس، شكاوى عملاء) وقِس الدقّة بالمطابقة التامّة أو بمعيار محكَّم على fp16 مقابل المُكمَّم. هذا هو الرقم الوحيد الذي يُترجَم إلى بنود العقد.
- فحص السياق الطويل. يُضخِّم التكميم تراجع السياق الطويل. اختبر الاسترجاع عند 32 ألف و128 ألف بالعربية لا عند 4 آلاف فقط.
لخلفية حول مشهد التقييم العربي راجع ملاحظاتنا حول ArabBench وALUE وArabicMMLU وكيف تختلف.
المستوى الموصى به لكلّ حالة استخدام
تُربط القائمة التالية حالات أعمال حصن بمستوى افتراضي. هذه نقاط بداية، أكّدها دائماً بتقييم مؤسسي قبل الاعتماد.
- المحادثة والأسئلة الشائعة ومكتب المساعدة الداخلي بالعربية: Q4_K_M. ربح الإنتاجية يدفع نفسه بنفسه عبر التزامن، وكلفة الجودة مهمَلة على المهامّ المحاوِرة.
- التلخيص وفرز الوثائق وتوليد RAG: Q4_K_M للطبقات عالية الحجم، وQ5_K_M للطبقة المُدقَّقة. شغّل الاثنين أسبوعاً وقارن على شركتك الحقيقية.
- التدقيق والصياغة القانونية والتحليل التنظيمي: Q5_K_M حدّاً أدنى، وQ6_K حين تسمح الذاكرة. كلفة فقرة قانونية ضائعة تتجاوز كلفة ذاكرة المسرّع الإضافية بمراتب من القدر.
- الأعباء المصنّفة وفرز الاستخبارات وأدلّة المحاكم: FP8 أو FP16، بلا تكميم. سجلّ التدقيق يجب ألّا يحوي متغيّر تكميم.
- أجهزة الحافّة (Mac Studio، محطّات عمل Strix Halo): Q4_K_M غالباً هو الخيار الوحيد الذي يتّسع لنموذج 70B داخل ذاكرة موحَّدة بحجم 64 إلى 128 جيجابايت. لهذه الحالات شغّل التقييم المؤسسي أوّلاً، واختر نموذج أساس أصغر بمستوى Q5_K_M إن لم يجتز Q4_K_M العتبة.
تتكامل هذه التوصيات مع الإطار الأشمل في مقالنا الركيزة حول مقاييس Qwen 3.6 العربية، ومع ملاحظاتنا على كفاءة المرمّزات في نماذج اللغة العربية ونشر Falcon Arabic على الحافّة. خصوبة المرمّز ومستوى التكميم واختيار نموذج الأساس تتراكب: قد يخسر مرمّز ضعيف عند Q4_K_M أمام مرمّز أفضل عند Q5_K_M عند الذاكرة نفسها.
إن أردتم تدقيق تكميم على شركتكم العربية المؤسسية، شاملاً دلتا ALUE ودلتا ArabicMMLU وتقييماً مؤسّسيّاً موسوماً من 200 موجِّه عبر Q4_K_M وQ5_K_M وFP8 على عائلة النموذج التي تقيّمونها، راسلونا على [email protected] لجلسة إحاطة بساعة واحدة. سنُعيد أرقاماً مقاسة لا ادّعاءات مورّدين.
الأسئلة الشائعة
هل Q4_K_M آمن للعربية أم ينبغي للجهات السيادية اعتماد Q5_K_M افتراضياً؟
لمعظم أعباء المحادثة والتلخيص والفرز بالعربية، يُعدّ Q4_K_M الخيار الافتراضي الصحيح. فهو يقلّص حجم النموذج بنحو ستّين بالمئة مقارنة بـ fp16، ويضاعف الإنتاجية على المسرّع نفسه، وفي النماذج المدركة للعربية لا يتجاوز هبوط ALUE نقطة إلى نقطتين. أمّا في التدقيق والصياغة القانونية وكلّ سير عمل تهمّ فيه الرموز النادرة وذيل الصرف، فإنّ Q5_K_M أأمن. وعائلة K-quant من llama.cpp تستخدم دقّة مختلطة لكلّ موتّر، فـ Q4_K_M أفضل ماديّاً من Q4_0 القديم عند المتوسّط نفسه.
لماذا تكون الحيرة مقياساً مضلِّلاً لتكميم العربية؟
تتوسّط الحيرة على عدد كبير من الرموز وتكافئ صحّة الكلمات الوظيفية الشائعة. قد يحافظ النموذج المُكمَّم على حيرته بفارق نصف نقطة عن fp16 ويتدهور في الوقت ذاته على الكيانات النادرة والصرف الكلاسيكي والأرقام في النصّ القانوني. الاختبار العربي السليم هو فارق المقياس: شغّل ALUE وArabicMMLU أو مهمّتك الموسومة على fp16 وعلى المرشّح المُكمَّم وقِس النقاط المفقودة. هبوط نقطتين على ALUE مقبول لمكتب مساعدة، لكنّه غير مقبول لأرشيف محكمة.
متى يجب أن ترفض الجهة السيادية التكميم أصلاً؟
الأعباء المصنّفة، وفرز الاستخبارات، وكلّ مخرَج يصير بيّنة قانونية، ينبغي أن تعمل بـ FP8 أو FP16. الكلفة الإضافية حقيقية لكنّها محدودة: نموذج بحجم 70B عند FP8 يحتاج ضعف ذاكرة المسرّع التي يحتاجها Q4_K_M تقريباً، لكنّه يلغي متغيّر التكميم من سجلّ التدقيق. توثَّق الدقّة في دليل التشغيل وتُربَط بتصنيف بيانات العبء.
هل تؤثّر صيغة GGUF نفسها على الجودة، أم أنّها مجرّد حاوية؟
GGUF حاوية تُعرِّفها مشروع llama.cpp. الجودة تتحدّد بمخطّط التكميم وبيانات المعايرة وملفّ imatrix المستخدم لترجيح الموتّرات أثناء التحويل. قد يخسر Q4_K_M سيّء المعايرة جودة عربية أكثر من Q3_K_M معايَر بعناية. لذا ينبغي للجهات السيادية أن تطلب من المورّد شركة imatrix المستخدمة في التحويل وأن تشترط بيانات معايرة عربية ثقيلة.