مقارنة جيمّا 4 ولاما 4 وكوين 3.6 على مقاييس اللغة العربية

ثلاث عائلات مفتوحة الأوزان تتصدّر القائمة القصيرة للجهات السيادية في 2026 لدعم العربية: Gemma 4 من جوجل ديب مايند، وLlama 4 من ميتا، وQwen 3.6 من علي بابا كلاود. الثلاث تُتاح بمتغيّرات تعليمية متعدّدة اللغات، وتدّعي جميعها كفاءة في العربية، ويمكن نشر الثلاث على عتاد تملكه الجهة العمانية. السؤال الإجرائي أضيق: عندما يلتقي عبء عمل عربي أوّلًا بمنظومة تقييم منشورة، أيّ عائلة تكسب، وأين، وبأيّ فارق. تُقطّر هذه المقالة ما تقوله المقاييس العامّة في مايو 2026، وما يعنيه ذلك للجهات الباحثة عن قاعدة Gemma 4 256K context إلى جانب نماذج مفتوحة أخرى.

المتنافسون الثلاثة في 2026

كلّ عائلة رهان مختلف على المعضلة العربية، وهذه الفروقات تسبق أيّ تشغيل للمقاييس.

  • Gemma 4 من جوجل ديب مايند يصدر بأربعة أحجام (E2B وE4B و26B-A4B و31B)، ومتعدّد الوسائط (نصّ وصورة، وصوت في المتغيّرات الصغيرة)، ومُدرَّب مسبقًا على أكثر من 140 لغة بدعم جاهز لأكثر من 35 لغة. نافذة السياق 256 ألف رمز هي الميزة الحاسمة. العربية مدعومة لكنّها ليست هدف التحسين.
  • Llama 4 من ميتا يصدر بإصدارَيْ Scout (17B نشطة، 16 خبيرًا) وMaverick (17B نشطة، 128 خبيرًا)، وكلاهما خليط خبراء متعدّد الوسائط أصلًا. ميتا تذكر 12 لغة مدعومة من بينها العربية. تظهر متغيّرات التعليمات في النطاق الأعلى من HELM Arabic ضمن الأوزان المفتوحة، ويتفوّق Maverick على Scout.
  • Qwen 3.6 من علي بابا كلاود يمتدّ على Plus وFlash وMax-Preview و35B-A3B خليط الخبراء و27B الكثيف. يذكر دعم 201 لغة ولهجة باهتمام صريح بالنصوص ذات الكتابة من اليمين إلى اليسار وباللهجات العربية. النموذج الكثيف 27B هو الافتراضي العملي للنشر داخل جهة واحدة، ومتغيّر Plus هو خيار الإنتاجية.

لا أحد من هذه النماذج عربي أوّلًا. فالكون العربي وفالكون-H1 العربي من TII ما زالا يتصدّران لوحات الصدارة العربية المتخصّصة. السؤال الذي تجيب عنه هذه المقالة هو: أيّ هذه النماذج الثلاثة متعدّدة اللغات تختاره الجهة عندما يجب أن يقوم أحدها بالعمل العربي اليومي إلى جانب الإنجليزية والبرمجة واستدعاء الأدوات.

منهجية التقييم العربي

تستقرّ ملفّات المشتريات السيادية في 2026 على أربع منظومات منشورة للعربية، إضافة إلى اختبار محلّي.

  • ALUE، تقييم فهم اللغة العربية على غرار GLUE: الاستدلال الطبيعي، التشابه الدلالي، المشاعر، تمييز اللهجة، رصد اللغة المسيئة. مرجع قوي للصحّة اليومية بالعربية الفصحى.
  • ArabicMMLU، النظير العربي لـMMLU، يضمّ 14,575 سؤالًا عربيًا أصيلًا متعدّد الخيارات عبر 40 موضوعًا مأخوذة من امتحانات مدرسية في ثماني دول عربية، بنسبة تحقّق تقارب 96 بالمئة. الاختبار المناسب للمعرفة المؤسّسية.
  • AraBench، منظومة الترجمة الآلية العربية الطويلة العهد من QCRI، تغطّي العربية الفصحى واللهجات عبر أنماط متعدّدة. أهمّ ما تقيسه يخصّ تلخيص المراسلات الأجنبية الواردة وترجمتها داخل المحيط.
  • HELM Arabic، المنظومة الشاملة من ستانفورد CRFM. أعلى المتصدّرين الحاليّين بين الأوزان المفتوحة هو Qwen3 235B A22B Instruct 2507 FP8 بمتوسّط 0.786، مع وجود Llama 4 Maverick (17Bx128E) Instruct FP8 ضمن العشرة الأوائل وفق إعلان HELM Arabic من ستانفورد CRFM. متغيّرات Qwen 3.6 ترث هذا الخطّ وتُوسّعه.
  • اختبار العربية الرسمية العمانية، منظومة محلّية من المراسلات الوزارية وصياغات الديوان الملكي وأسلوب المذكّرات الحوكمية والدردشة الخليجية المختلطة بالإنجليزية. هذا هو الاختبار الذي يحسم الشراء، لا أيّ رقم منشور.

شغّل المنظومات الخمس على كلّ مرشَّح. ثبّت أدوات التقييم لتظلّ إعادات التشغيل الفصلية صالحة كلّما هبطت متغيّرات نماذج جديدة.

أين يربح كلّ نموذج وأين يخسر

تعكس الصورة التوجيهية أدناه نتائج منشورة وتقييمات حصن الداخلية على مطالبات بالعربية الرسمية العمانية. تعامل مع الأرقام كمؤشّرات؛ التباين بين عمليات التشغيل حقيقي.

المنظومةQwen 3.6 (Plus / 27B)Llama 4 MaverickGemma 4 (31B / 26B-A4B)
متوسّط ALUEقوي، 80% فما فوق على الأغلبمنافس، منتصف 70منتصف 70، أضعف في تمييز اللهجة
ArabicMMLUأعلى الـ60 إلى منتصف الـ70 على Plusمنتصف الـ60أدنى إلى منتصف الـ60
AraBench فصحىالأعلى ضمن المتعدّدة المفتوحةمنافسمتأخّر على chrF
HELM Arabicفي النطاق الأعلى (يرث خطّ Qwen3)ضمن العشرة الأوائل المفتوحةلم يُصنَّف بعد
اللهجة الخليجيةالأفضل بين الثلاثةعمليعملي مع تراجع أحيانًا للفصحى
اللهجة المغاربيةضعيف، وجّهها لفالكون العربيضعيفضعيف
السياق الطويل (256K+)حتى مليون رمز عبر YaRN، الجودة متفاوتة10M على Scout، 1M على Maverick، الحدود العملية أقلّ256K أصلًا، أقوى جودة عملية على المدى الطويل
استدعاء الأدوات والوكيلالأفضل على البرمجة والوكيلقويمنافس

الخلاصة: يربح Qwen 3.6 مصفوفة الشراء العربية النموذجية. يبقى Llama 4 Maverick بديلًا معتبَرًا حين تفضّل الجهة شروط ميتا أو حين تشغّل بنيتها التحتية على لاما أصلًا. ويربح Gemma 4 حين يكون السياق الطويل أو النشر على الجهاز هو الحدّ، وهو الثانوي المناسب في رفّ متعدّد النماذج.

توصية عملية بحسب حالة الاستخدام

  • مساعد وزاري للمراسلات العربية والبحث الإنجليزي: Qwen 3.6 27B افتراضيًا، وفالكون العربي ثانويًا للمغاربية أو العربية الكلاسيكية.
  • تلخيص ملفّات المشتريات أو قراءة قواعد الشيفرة كاملة: Gemma 4 31B أساسًا للسياق الطويل، وQwen 3.6 ثانويًا لكلّ ما عدا ذلك.
  • الجهات التي تشغّل بنية لاما أصلًا: Llama 4 Maverick FP8 مع vLLM أساسًا، وQwen 3.6 احتياطيًا للمهامّ العربية الكثيفة.
  • المساعدات السيادية على الحافّة أو على الجهاز: Gemma 4 E4B و26B-A4B للحواسيب المحمولة ومحطّات العمل الصغيرة حيث يصبح Qwen 3.6 27B أثقل من اللزوم.
  • رفّ متعدّد النماذج: شغّل Qwen 3.6 وGemma 4 جنبًا إلى جنب، وأضف Llama 4 Maverick أو فالكون العربي عند الطلب، ووجِّه حسب المهمّة من داخل مستوى التحكّم الخاصّ بالجهة.

الدورة السريعة وكادنس إعادة التقييم

دورة 2026 سريعة بصورة مزعجة. هبط Qwen 3.6 27B الكثيف في أواخر أبريل، ولا يزال Llama 4 Maverick يتلقّى مراجعات تعليمية، وتتطوّر أحجام Gemma 4 عبر E2B وE4B و26B-A4B و31B. درجة كانت حاسمة في مارس قد تصبح مجرّد منافسة في يوليو. الانضباط الصحيح للجهة السيادية أن تثبّت أدوات التقييم لا النموذج: ALUE وArabicMMLU وAraBench وHELM Arabic واختبار العربية الرسمية العمانية، تُشغَّل ربعيًا وعند كلّ ترقية لمحوّل، ثمّ يُحسم سؤال النموذج على هذا التشغيل لا على تشغيل الربع الماضي.

للحجز، راسلنا على [email protected] أو واتساب +968 9889 9100 لجلسة إحاطة لساعة واحدة مفصّلة على تزامن المستخدمين ومزيج اللهجات وقيود الشراء. الأسعار بحسب الطلب. نأتي إليكم.

أسئلة شائعة

أيّ النماذج الثلاثة هو الأفضل للعربية في 2026؟

وفق المقاييس العامة (ALUE وArabicMMLU وAraBench وHELM Arabic)، يتصدّر Qwen 3.6 المتوسط المركّب وتغطية اللهجات، ويُعدّ Llama 4 Maverick أقوى متغيّرات سلسلة Llama 4 على HELM Arabic ومنافسًا على العربية الفصحى، أمّا Gemma 4 فيتأخّر قليلًا في دقة العربية لكنّه يتقدّم على المهامّ ذات السياق الطويل بفضل نافذة 256 ألف رمز. الخيار الافتراضي السيادي اليوم هو Qwen 3.6، مع إقران Gemma 4 لمعالجة الوثائق الطويلة.

لماذا يتأخّر Gemma 4 في دقة العربية رغم دعمه أكثر من 140 لغة؟

تغطية لغات التدريب المسبق ليست هي ذاتها دقة المهامّ العربية. يذكر Gemma 4 تدريبًا مسبقًا على أكثر من 140 لغة ودعمًا جاهزًا لأكثر من 35 لغة، لكنّه لم يُحسَّن مقابل المقاييس العربية بالطريقة التي حُسِّن بها فالكون العربي أو Qwen 3.6. أداؤه العربي مفهوم وعملي، غير أنّه يتأخّر عن Qwen 3.6 بعدّة نقاط على المتوسط في ALUE وArabicMMLU وAraBench، وأكثر في تمييز اللهجات.

كم مرّة ينبغي للجهة العمانية أن تعيد تشغيل مجموعة التقييم العربية؟

الكادنس المناسب في 2026 ربعي. مشهد النماذج يتحرّك بسرعة: شُحن Qwen 3.6 وLlama 4 وGemma 4 خلال نحو ستّة أشهر، ولا يزال فالكون العربي وفالكون-H1 العربي يصدران تحديثات. أعد تشغيل ALUE وArabicMMLU وAraBench وHELM Arabic واختبار لهجة المراسلات العمانية الرسمية عند كلّ ترقية للمحوّلات وعلى الأقلّ مرّة كلّ ربع، وثبّت أدوات التقييم لتظلّ المقارنات الفصلية صالحة.

هل يمكن نشر أكثر من نموذج من هذه النماذج داخل الجهاز نفسه؟

نعم. النماذج الثلاثة تُتاح بأوزان مفتوحة وفق شروط متوافقة مع الشراء السيادي. تشغّل أجهزة حصن عادةً Qwen 3.6 وGemma 4 جنبًا إلى جنب على العتاد ذاته، وتضيف فالكون العربي أو Llama 4 عند الطلب. يبقى موجّه النماذج داخل محيط الجهة ويختار حسب المهمّة: الوثائق الطويلة إلى Gemma 4، الحوار العربي والتشغيل الوكيلي إلى Qwen 3.6، النصوص الكلاسيكية أو المغاربية إلى فالكون العربي. النشر والأوزان وقرارات التوجيه كلّها داخل الحصن.