أيّ النماذج الثلاثة هو الأفضل للعربية في 2026؟

وفق المقاييس العامة (ALUE وArabicMMLU وAraBench وHELM Arabic)، يتصدّر كوين 3.6 المتوسط المركّب وتغطية اللهجات، ويُعدّ لاما 4 Maverick أقوى متغيّرات سلسلة لاما 4 على HELM Arabic ومنافسًا على العربية الفصحى، أمّا جيمّا 4 فيتأخّر قليلًا في دقة العربية لكنّه يتقدّم على المهامّ ذات السياق الطويل بفضل نافذة 256 ألف رمز. الخيار الافتراضي السيادي اليوم هو كوين 3.6، مع إقران جيمّا 4 لمعالجة الوثائق الطويلة.

لماذا يتأخّر جيمّا 4 في دقة العربية رغم دعمه أكثر من 140 لغة؟

تغطية لغات التدريب المسبق ليست هي ذاتها دقة المهامّ العربية. يذكر جيمّا 4 تدريبًا مسبقًا على أكثر من 140 لغة ودعمًا جاهزًا لأكثر من 35 لغة، لكنّه لم يُحسَّن مقابل المقاييس العربية بالطريقة التي حُسِّن بها فالكون العربي أو كوين 3.6. أداؤه العربي مفهوم وعملي، غير أنّه يتأخّر عن كوين 3.6 بعدّة نقاط على المتوسط في ALUE وArabicMMLU وAraBench، وأكثر في تمييز اللهجات.

كم مرّة ينبغي للجهة العمانية أن تعيد تشغيل مجموعة التقييم العربية؟

الكادنس المناسب في 2026 ربعي. مشهد النماذج يتحرّك بسرعة: شُحن كوين 3.6 ولاما 4 وجيمّا 4 خلال نحو ستّة أشهر، ولا يزال فالكون العربي وفالكون-H1 العربي يصدران تحديثات. أعد تشغيل ALUE وArabicMMLU وAraBench وHELM Arabic واختبار لهجة المراسلات العمانية الرسمية عند كلّ ترقية للمحوّلات وعلى الأقلّ مرّة كلّ ربع، وثبّت أدوات التقييم لتظلّ المقارنات الفصلية صالحة.

هل يمكن نشر أكثر من نموذج من هذه النماذج داخل الجهاز نفسه؟

نعم. النماذج الثلاثة تُتاح بأوزان مفتوحة وفق شروط متوافقة مع الشراء السيادي. تشغّل أجهزة حصن عادةً كوين 3.6 وجيمّا 4 جنبًا إلى جنب على العتاد ذاته، وتضيف فالكون العربي أو لاما 4 عند الطلب. يبقى موجّه النماذج داخل محيط الجهة ويختار حسب المهمّة: الوثائق الطويلة إلى جيمّا 4، الحوار العربي والتشغيل الوكيلي إلى كوين 3.6، النصوص الكلاسيكية أو المغاربية إلى فالكون العربي. النشر والأوزان وقرارات التوجيه كلّها داخل الحصن.

مقارنة جيمّا 4 ولاما 4 وكوين 3.6 على مقاييس اللغة العربية، مدوّنة حصن

ثلاث عائلات مفتوحة الأوزان تتصدّر القائمة القصيرة للجهات السيادية في 2026 لدعم العربية: Gemma 4 من جوجل ديب مايند، وLlama 4 من ميتا، وQwen 3.6 من علي بابا كلاود. الثلاث تُتاح بمتغيّرات تعليمية متعدّدة اللغات، وتدّعي جميعها كفاءة في العربية، ويمكن نشر الثلاث على عتاد تملكه الجهة العمانية. السؤال الإجرائي أضيق: عندما يلتقي عبء عمل عربي أوّلًا بمنظومة تقييم منشورة، أيّ عائلة تكسب، وأين، وبأيّ فارق. تُقطّر هذه المقالة ما تقوله المقاييس العامّة في مايو 2026، وما يعنيه ذلك للجهات الباحثة عن قاعدة Gemma 4 256K context إلى جانب نماذج مفتوحة أخرى.

المتنافسون الثلاثة في 2026

كلّ عائلة رهان مختلف على المعضلة العربية، وهذه الفروقات تسبق أيّ تشغيل للمقاييس.

Gemma 4 من جوجل ديب مايند يصدر بأربعة أحجام (E2B وE4B و26B-A4B و31B)، ومتعدّد الوسائط (نصّ وصورة، وصوت في المتغيّرات الصغيرة)، ومُدرَّب مسبقًا على أكثر من 140 لغة بدعم جاهز لأكثر من 35 لغة. نافذة السياق 256 ألف رمز هي الميزة الحاسمة. العربية مدعومة لكنّها ليست هدف التحسين.
Llama 4 من ميتا يصدر بإصدارَيْ Scout (17B نشطة، 16 خبيرًا) وMaverick (17B نشطة، 128 خبيرًا)، وكلاهما خليط خبراء متعدّد الوسائط أصلًا. ميتا تذكر 12 لغة مدعومة من بينها العربية. تظهر متغيّرات التعليمات في النطاق الأعلى من HELM Arabic ضمن الأوزان المفتوحة، ويتفوّق Maverick على Scout.
Qwen 3.6 من علي بابا كلاود يمتدّ على Plus وFlash وMax-Preview و35B-A3B خليط الخبراء و27B الكثيف. يذكر دعم 201 لغة ولهجة باهتمام صريح بالنصوص ذات الكتابة من اليمين إلى اليسار وباللهجات العربية. النموذج الكثيف 27B هو الافتراضي العملي للنشر داخل جهة واحدة، ومتغيّر Plus هو خيار الإنتاجية.

لا أحد من هذه النماذج عربي أوّلًا. فالكون العربي وفالكون-H1 العربي من TII ما زالا يتصدّران لوحات الصدارة العربية المتخصّصة. السؤال الذي تجيب عنه هذه المقالة هو: أيّ هذه النماذج الثلاثة متعدّدة اللغات تختاره الجهة عندما يجب أن يقوم أحدها بالعمل العربي اليومي إلى جانب الإنجليزية والبرمجة واستدعاء الأدوات.

منهجية التقييم العربي

تستقرّ ملفّات المشتريات السيادية في 2026 على أربع منظومات منشورة للعربية، إضافة إلى اختبار محلّي.

ALUE، تقييم فهم اللغة العربية على غرار GLUE: الاستدلال الطبيعي، التشابه الدلالي، المشاعر، تمييز اللهجة، رصد اللغة المسيئة. مرجع قوي للصحّة اليومية بالعربية الفصحى.
ArabicMMLU، النظير العربي لـMMLU، يضمّ 14,575 سؤالًا عربيًا أصيلًا متعدّد الخيارات عبر 40 موضوعًا مأخوذة من امتحانات مدرسية في ثماني دول عربية، بنسبة تحقّق تقارب 96 بالمئة. الاختبار المناسب للمعرفة المؤسّسية.
AraBench، منظومة الترجمة الآلية العربية الطويلة العهد من QCRI، تغطّي العربية الفصحى واللهجات عبر أنماط متعدّدة. أهمّ ما تقيسه يخصّ تلخيص المراسلات الأجنبية الواردة وترجمتها داخل المحيط.
HELM Arabic، المنظومة الشاملة من ستانفورد CRFM. أعلى المتصدّرين الحاليّين بين الأوزان المفتوحة هو Qwen3 235B A22B Instruct 2507 FP8 بمتوسّط 0.786، مع وجود Llama 4 Maverick (17Bx128E) Instruct FP8 ضمن العشرة الأوائل وفق إعلان HELM Arabic من ستانفورد CRFM. متغيّرات Qwen 3.6 ترث هذا الخطّ وتُوسّعه.
اختبار العربية الرسمية العمانية، منظومة محلّية من المراسلات الوزارية وصياغات الديوان الملكي وأسلوب المذكّرات الحوكمية والدردشة الخليجية المختلطة بالإنجليزية. هذا هو الاختبار الذي يحسم الشراء، لا أيّ رقم منشور.

شغّل المنظومات الخمس على كلّ مرشَّح. ثبّت أدوات التقييم لتظلّ إعادات التشغيل الفصلية صالحة كلّما هبطت متغيّرات نماذج جديدة.

أين يربح كلّ نموذج وأين يخسر

تعكس الصورة التوجيهية أدناه نتائج منشورة وتقييمات حصن الداخلية على مطالبات بالعربية الرسمية العمانية. تعامل مع الأرقام كمؤشّرات؛ التباين بين عمليات التشغيل حقيقي.

المنظومة	Qwen 3.6 (Plus / 27B)	Llama 4 Maverick	Gemma 4 (31B / 26B-A4B)
متوسّط ALUE	قوي، 80% فما فوق على الأغلب	منافس، منتصف 70	منتصف 70، أضعف في تمييز اللهجة
ArabicMMLU	أعلى الـ60 إلى منتصف الـ70 على Plus	منتصف الـ60	أدنى إلى منتصف الـ60
AraBench فصحى	الأعلى ضمن المتعدّدة المفتوحة	منافس	متأخّر على chrF
HELM Arabic	في النطاق الأعلى (يرث خطّ Qwen3)	ضمن العشرة الأوائل المفتوحة	لم يُصنَّف بعد
اللهجة الخليجية	الأفضل بين الثلاثة	عملي	عملي مع تراجع أحيانًا للفصحى
اللهجة المغاربية	ضعيف، وجّهها لفالكون العربي	ضعيف	ضعيف
السياق الطويل (256K+)	حتى مليون رمز عبر YaRN، الجودة متفاوتة	10M على Scout، 1M على Maverick، الحدود العملية أقلّ	256K أصلًا، أقوى جودة عملية على المدى الطويل
استدعاء الأدوات والوكيل	الأفضل على البرمجة والوكيل	قوي	منافس

الخلاصة: يربح Qwen 3.6 مصفوفة الشراء العربية النموذجية. يبقى Llama 4 Maverick بديلًا معتبَرًا حين تفضّل الجهة شروط ميتا أو حين تشغّل بنيتها التحتية على لاما أصلًا. ويربح Gemma 4 حين يكون السياق الطويل أو النشر على الجهاز هو الحدّ، وهو الثانوي المناسب في رفّ متعدّد النماذج.

توصية عملية بحسب حالة الاستخدام

مساعد وزاري للمراسلات العربية والبحث الإنجليزي: Qwen 3.6 27B افتراضيًا، وفالكون العربي ثانويًا للمغاربية أو العربية الكلاسيكية.
تلخيص ملفّات المشتريات أو قراءة قواعد الشيفرة كاملة: Gemma 4 31B أساسًا للسياق الطويل، وQwen 3.6 ثانويًا لكلّ ما عدا ذلك.
الجهات التي تشغّل بنية لاما أصلًا: Llama 4 Maverick FP8 مع vLLM أساسًا، وQwen 3.6 احتياطيًا للمهامّ العربية الكثيفة.
المساعدات السيادية على الحافّة أو على الجهاز: Gemma 4 E4B و26B-A4B للحواسيب المحمولة ومحطّات العمل الصغيرة حيث يصبح Qwen 3.6 27B أثقل من اللزوم.
رفّ متعدّد النماذج: شغّل Qwen 3.6 وGemma 4 جنبًا إلى جنب، وأضف Llama 4 Maverick أو فالكون العربي عند الطلب، ووجِّه حسب المهمّة من داخل مستوى التحكّم الخاصّ بالجهة.

الدورة السريعة وكادنس إعادة التقييم

دورة 2026 سريعة بصورة مزعجة. هبط Qwen 3.6 27B الكثيف في أواخر أبريل، ولا يزال Llama 4 Maverick يتلقّى مراجعات تعليمية، وتتطوّر أحجام Gemma 4 عبر E2B وE4B و26B-A4B و31B. درجة كانت حاسمة في مارس قد تصبح مجرّد منافسة في يوليو. الانضباط الصحيح للجهة السيادية أن تثبّت أدوات التقييم لا النموذج: ALUE وArabicMMLU وAraBench وHELM Arabic واختبار العربية الرسمية العمانية، تُشغَّل ربعيًا وعند كلّ ترقية لمحوّل، ثمّ يُحسم سؤال النموذج على هذا التشغيل لا على تشغيل الربع الماضي.

للحجز، راسلنا على [email protected] أو واتساب +968 9889 9100 لجلسة إحاطة لساعة واحدة مفصّلة على تزامن المستخدمين ومزيج اللهجات وقيود الشراء. الأسعار بحسب الطلب. نأتي إليكم.

المتنافسون الثلاثة في 2026

منهجية التقييم العربي

أين يربح كلّ نموذج وأين يخسر

توصية عملية بحسب حالة الاستخدام

الدورة السريعة وكادنس إعادة التقييم

أسئلة شائعة

مقالات ذات صلة

تعمّق في نافذة سياق Gemma 4 البالغة 256 ألف رمز

كوين 3.6 للعربية: المقاييس والنشر

منظومات تقييم العربية: AraBench وALUE وArabicMMLU