أيّ منظومة تقييم ينبغي أن يُولِيها المشتري السيادي الأولوية؟

لا تكفي منظومة واحدة. عرب بنش يقيس الترجمة الآلية من اللهجات العربية إلى الإنجليزية، وآلو يغطي ثماني مهامّ في فهم اللغة العربية بروح مماثلة لمعيار GLUE، وعربي إم إم إل يو يقيس المعرفة متعدّدة المواد عبر أربعين موضوعًا من المناهج المدرسية. التقييم القابل للدفاع يجمع المنظومات الثلاث، ويضيف إليها مجموعة اختبار خاصّة مكتوبة بالسجل العُماني المؤسسي.

هل تتوفّر منظومات عرب بنش وآلو وعربي إم إم إل يو في إطار LM Evaluation Harness؟

تتوفّر مهامّ عربي إم إم إل يو وعدد من مهامّ لوحة الصدارة العربية كملفات إعداد جاهزة في إطار EleutherAI LM Evaluation Harness. أمّا عرب بنش فدمجه أقلّ توحيدًا ويُشغَّل غالبًا عبر سكربتات QCRI الأصلية أو خط أنابيب LAraBench. ومنظومة آلو تُدار من فريق لوحة الصدارة الخاصّ بها وتعتمد على مجموعة اختبار محجوبة.

لماذا يُعدّ تقييم العربية أصعب من تقييم الإنجليزية؟

تحمل العربية طيفًا من السجلّات يمتدّ من الفصحى إلى عشرات اللهجات، وصرفًا غنيًّا يؤثّر على التقطيع، وحركاتٍ اختياريةً تغيّر المعنى، وتبادلًا متكرّرًا للرموز مع الإنجليزية في النصوص المؤسسية، وضوضاء تعرّف ضوئي في الأرشيفات. لا يستطيع معيار واحد التقاط ذلك كلّه، لذا يجمع المشتري السيادي بين منظومة ترجمة ومنظومة فهم ومنظومة معرفة واختبار سجلٍّ خاصّ بالمؤسسة.

منظومات تقييم اللغة العربية: عرب بنش ومجموعة آلو ومقياس إم إم إل يو العربي، مدوّنة حصن

Q: ما النتيجة التي تُعدّ قويّة على عربي إم إم إل يو؟

في إصدار 2024 الأصلي، فشلت نماذج مثل BLOOMZ وmT0 وLLaMA 2 وFalcon في تجاوز خمسين بالمئة، فيما بلغ أفضل نموذج عربي التوجّه 62.3 بالمئة. ومع منتصف 2026 صارت أقوى النماذج العربية مفتوحة الأوزان (فالكون العربي وكوين 3.6 وعائلة جايس الكبيرة) تتراوح في النطاق من أواخر الستينيات إلى أوائل السبعينيات بالمئة. ما دون الخامسة والخمسين بالمئة يستوجب التشكيك في صلاحية النموذج للأعمال العربية المؤسسية.

حين تسأل جهةٌ سيادية في مسقط: «هل هذا النموذج جيّد في العربية؟»، فإن الإجابة الوحيدة القابلة للدفاع تستند إلى ثلاث منظومات تقييم مستقلّة على الأقل، ومجموعة اختبار خاصّة بالسجل المؤسسي. لوحات الصدارة التسويقية ولقطات الدردشة المتداولة ليست أدلّة مشتريات. يشرح هذا الدليل المنظومات الثلاث الأهمّ في 2026، وهي AraBench وALUE وArabic MMLU، وما يقيسه كلٌّ منها فعليًّا، وكيف تُجمع في تقييم مشترٍ يصمد أمام لجنة المشتريات. وللاطّلاع الأشمل على نموذج بعينه راجع تحليلنا الموسّع Qwen 3.6 Arabic NLP.

لماذا يكون اختيار منظومة التقييم في العربية أكثر حسمًا من الإنجليزية

تتمتّع الإنجليزية بسجلٍّ مهيمن واحد، وبيانات تدريب نظيفة وفيرة، وعقودٍ من المعايير العامّة التي تغطّي معظم حالات الاستخدام الإنتاجية. أمّا العربية فتنقصها هذه المزايا كلّها. فقد يُحرز نموذجٌ نتيجةً ممتازة في معيار عربيّ ويفشل بشدّة في آخر، لأن اللغة ذاتها تتشظّى على عدّة محاور لا توجد في الإنجليزية.

طيف السجلّات. الفصحى لغةُ الجهات التنظيمية والمحاكم والمراسلات الوزارية، بينما طيف اللهجات (الخليجية والشامية والمصرية والمغاربية والعراقية) لغةُ المراسلات الجارية ووسائل التواصل ومعظم المحتوى المنطوق. قد يكون النموذج ممتازًا في أحدهما ضعيفًا في الآخر.
الصرف والتقطيع. يُولّد الجذر العربي الواحد عشراتِ الصيغ المُصرَّفة. والمقطّعات المبنيّة في الغالب على بيانات إنجليزية تُجزّئ الكلمات العربية بصورة غير اقتصادية، فترتفع كلفة الاستدلال وتتغيّر نتائج المهامّ التابعة.
الحركات والتنويعات الإملائية. الحركات الاختيارية تغيّر المعنى، وموضع الهمزة يختلف، فيكون رسمٌ واحد لكلمتين مختلفتين.
تبادل الرموز مع الإنجليزية. النصوص المؤسسية العُمانية تُضمّن بصورة معتادة اختصاراتٍ إنجليزية مثل PDPL وNCSI وMTCIT داخل جمل عربية، وبعض النماذج يُكسر اتجاه النصّ أو يفقد السياق عند نقطة التبادل.
ضوضاء التعرّف الضوئي. الأرشيف المؤسسي الفعلي رسائلُ ممسوحة ومذكّراتٌ مُرسلة بالفاكس، وينبغي أن تعكس مجموعةُ التقييم ذلك، لا نصوص ويكيبيديا النظيفة وحدها.

لا تُغطّي منظومةٌ واحدة هذه المحاور الخمسة كلّها، ولذلك لا يكون السؤال الصحيح في المشتريات: «ما درجة النموذج؟»، بل: «ما الدرجة، على أيّ منظومة، وأيّ بُعد أجهدته كلٌّ منها؟».

عرب بنش بالتفصيل

تُعدّ منظومة AraBench الصادرة عن معهد قطر لبحوث الحوسبة (QCRI) منظومةَ تقييمٍ للترجمة الآلية من اللهجات العربية إلى الإنجليزية، نُشرت في مؤتمر COLING 2020 بأقلام سجّاد وعبد العالي ودرّاني ودلوي. وهي المنظومة الأنسب حين يريد المشتري معرفة ما إذا كان النموذج قادرًا على ترجمة نصٍّ عربيٍّ حقيقي، لا فصحى مثاليّة، إلى إنجليزية نظيفة لأغراض المراجعة أو التلخيص التحليلي اللاحق.

ما يجعل عرب بنش مفيدةً هو بنيتها. فهي تجمع موارد الترجمة الموجودة مع مجموعات اختبار جديدة بُنيت خصّيصًا، ثم تُنظّمها في أربع مجموعات لهجية عريضة، وخمس عشرة لهجةً تفصيلية، وخمس وعشرين فئةً على مستوى المدن، عبر أنواع تشمل الإعلام والدردشة والدين والسفر. والنموذج الذي يُحرز نتيجةً عاليةً على لهجة القاهرة قد لا يكون كذلك على مسقط أو الدوحة، وتُجبر المنظومة على إظهار هذا الفرق.

للمشتري السيادي العُماني، الأرقامُ الأهمّ هي درجات المجموعة الخليجية ودرجات مدينتَي مسقط والدوحة، إضافةً إلى نوع الدردشة (الأقرب إلى مراسلات العملاء الفعلية) ونوع الإعلام (الأقرب إلى نصوص الأخبار والسياسات). ونموذجٌ يعرض رقمًا مرتفعًا واحدًا متوسَّطًا فوق الفئات الخمس والعشرين كلّها يخفي أداءً ضعيفًا في الفئات القليلة المهمّة عمليًّا. لذا اطلب دائمًا التفصيل بحسب اللهجة. وتستضيف صفحةُ QCRI AraBench مجموعةَ البيانات والسكربتات المرجعية، فيما يُوسّع عملُ الفريق ذاته في LAraBench المنهجيّةَ لتشمل النماذج اللغوية الكبيرة.

منظومة آلو بالتفصيل

منظومة ALUE، أي تقييم فهم اللغة العربية، هي النظير العربي لمعيار GLUE الذي شكّل أبحاث فهم الإنجليزية. نُشرت في ورشة WANLP 2021، وتجمع ثماني مهامّ تغطّي الاستدلال اللغوي العربي، والمشاعر، وتحديد اللهجة، وكشف التهكّم، وكشف خطاب الكراهية، وتصنيف الانفعالات، والتشابه الدلالي، إضافةً إلى مهمّة تشخيصية تختبر ظواهر لغوية محدّدة.

قراران تصميميان يجعلان آلو أكثر مصداقية من تقييمات الفهم العربية الارتجالية. الأول أن خمسًا من مجموعات الاختبار الثماني يحتفظ بها فريق لوحة الصدارة بصورة خاصّة، فيتعذّر ضبط النموذج خفيةً على بيانات الاختبار. والثاني أن المجموعة التشخيصية تعزل قدرات بعينها مثل النفي والاستلزام المعجمي والتكميم، فيرى المشتري ما إذا كانت النتيجة الإجمالية متوسّطًا حقيقيًّا أم تمويهًا لمهارة قويّة فوق مهاراتٍ ضعيفة.

في المشتريات السيادية، آلو هي المنظومة التي تُجيب عن سؤال: «هل يفهم النموذج العربية بدرجة تكفي لتصنيف شكوى واردة، والحكم على مشاعر مشاورة عامّة، وكشف خطاب الكراهية في قناةٍ تُراقبها جهة تنظيمية؟». وهي أقلّ ملاءمة لأسئلة جودة التوليد (استخدم عرب بنش أو المراجعة البشرية لتلك)، وأقلّ ملاءمة للمعرفة الحقيقية (استخدم إم إم إل يو العربي). آلو تُجيب عن الفهم لا أكثر.

إم إم إل يو العربي بالتفصيل

منظومة ArabicMMLU التي نُشرت في ACL 2024 Findings بأقلام كوتو ولي وشتناوي ومتعاونيهم في MBZUAI وشركائها، هي أوّل معيار معرفة متعدّدة المواد للعربية. مصدرها امتحاناتٌ مدرسية حقيقية من شمال إفريقيا والشام والخليج، وتضمّ أربعين مهمّةً موضوعية و14,575 سؤالًا متعدّد الخيارات، كلّها بالفصحى، وكلّها مُحرَّرة ومُراجَعة من ناطقين أصليين في المنطقة.

هذه هي المنظومة التي تُخبر لجنةَ المشتريات بما إذا كان النموذج يَعرفُ فعلًا محتوى المنهج العربي بمستوى الناطق المتعلّم، لا مجرّد إنتاج نصٍّ يبدو طلِقًا. الخلاصة الأصلية في الورقة كانت قاسية: BLOOMZ وmT0 وLLaMA 2 وFalcon فشلت كلّها في تجاوز الخمسين بالمئة، وبلغ أفضل نموذجٍ عربي التوجّه 62.3 بالمئة. صورة 2026 أفضل لكنّها ليست محسومة. أقوى النماذج العربية مفتوحة الأوزان (فالكون العربي وكوين 3.6 وعائلة جايس الكبيرة) تستقرّ بين أواخر الستينيات وأوائل السبعينيات بالمئة. النماذج الحدّية المغلقة تُسجّل أعلى، لكنّ فجوة المفتوح هي الفجوة التي تهمّ المشتري، لأنّ المغلقَ لا يُنشر داخل المحيط السيادي. تستضيف GitHub المنظومةَ، وتُدمج كملفّ إعداد جاهز في إطار EleutherAI LM Evaluation Harness، ما يجعل إعادة إنتاج النتائج مباشرةً.

كيف تُجمع لتقييم مشترٍ سيادي

التقييم العُماني السيادي القابل للدفاع لا يختار واحدةً من الثلاث، بل يُشغّل المنظومات الثلاث على النموذج المرشّح، ويضيف إليها مجموعةَ اختبار رابعة خاصّة بالمؤسسة مكتوبةً بسجلٍّ عُماني، ويعرض المصفوفة كاملةً.

شغِّل عرب بنش على المجموعة الخليجية العريضة، وعلى تقسيمَي مسقط والدوحة، وعلى نوعَي الدردشة والإعلام. اعرض مقاييس BLEU وchrF لكلّ لهجة، لا متوسّطًا عامًّا.
شغِّل آلو من طرفها إلى طرفها، واعرض الدرجات الثماني مع تفصيل الجزء التشخيصي، وأشِر إلى أيّ مهمّة تنهار فيها النتيجة دون 60 بالمئة.
شغِّل إم إم إل يو العربي عبر إطار LM Evaluation Harness، واعرض النتائج بحسب مجموعة المواد (إنسانيات، علوم، اجتماعيات، لغة) كي لا يحجب المتوسّطُ القويّ موضوعًا ضعيفًا.
شغِّل اختبارًا خاصًّا من 200 بند مأخوذٍ من مراسلات المؤسسة وملفّات تنظيمية وردود عملاء، وهو الاختبار الذي يلتقط انحراف السجلّ الذي لا تكشفه أيّ منظومة عامّة.

اجمع الأربع في تقريرٍ نموذجي من صفحة واحدة، وستكون لدى لجنة المشتريات وثيقةٌ تستطيع الدفاع عنها. لوحاتُ الصدارة المختزلة برقمٍ واحد وعروض البائعين لا تصمد أمام هذا المستوى من التدقيق، ولا ينبغي أن تصمد.

للحجز المباشر، راسلونا على [email protected] لجلسةٍ مدّتها ساعة حول إجراء مصفوفة التقييم العربية الرباعية على أيّ نموذج مفتوح الأوزان مرشّحٍ للتشغيل على جهازٍ سيادي، مع سكربتات قابلة لإعادة الإنتاج ومجموعة اختبار سجلٍّ عُمانية معتَّمة.

لماذا يكون اختيار منظومة التقييم في العربية أكثر حسمًا من الإنجليزية

عرب بنش بالتفصيل

منظومة آلو بالتفصيل

إم إم إل يو العربي بالتفصيل

كيف تُجمع لتقييم مشترٍ سيادي

أسئلة شائعة

مقالات ذات صلة

معايير اللغة العربية لنموذج كوين 3.6

منهجية تقييم النماذج متعدّدة اللغات

أُطر تقييم النماذج اللغوية: راجاس وديب إيفال