منهجية تقييم النماذج متعدّدة اللغات في البيئات السيادية

لا تشتري لجنةُ مشترياتٍ سياديةٍ في مسقط نموذجًا متعدّد اللغات استنادًا إلى شريحةٍ من لوحة صدارةٍ في عرضٍ بائع. تشتري استنادًا إلى منهجيّةٍ تصمد أمام أسئلة الجهات التنظيمية، والمراجعة الداخلية، وتبديل النموذج بعد ستّة أشهر. يضع هذا الدليل المنهجيّةَ الثلاثية الطبقات التي تستخدمها حصن مع جهاتها السيادية: المعايير العامّة لتحديد الشكل، والتقييم السيادي المُخصّص لاختبار ملاءمة السجل، ومراجعة A/B بأيدي المشغّلين كحقيقة ميدانية. ويتكامل هذا مع مقالنا الركيزة معايير اللغة العربية لنموذج كوين 3.6 الذي يُطبّق المنهجيّةَ على عائلة نموذج بعينها.

لماذا تُضلِّل المعايير الإنجليزية العامّة في الأداء متعدّد اللغات

المعيار الذي يُسوَّق عادةً للنموذج الحدّيّ مكتوبٌ بالإنجليزية. MMLU، معيار المهامّ السبع والخمسين متعدّدة المواد، صيغ بالإنجليزية وما زال الاستشهاد الافتراضي في عروض البائعين. وله ترجماتٌ متعدّدة اللغات لكنّها متفاوتة، وارتفاع MMLU الإنجليزية لا يتنبّأ بارتفاع Arabic MMLU. أظهرت ورقة ArabicMMLU سنة 2024 أنّ نماذج مفتوحة سجّلت نتائج جيّدة في MMLU الإنجليزية ظلّت تعجز عن تجاوز خمسين بالمئة في امتحان عربي متعدّد الخيارات، بفجوة تتجاوز خمسًا وعشرين نقطة عند بعض النماذج المفتوحة.

ينطبق النمط ذاته على الترجمة. يُعدّ BLEU، مقياسُ الدقّة المبني على تقاطع المقاطع الذي قدّمه باپينيني وزملاؤه في ACL 2002، سريعًا وقابلًا لإعادة الإنتاج، وأرسى عقدين من بحوث الترجمة الآلية. لكنّه أيضًا وكيلٌ ضعيف عن الحكم البشري على النصوص ذات الحمولة الثقافية: قد ترتفع رسالةٌ عُمانية مهذّبة إلى 38 درجةً على BLEU فيما تنخفض ترجمةٌ آليةٌ متعثّرة إلى 41 لتنقلب الأمور في المراجعة البشرية، لأنّ BLEU يكافئ تقاطع السطح لا ملاءمة السجل والمعنى التداولي. ووسّع FLORES-200 الصادر عن ميتا التغطيةَ إلى مئتي لغة وأتاح خطوطًا أساسية صالحة للعربية الخليجية، لكنّ القصّة المنهجيّة لا تتغيّر: المعيار يُجيب عن سؤال ضيّق، وتراكُمه فوق مقطّعٍ مدرَّبٍ على الإنجليزية يُشوّه نتائج اللغات الأخرى نظاميًّا ما لم يُقترن باختبار محلّي.

الخلاصة للمشتري السيادي قصيرة. عامِل أيّ معيار منفرد بوصفه إشارةً ضمن إشارات. السلاسل الإنجليزية العامّة تُخبرك بقدرة النموذج مبدئيًّا، ولا تُخبرك بصلاحيّته لمؤسسةٍ بعينها تكتب بسجلٍّ عربيٍّ بعينه، بأنماط تبادل رمزيّ بعينها، وأنواع وثائق بعينها.

التقييم الثلاثي الطبقات

تتألّف منهجيّة حصن المرجعية من ثلاث طبقات تُشغَّل بهذا الترتيب، كلّ طبقةٍ تُغطّي إخفاقات الطبقة التي قبلها.

  1. الطبقة الأولى، المعايير العامّة. شغِّل النموذج المرشّح على MMLU وArabicMMLU وFLORES-200 (في الاتجاهين العربي-الإنجليزي) وAraBench وALUE، وعلى منظومة استدلال برمجي إن كانت المؤسسة تستخدم البرمجة. استعن بإطار EleutherAI LM Evaluation Harness لتظلّ التشغيلات قابلة لإعادة الإنتاج. الناتج هنا ملمحٌ لا درجة: أين يقوى النموذج، وأين يضعف، وأيّ مجموعات مواد تنهار دون 60 بالمئة.
  2. الطبقة الثانية، التقييم السيادي المُخصّص. شغِّل مجموعةً خاصّة من 40 إلى 60 موجِّهًا مأخوذةً من مراسلات المؤسسة الفعلية وملفّاتها التنظيمية ومذكّراتها الداخلية ودردشات عملائها. قيِّم كلّ ناتج على معيار مكتوب يشمل الدقّة والسجل والتنسيق ومعالجة التبادل الرمزي وصحّة الرفض. هذه الطبقة تلتقط انحراف السجل الذي لا تكشفه أيّ منظومة عامّة.
  3. الطبقة الثالثة، مراجعة A/B للمشغّلين. يُقيّم مشغّلو المؤسسة الفعليون (ضابطٌ كبير، ومترجمٌ، ومسؤولُ شكاوى) أزواج النواتج من نموذجين مرشّحين على المجموعة ذاتها بأسلوب مغفَّل، باستخدام مقياس ليكِرت من خمس درجات لكلّ بُعد، ويُعرض المتوسّط مع مقياس اتفاق المراجعين. هذه هي الطبقة التي ستُدافِع عنها لجنةُ المشتريات أمام مراجِع.

أسلوبُ «النموذج قاضيًا» ينتمي إلى الطبقة الثانية لا الثالثة. أظهرت ورقة MT-Bench / Chatbot Arena الأصلية لتشينغ وزملائه أن القُضاة الأقوياء يتّفقون مع البشر بنحو ثمانين بالمئة في تقييم دردشة إنجليزية. هذا يكفي للفرز التمهيدي ولاختبار ضغط المعايير، لكنّه لا يكفي وحيدًا أمام لجنة مشتريات سيادية، لا سيّما في العربية حيث وُثّق تحيّز النماذج القاضية مرارًا. ابقِ القرار النهائي مرتكزًا في المراجعة البشرية للمشغّلين.

بناء مجموعة تقييمٍ سيادية: 40 إلى 60 موجِّهًا مؤسسيًّا

هنا تستحقّ المنهجيّة كُلفتها. يخضع البناء لخمس قواعد.

  • المصدر من العمل الفعلي. اسحب عيّنات معتَّمة من رسائل واردة من جهاتٍ تنظيمية، ومذكّرات داخلية، وشكاوى مواطنين، ونصوصٍ ممسوحة من الأرشيف، وردودٍ على مشاورات عامّة. لا تكتب موجِّهات اصطناعية، فهي تبدو دائمًا أنظف من الواقع.
  • غطِّ مصفوفة السجلّات. أدرج مراسلات بفصحى رسمية، ودردشات بفصحى-خليجية مختلطة، ونصوصًا أرشيفية فيها ضوضاء تعرّف ضوئي، ومذكّرات بتبادل رمزي إنجليزي-عربي، وخمسة موجِّهات على الأقلّ تختبر الرفض (مهامّ ينبغي أن يرفضها النموذج).
  • اكتب المعيار قبل توليد النواتج. خمسة أبعاد، صفر إلى أربعة لكلٍّ منها: الدقّة الواقعية، السجل والنبرة، التنسيق والتخطيط الثنائي اللغة، معالجة التبادل الرمزي والاختصارات، صحّة الرفض. النجاح ست عشرة من عشرين.
  • أبقِ المجموعة بعيدةً عن سطح تدريب النموذج. لا تُلصق الموجِّهات في دردشة مستضافة لأغراض «الفحص السريع»؛ سيراها البائع المستضيف وقد يُدرّب عليها. شغِّل فقط على المرشّح المنشور داخل المؤسسة.
  • اعتم مراجعة المشغّلين. يرى المشغّلون ناتجين موسومَين بـA وB بلا أيّ مُعرِّف للنموذج، ولا تُكشف الهوية إلّا بعد إغلاق التسجيل.

الأربعون موجِّهًا تلتقط معظم الفروق المهمّة في المشتريات بين مرشّحَين قويّين، والستّون تبدأ بإظهار قضايا الذيل الجودي. ما بعد الستّين يهبط العائد المعلوماتي بحدّة وتصبح كُلفة المراجعة البشرية القيد الفاعل. جدِّد قرابة عشرين بالمئة من الموجِّهات كلّ ربع لتتبع تدفّقات العمل الجديدة في المؤسسة.

وتيرة إعادة التقييم في زمن النماذج الشهرية

تشحن نماذج الأوزان المفتوحة الحدّية حاليًّا بمعدّل شهريّ تقريبًا. أصدرت Gemma وQwen وLlama وFalcon وDeepSeek عدّة مراجعات صغرى في الربعَين الأخيرَين. وأيّ قرار مشتريات مبنيّ على تقييم 2025 الفردي يصير بنيويًّا قديمًا في منتصف 2026.

الوتيرة الموصى بها من حصن ثلاثية. تُعاد الطبقة الأولى تلقائيًّا على كلّ مراجعة مرشّحة (رخيصة، قابلة للأتمتة، لا عبء على المشغّلين). تُعاد الطبقة الثانية كلّما دخل مرشّح إلى القائمة القصيرة أو فصليًّا، أيّهما أسبق. وتُجرى الطبقة الثالثة فقط عند لحظة قرار مشتريات، أو تبديل نموذج، أو تقرير انحدار سلوكي مهمّ من الإنتاج. وسِم كلّ تقرير برقم تجزئة النموذج، وإصدار الأوزان، ومستوى التكميم، وإصدار الإطار، حتى تستطيع المراجعة المستقبلية إعادة إنتاجه بدقّة.

للحجز المباشر، راسلونا على [email protected] لجلسةٍ مدّتها ساعة حول إقامة هذه المنهجيّة الثلاثية في مؤسستكم، مع نموذج معيار جاهز، ومجموعة موجِّهاتٍ مُخصّصة للبدء، وسكربتات الإطار مُثبَّتة على إصدارات النموذج التي تُقيِّمونها.

أسئلة شائعة

لماذا تُضلِّل المعايير الإنجليزية العامّة في الأداء متعدّد اللغات؟

MMLU وHellaSwag وARC ونظائرها مكتوبة بالإنجليزية في الغالب الأعمّ، والارتباط بين النتائج الإنجليزية القوية والأداء بالعربية أو الأردية أو السواحلية ضعيف بسبب فروق التقطيع وخلطة بيانات التدريب وضبط التعليمات. قد يُسجّل النموذج ثمانية وسبعين بالمئة على MMLU ويظلّ يُسيء توجيه مراسلات عُمانية مهذّبة. لذلك يُجمع الرقم العامّ مع متغيّرات MMLU متعدّدة اللغات والمنظومات الخاصّة بكلّ سجلٍّ ومنطقة.

ما الحجم المناسب لمجموعة التقييم السيادية المُخصّصة؟

للمؤسسة الواحدة، تتراوح المنطقة العملية المناسبة بين أربعين وستّين موجِّهًا. ما دون ذلك مُشوَّش بين إصدارات النماذج، وما فوقه مكلفٌ في الصيانة ويُنهك وقت المراجعين. وينبغي أن تغطّي المجموعة سجلّات المؤسسة الفعلية: المراسلات الوزارية، والملفّات التنظيمية، وشكاوى المواطنين، والمذكّرات الداخلية، وأيّ أنماط تبادل رمزي تستخدمها المؤسسة فعلًا.

هل يصلح أسلوب «النموذج قاضيًا» للتقييم السيادي؟

يتّفق النموذج القاضي مع المراجعين البشر بنحو ثمانين بالمئة على تقييم الدردشة الإنجليزية وفق ورقة MT-Bench الأصلية، وهو معدّل يكفي للفرز التمهيدي لا للأدلّة المعتمَدة في المشتريات. لذلك يُستخدم في الأعمال السيادية كمصفاة أولى، ويبقى الحكم النهائي عبر مراجعة A/B بشرية مغفَّلة بأيدي مشغّلي المؤسسة. ويُعاير القاضي على عيّنة بشرية صغيرة قبل الوثوق به على مقياس واسع.

كم مرّة ينبغي إعادة التقييم؟

أعِد المنهجية الثلاثية كلّما أصدر النموذج المرشّح إصدارًا جديدًا صغيرًا أو كبيرًا، أو أضافت المؤسسة سجلًّا أو حالة استخدام جديدة، وفصليًّا حدًّا أدنى. تتساقط النماذج الحدّية شهريًّا في 2026، وأيّ قرار مشتريات تجاوز التسعين يومًا يصير قديمًا بنيويًّا.