مقارنة النماذج المفتوحة على اللهجة العُمانية
تُروّج معظم الأوزان المفتوحة لـ«دعم العربية» دون أن ترى جملةً عُمانيّةً واحدة. أمّا الجهات في مسقط فسؤالها أضيق وأصعب: أيّ النماذج يكتب رسالةً مهذّبةً من مواطن، ويلخّص محادثة مشتريات خليجية، ويرفض اختلاق مكان اسمه «صلالة هايتس». أجرينا فحصاً صغيراً ومنضبطاً لأربع عائلات مفتوحة تسير في حِزَمنا المرجعية، فجاء الترتيب مغايراً لما توحي به لوحات الصدارة.
1. لماذا تشكّل العربية العُمانية مشكلة تقييمٍ مستقلّة
تميل اختبارات العربية العامّة إلى المحتوى المصري والشامي والمغاربي بحُكم حجم المتن. أمّا الفصحى ذات الطابع العُماني الرسمي، أيّ السجلّ الذي يوقّع به وكيل الوزارة فعلاً، فهي أقرب إلى المعايير النجدية والخليجية منها إلى القاهرية أو البيروتية. قد يحقّق نموذج 78 درجة على ArabicMMLU، ثم يكتب «الحين» مكان «الآن»، أو يخاطب الزبون الذكر بأسلوب قاهري لا يُشبه أسلوب موظّف مصرف عُماني.
تظهر ثلاث مزالق متكرّرة حين يثق الفريق ثقةً عمياء بالدرجات العامّة:
- تسرّب المعجم. تتسلّل كلمات «طب، خلاص، يلّا» إلى مخرجات الفصحى فينكسر السجلّ الرسمي.
- انزياح أسماء الأماكن. يفترض النموذج «الرياض» أو «القاهرة» عاصمةً عربيةً افتراضية حتى حين يكتب المستخدم عن مسقط أو صحار.
- اضطراب الألقاب. تنحاز المخرجات إلى صيغ المخاطبة المصرية بدل سلسلة «سعادة، معالي» المعتمدة في المراسلات العُمانية.
لذلك لا يصحّ حسم نشرٍ لجهةٍ تنظيميّةٍ عُمانيّةٍ بالاستناد إلى لوحة صدارةٍ إنجليزيّةٍ واحدة. التقييم الأمين يجري على موجّهاتٍ تُشبه عبء العمل الحقيقي، يصوغها مراجعٌ عُمانيٌّ يلتقط الفرق بين «تفضّلوا» و«تفضّل» من النظرة الأولى، ويُميّز اللحن القاهريّ المفاجئ ولو سَلِمَ التركيب نحويّاً.
ثمّة مشكلةٌ ثانيةٌ ألطف، وهي الفجوة بين العربيّة العُمانيّة المنطوقة، التي يستخدمها المواطن في خطّ المساعدة، والفصحى ذات الطابع العُمانيّ المكتوبة، التي يستعملها المواطن نفسه حين يُراسل وزارةً بالبريد. لا يضمن النموذج الذي يُجيد سجلاً الإجادةَ في الآخر تلقائيّاً، ولكلٍّ من العائلات الأربع نقاط عمى مختلفة على هذا المحور. تجاهل هذا الجانب في قرار الشراء يظهر شكاوى مستخدمين في الشهر الأوّل من التشغيل التجريبيّ.
2. منهجيّة الفحص بـ 30 إلى 50 موجّهاً تمثيليّاً
تستخدم منظومتنا الداخلية 40 موجّهاً موزّعةً على خمس مجموعات. اخترنا العدد صغيراً قصداً، إذ يستطيع فريقٌ سياديٌّ مراجعة كلّ مخرجٍ يدويّاً في عصرٍ واحد، وهو خيارٌ يفوق تجربةً بألف موجّهٍ لا يثق بها أحد.
- رسائل المواطن بالفصحى (10 موجّهات). صياغة شكوى وطلب وشكر لجهةٍ حكومية. التقدير على السجلّ والألقاب وغياب تسرّب اللهجة.
- محادثات أعمال خليجية (8 موجّهات). تلخيص محادثة WhatsApp لمشتريات بين مشترٍ عُماني ومُورّدٍ إماراتي مع تبدّل العملات.
- دعم تقني ثنائي اللغة (8 موجّهات). تذاكر مختلطة عربيّة-إنجليزية تذكر أسماء منتجات مثل Active Directory وVPN، والتقدير على بقاء الأسماء اللاتينية كما هي.
- تنقية إملاء (6 موجّهات). مخرج تعرّفٍ صوتيٍّ مشوّش لاجتماعٍ في مسقط، تُعاد صياغته إلى فصحى نظيفة دون تغيير قصد المتحدّث.
- استخراج كيانات (8 موجّهات). انتزاع الأسماء والأماكن والتواريخ من نصٍّ صحفيٍّ عُمانيّ مع التعرّف الصحيح على «الباطنة» و«ظفار» و«مسندم».
تُقدّر كلّ مخرجة من 0 إلى 3 على الأمانة والسجلّ وملاءمة اللهجة، ثمّ تُحسب المتوسّطات. كُتبت المنظومة استناداً إلى الإطار المنهجي الموضّح في عرضنا لـ ArabicMMLU وAlGhafa وALUE، لكنها تُقلّص اتّساعها لصالح الخصوصيّة العُمانيّة. ونُسند إشارة اللهجة إلى أدبيّات اللهجات في LDC، ومنها معيار Dolphin لتوليد العربية الذي نشر تقسيمات لكلّ لهجةٍ تتجاوز التصنيفات الأربعة المعتادة.
3. مواقع العائلات الأربع على طيف الفصحى-العُمانيّة
للاطّلاع على القصّة الكاملة لنموذج فالكون عربي من معهد الابتكار التقني، انظر المقال المرجعيّ. هنا نُركّز على السلوك النسبيّ أمام الموجّهات العُمانيّة.
- Falcon Arabic. أنظف سجلٍّ خليجيٍّ دون تدريبٍ إضافيّ. الأقوى في رسائل المواطن واستخراج الكيانات. يُعرّب أحياناً أسماء المنتجات اللاتينيّة. متن التدريب موثّقٌ من معهد الابتكار التقني.
- Qwen 3.6. أقرب منافسٍ غير عربيِّ المنشأ. ممتاز في الخلط اللغويّ، قويٌّ في تنقية الإملاء. يحتاج إلى توجيهٍ بسطرٍ واحدٍ لتثبيت السجلّ على الفصحى ذات الطابع العُمانيّ. بطاقة النموذج لدى علي بابا على Hugging Face.
- Llama 4. مُعمَّمٌ متين. الأطلق إنجليزيّاً في تذاكر الدعم، لكنّه ينزلق إلى الصياغة القاهريّة في الرسائل دون توجيهٍ صريح. سلوك استدعاء أدواتٍ قويٌّ لمسارات العمل الوكيلية.
- Gemma 4. الأكثر انضباطاً في تلخيص العربية الطويلة. أدنى نسبة هلوسةٍ على أسماء الأماكن العُمانيّة في مجموعتنا. نثرٌ أكثر صرامةً يُلائم السجلّ الوزاريّ فعلاً.
4. توصيةٌ لكلّ عبء عمل
لا يفوز نموذجٌ واحدٌ بكلّ المجموعات. لذلك ننشر اثنين ونوزّع المهامّ بينهما:
- المراسلات الوزارية الصادرة: Falcon Arabic أساساً، وGemma 4 احتياطاً. كلاهما ينتج السجلّ الرسميّ دون تسرّبٍ عاميّ.
- الدعم الفنّي والمساعدة ثنائيّة اللغة: Qwen 3.6 أساساً، وLlama 4 احتياطاً، لتعاملهما الموثوق مع الأسماء اللاتينيّة وأرقام التذاكر ومقاطع الشيفرة.
- تحليل الوثائق العربية الطويلة (تقارير التدقيق ومحاضر المجالس): Gemma 4، لاتّساع نافذته السياقيّة وانخفاض الهلوسة في أسماء الأماكن.
- محادثة العملاء بالعربيّة العُمانيّة: Falcon Arabic مع مهايئ QLoRA صغيرٍ مدرَّبٍ على أرشيف الجهة. خطّ الأساس بالموجّهات صالحٌ، ويرفع المهايئ السجلّ من 8/10 إلى 9.5/10.
- البحث والاسترجاع على متونٍ مختلطة: Qwen 3.6 لتوليد المتجهات، وGemma 4 لتأليف الإجابة. يُحافظ مُجزّئ Qwen 3.6 الثنائيّ على استرجاعٍ عالٍ حتى حين يكتب المستخدم اختصاراً لاتينيّاً متبوعاً بإيضاحٍ عربيّ.
تتبدّل الأرقام خلف هذه التوصيات من ربعٍ إلى ربع. تظهر نقاط تفتيشٍ جديدة، وتُنشَر صقلات، وتُصلَح تقسيمات اللهجات في المنبع. الثابت هو المنهج: مجموعة موجّهاتٍ صغيرةٍ تمتلكها المؤسّسة، وجدول تقديرٍ يتّفق عليه ثلاثة في الغرفة، والانضباط في إعادة التشغيل بعد كلّ ترقية. هذا هو الجواب الأمين الوحيد عن أيّ الأوزان المفتوحة يخدم العربيّة العُمانيّة بالشكل الأنسب.
إن أراد فريقكم تشغيل هذا الفحص ذي الأربعين موجّهاً على متونكم قبل الشراء، نُشارك المنظومة وجدول التقدير بموجب اتفاقيّة سرّيّة. للتواصل، راسلونا على [email protected] لحجز لقاءٍ مدّته ساعة وعيّنةٍ من تقرير النتائج.
أسئلة شائعة
أيّ النماذج المفتوحة يتعامل مع اللهجة العُمانية بشكل أفضل دون تدريب إضافي؟
يبقى فالكون عربي الأساس الأقوى للسجل الخليجي والعُماني، إذ درّبه معهد الابتكار التقني على متن عربي منتقى يشمل النصوص الخليجية. يأتي كوين 3.6 منافساً قريباً عند توجيهه بسطر واحد لتفضيل العربية الفصحى ذات الطابع العُماني الرسمي.
كم عدد المُوجّهات اللازمة لاختبار النموذج على اللهجة العُمانية؟
تكفي 30 إلى 50 موجّهاً موزّعةً على رسائل المراسلات الرسمية، ومحادثات الأعمال الخليجية، والدعم الفنّي ثنائي اللغة، وتنقية الإملاء، واستخراج الكيانات. تمنح هذه المجموعة إشارة فرز واضحة في يوم واحد، أما الاختبارات الكبرى مثل ArabicMMLU فتجيب عن أسئلة أخرى تخصّ التغطية الأكاديمية لا أمانة اللهجة.
هل يُربك التبديل بين العربية والإنجليزية هذه النماذج؟
يكشف ضعف المُجزّئات اللغوية أوّلاً. يتعامل Llama 4 وQwen 3.6 مع الخلط بسلاسة. يتجاوز Falcon Arabic أحياناً فيُعرّب أسماء المنتجات اللاتينية، وهو ما يضرّ في تحويلات المصارف والمشتريات. أما Gemma 4 فيتعامل مع المقاطع الإنجليزية بثبات لكنه قد يهملها عند التلخيص.
هل نصقل النموذج على متن عُماني أم نكتفي بالموجّهات؟
ابدأ بالموجّهات والأمثلة قليلة العدد لقياس الخطأ المتبقّي، ثم ادخل إلى مهايئ QLoRA صغير على ألفين إلى عشرة آلاف زوج خاصّ بالمؤسسة. تُغلق مكتبة الموجّهات مع الاسترجاع من قاعدة الوثائق الذاتية نحو 80% من فجوة اللهجة دون كلفة الصقل التشغيلية.