اختيار نماذج التضمين لنظم الاسترجاع المعزّز ثنائية اللغة عربي-إنجليزي

معظم المدوّنات المؤسّسيّة في عُمان ثنائيّة اللغة دون أن يخطّط أحد لذلك. ملفّ السياسة بالعربيّة، والمعيار الفنّيّ المرجعيّ الذي يستند إليه بالإنجليزيّة، وسلسلة البريد تتنقّل بين اللغتين داخل الفقرة الواحدة، ومنشور الجهة التنظيميّة يحتفظ بنسختين متجاورتين. أيّ نظام استرجاع معزّز بالتوليد RAG يتعامل مع لغة واحدة فقط لكلّ فهرس يكون قد فشل لحظة سؤال مدير عربيّ عن إجابة مكتوبة في وثيقة إنجليزيّة. الحلّ ليس ترجمة وقت الاستعلام، بل اختيار نموذج تضمين يضع اللغتين في فضاء متجهيّ مشترك وفهرسة المدوّنة كاملة مرّة واحدة. هذا المقال يرافق صورتنا الأشمل في المقال الجامع معايير القياس العربيّة لنموذج Qwen 3.6.

المشكلة في الاسترجاع ثنائيّ اللغة

تهيمن ثلاثة أنماط على الاسترجاع المؤسّسيّ في عُمان. مستخدم يسأل سؤالاً عربيّاً والإجابة تعيش في وثيقة إنجليزيّة (معيار مترجم، تقرير لجهة تنظيميّة خارجيّة، دليل تشغيل من مورد). مستخدم يسأل بالإنجليزيّة والمستند الأهمّ قرار وزاريّ عربيّ أو مذكرة داخليّة. وأخيراً، وثيقة واحدة ثنائيّة اللغة تتداخل فقراتها بين العربيّة والإنجليزيّة، وكلّ قطعة فيها يجب أن تكون قابلة للاسترجاع من أيّ من اللغتين.

الحلّ الساذج، تمرير الاستعلام عبر مترجم ثمّ الاسترجاع باللغة الهدف، يفشل في ثلاث جبهات. يضاعف زمن الذهاب والإياب في كلّ بحث. يُدخل خطأ ترجمة يتراكم مع خطأ الاسترجاع. ويُعطّل أيّ استعلام يتضمّن مصطلحات عُمانيّة تخصّصيّة لم يَرَها المترجم من قبل. الحلّ الصحيح هو تجاوز خطوة الترجمة كاملةً واستخدام نموذج تضمين يضع الوثائق العربيّة والإنجليزيّة في الفضاء المتريّ ذاته، فيُرمَّز التطابق الدلاليّ متعدّد اللغات في تشابه جيب التمام مباشرةً.

المرشّحون من نماذج التضمين

هيمنت أربعة نماذج، مفتوحة الأوزان أو تجاريّة، على نقاش الاسترجاع ثنائيّ اللغة في عام ٢٠٢٦، ولكلّ منها شكل مفاضلة مختلف.

  • BGE-M3 من BAAI هو المرجع المفتوح الحاليّ. مبنيّ على XLM-RoBERTa، وموصوف في ورقة M3-Embedding (تشن وزملاؤه، ٢٠٢٤). يدعم أكثر من 100 لغة، يستوعب حتى 8,192 وحدة لكلّ قطعة، ويوفّر استرجاعاً كثيفاً، ومتعدّد المتجهات، ومتفرّقاً في تمريرة واحدة. على مهمّة MKQA متعدّدة اللغات يسجّل Recall@100 بنسبة 75.5٪، متقدّماً على أقوى المنافسين وعلى نموذج text-embedding-ada-002 من OpenAI. الترخيص Apache 2.0، ويعمل بأريحيّة على بطاقة GPU واحدة من فئة محطة العمل.
  • multilingual-e5-large من Microsoft Research هو البديل الأخفّ. مهيَّأ من XLM-RoBERTa-large، وموصوف في التقرير الفنّيّ لـ multilingual E5. يدعم نفس بيئة المئة لغة لـ XLM-R، يستخدم متّجهاً أصغر بحجم 1,024، ويسجّل nDCG@10 قويّاً على العربيّة في عائلة MIRACL. الحجم الأصغر يُهمّ حين يخدم الجهاز ذاته نموذج توليد ومنظومة OCR على البطاقة نفسها.
  • Nomic Embed v1.5 يقدّم نسخة متعدّدة اللغات بترخيص Apache-2.0 سَهل، ودرجات عربيّة قابلة للاستخدام، لكنّ معاييره المنشورة أضعف على الاسترجاع المتقاطع عربيّ-إنجليزيّ من BGE-M3 في الاختبارات المباشرة على مدوّنات عُمانيّة.
  • Cohere Embed v3 multilingual يبقى خياراً تجاريّاً قويّاً، لكنّ نموذج التسليم عبر واجهة برمجيّة فقط مرفوض في أيّ نشر يلامس مستوى التصنيف. لا يستحقّ النظر إلّا حين تُجاز السحابة صراحةً وتكون المدوّنة في أدنى مستويات الحساسيّة.

للنشر السياديّ داخل المحيط، القائمة العمليّة القصيرة هي BGE-M3 أوّلاً ثمّ multilingual-e5-large بديلاً أخفّ. ما عدا ذلك ثانويّ ما لم يظهر نموذج قطاعيّ مضبوط على Hugging Face بعد كتابة هذا المقال.

تقييم الاسترجاع متعدّد اللغات

المعيار الذي تستشهد به للدفاع عن اختيار النموذج هو MIRACL، تحدّي WSDM 2023 Cup المنشور في تشانغ وزملاؤه، TACL 2023. يغطّي 18 لغة متنوّعة شكلاً ولغويّاً، بينها العربيّة، مع أحكام صلة بشريّة على ويكيبيديا. يسجّل multilingual-e5-large رقم nDCG@10 عربيّاً في حدود 0.85 على امتداده البصريّ، ويُسجّل BGE-M3 أرقاماً مماثلة أو أقوى على الشريحة القياسيّة.

تعامَل مع MIRACL بوصفه مرجعاً، لا حُكماً. الحُكم يأتي من مجموعة تقييمك أنت. اِبنِ 100 إلى 300 استعلام حقيقيّ (نصفها عربيّ ونصفها إنجليزيّ) على شريحة تمثيليّة من مدوّنتك، أحكِم الصلة بلجنة صغيرة من المشغّلين، ثمّ سجّل nDCG@10 وMRR@10 وRecall@50. الأرقام التي تُهمّ في الإنتاج تقع على محور من 0 إلى 1 بعتبتين: nDCG@10 عند 0.5 يعني «صالح للنشر خلف ضمانة»، وعند 0.7 يعني «جيّد فعلاً».

نمط البنية

متى اختير النموذج كتبت البنية نفسها بنفسها. قطّع كلّ وثيقة بحدود دلاليّة (عنوان، فقرة، عنصر قائمة) بحجم 300 إلى 600 وحدة، مع تداخل 10 إلى 20 بالمئة. ضمِّن كلّ قطعة مرّة واحدة بالنموذج المختار، واحفظ المتّجه إلى جانب النصّ الأصليّ والبيانات الوصفيّة في فهرس واحد. عند الاستعلام، ضمِّن سؤال المستخدم بالنموذج ذاته، نفّذ بحث تشابه متجهيّ، ومرّر أعلى k قطعة مع السؤال إلى نموذج التوليد.

ثلاثة تفاصيل تُهمّ. أوّلاً، طبّع المتّجهات قبل الفهرسة كي يتحوّل تشابه جيب التمام إلى ضرب داخليّ سريع. ثانياً، احفظ لغة الوثيقة بياناً وصفيّاً كي يستطيع مُعيد ترتيب لاحق رفع وزن النتائج بنفس اللغة حين يطلب المشغّل ذلك. ثالثاً، شغّل مُعيد ترتيب خفيفاً من نوع cross-encoder على أعلى 50 نتيجة قبل تمريرها إلى نموذج التوليد. تُغلق هذه المرحلة معظم الفجوة الباقية بين الاسترجاع ثنائيّ المُرَمِّز والاسترجاع المثاليّ، بكلفة ميلي ثانية معدودة لكلّ استعلام.

ملاحظة حول النشر داخل المحيط من فئة حصن

في الجهاز السياديّ تعمل المنظومة كاملة محلّيّاً. يُحمَّل نموذج التضمين مرّة عند الإقلاع، تجري الفهرسة على الجهاز ذاته أثناء الاستيعاب، ويعيش مخزن المتجهات (ندعم Qdrant أو pgvector وفق الموقف التشغيليّ القائم لدى الجهة) على نفس الآلة التي تعمل عليها نموذج التوليد. تكفي تهيئة من فئة Tower لمعالجة مدوّنة إدارة واحدة بمئات الآلاف من القطع، مع زمن استرجاع دون 100 ميلي ثانية. تُوسِّع تهيئة من فئة Rack النمط ذاته إلى مدوّنة وزاريّة بملايين القطع.

خط أنابيب الاسترجاع أصل صغير قابل للتدقيق: ملفّ نموذج واحد، فهرس واحد، مسار استعلام واحد. هذا بالضبط نوع المكوّن الذي ينبغي أن يعمل داخل المحيط لا خلف واجهة برمجيّة خارجيّة. التسعير بحسب الطلب، يُحدَّد وفق حجم المدوّنة ومعدّل الاستعلام وبقيّة المنظومة التي تختار الجهة تشغيلها إلى جانب المسترجِع.

إن كانت جهتكم في طور تحجيم نظام استرجاع ثنائيّ اللغة فوق مدوّنة عُمانيّة حسّاسة، وتودّون لقاءً تعريفيّاً لمدّة ساعة حول اختيار النموذج وخطّة التقييم وشكل النشر المناسب لوضعكم تحديداً، فالخطوة التالية بسيطة. راسلونا على [email protected] أو على +968 9889 9100. سنستعرض معاً مزيج مدوّنتكم، ومستويات التصنيف، وخطّة تقييم موثوقة وفق الجدول الزمنيّ الذي تعملون به.

أسئلة شائعة

هل أحتاج إلى فهرسين منفصلين، واحد للعربيّة وآخر للإنجليزيّة؟

لا. يضع نموذج تضمين متعدّد اللغات حديث، مثل BGE-M3 أو multilingual-e5-large، النصّ العربيّ والإنجليزيّ في فضاء متجهيّ مشترك، فيتمكّن استعلام بإحدى اللغتين من استرجاع وثائق ذات صلة باللغة الأخرى. فهرس واحد، خط أنابيب تضمين واحد، ومسار استعلام واحد. الفهرسان المنفصلان يستحقّان النظر فقط حين تريد إضافة استرجاع معجميّ احتياطيّ من نوع BM25 لكلّ لغة، وحينها تبقي فهرساً كثيفاً مشتركاً وتُلحق به فهرساً متفرّقاً لكلّ لغة.

بأيّ نموذج تضمين أبدأ على مدوّنة مؤسّسيّة عُمانيّة؟

ابدأ بـ BGE-M3. هو أقوى نموذج مفتوح الأوزان متعدّد اللغات منشور حتى اليوم، يدعم أكثر من 100 لغة بينها العربيّة، يستوعب حتى 8,192 وحدة لكلّ قطعة، ويوفّر استرجاعاً كثيفاً ومتعدّد المتجهات ومتفرّقاً في تمريرة واحدة. إن أهمّ الترخيصُ أو حجم العتاد، فإنّ multilingual-e5-large بديل أصغر وأسرع بأرقام عربيّة قويّة على معيار MIRACL. شغّل النموذجين على شريحة تقييم تضمّ 200 استعلاماً عربيّاً وإنجليزيّاً من مدوّنتك قبل الالتزام.

كيف أُقيّم الاسترجاع متعدّد اللغات بنزاهة؟

اِبنِ مجموعة تقييم صغيرة من 100 إلى 300 استعلام حقيقيّ بكلّ لغة، مع أحكام صلة بشريّة على وثائقك أنت. سجّل nDCG@10 وMRR@10 وRecall@50. قابِل أرقامك مع شريحتي MIRACL العربيّة والإنجليزيّة المنشورتين للتحقّق من أنّ خطّ أنابيبك يتصرّف وفق ما تذكره الأدبيّات. أعِد التقييم كلّما تغيّر نموذج التضمين، أو حجم القطع، أو خطوات التطبيع. الرقم الذي يُهمّ هو الذي يصدر على بياناتك، لا على ويكيبيديا.

هل يستطيع جهاز حصن داخل المحيط تشغيل BGE-M3 عند حِمل الإنتاج؟

نعم. يستوعب استدلال BGE-M3 بطاقة GPU من فئة محطة العمل بأريحيّة، ويستطيع جهاز من فئة Tower أن يُفهرس ملايين القطع طوال الليل بينما يخدم استرجاعاً حيّاً لإدارة كاملة. التسعير في نشر حصن بحسب الطلب، يُحدَّد وفق حجم المدوّنة ومعدّل الاستعلام وبقيّة منظومة النموذج التي ترغب الجهة بتشغيلها إلى جانب المسترجِع.