إنشاء مجموعة بيانات لضبط التعليمات بالعربية للاستخدام السيادي
المشتري السياديّ العُمانيّ الذي يريد نموذجاً لغوياً يُحرّر ويُلخّص ويُجيب بالعربية الفصيحة بنكهة عُمانية رسمية لا يستطيع الانطلاق من مجموعة بيانات أمريكية مترجَمة. مجموعات ضبط التعليمات الجاهزة التي أشعلت ثورة النماذج المفتوحة كُتبت أو وُلّدت أو وُصِّفت من خلال مرشّح إنجليزيّ وإعلاميّ شاميّ. لن تُنتج مراسلةً وزاريّة، أو تعميماً رقابياً، أو ملخّصاً لحكم محكمة عليا، بالسجلّ الذي تستخدمه فعلاً جهة عُمانية. الحلّ هو مجموعة بيانات عربية فصيحة عُمانية مبنية عمداً ومُراجَعة يدوياً، من خمسة آلاف إلى عشرة آلاف مثال. هذه المقالة هي وصفة البناء، المُكمّلة لمقالنا المرجعي حول معايير Qwen 3.6 في معالجة العربية.
لماذا تفشل مجموعات التعليمات الجاهزة في العمل العربي السياديّ
المرجع الفعلي السائد، مجموعة Stanford Alpaca، اثنان وخمسون ألف زوج تعليمات وإجابات وُلِّدت بنموذج text-davinci-003 من OpenAI انطلاقاً من مئة وخمس وسبعين بذرة إنجليزية، بكلفة توليد دون خمسمئة دولار أمريكيّ. ثلاثة عوائق بنيوية تمنع استخدامها مباشرةً في نشر سياديّ عُمانيّ:
- تحيّز إنجليزيّ بالبناء. البذور والنموذج المُوَلِّد والمراجعة كلّها بالإنجليزية. الافتراضات الثقافية تنحاز للأعياد الأمريكية والاصطلاح القانونيّ الأمريكيّ والأسماء الغربية. وإذا ترجمتها إلى العربية، تنجو هذه المراجع وتتصادم مع العرف المحليّ.
- تسرّب السجلّ الشاميّ. معظم مجموعات التعليمات العربية الكبيرة الموجودة إمّا مُترجَمة آلياً من الإنجليزية، أو محصودة من شبكات اجتماعية تهيمن عليها اللهجتان الشامية والمصرية. النتيجة عربية إعلامية، لا الفصحى العُمانية الرسمية المستخدَمة في المراسلات الوزارية.
- غموض الترخيص والمصدر. المجموعات المُولَّدة من واجهات نماذج رائدة ترث قيود الاستخدام اللاحق لتلك الواجهات. لا يستطيع المشتري السياديّ الدفاع أمام مُنظِّم أو مُدقّق عن محوّل دُرِّب على سلسلة ترخيص غامضة.
هذه هي الفجوة التي صُمّمت لسدّها مجموعات عربية مبنية للغرض مثل CIDAR من ARBML. وثّقت CIDAR أنّ مجموعة عربية من عشرة آلاف مثال مُراجَعة بشرياً ومتوائمة ثقافياً أنتجت توافقاً ثقافياً أفضل من محوّلات دُرّبت على ثلاثين ضعف ذلك من البيانات المُترجَمة آلياً. هذه النتيجة هي الحدّ الأدنى التجريبيّ في كل حوار تحجيم نُجريه مع مشترٍ سياديّ في عُمان.
بناء مجموعة عُمانية فصيحة من 5,000 إلى 10,000 مثال
أيّ مجموعة بيانات عُمانية فصيحة قابلة للدفاع تستقي من خمسة مصادر، يُسهم كلّ منها بشريحة مميّزة من السجلّ وسطح المهامّ.
- مراسلات داخلية مُجهَّلة. رسائل ومذكّرات وتعميمات داخلية من الجهة المشترية، مُجهَّلة الهويّة ومجرّدة من الكيانات المسمّاة. هذه ترسي نبرة بيت الجهة.
- نصوص رسمية للجهات الرقابية والوزارات. مقتطفات الجريدة الرسمية، والقرارات الوزارية من بوّابة قانون التشريعية، وتعميمات البنك المركزي العُماني والهيئة العامّة لسوق المال وجهاز الضرائب. الهيكل التفسيريّ للفصحى الرسمية في الدولة.
- مجموعات تعليمات عربية مفتوحة منتقاة. أمثلة مستوردة بانتقاء من CIDAR ومجموعة Aya، يُصفّيها مراجع عُمانيّ وفق السجلّ والملاءمة الثقافية. الراسب غير الشاميّ وغير المصريّ يتراوح عادةً بين ثلاثين وخمسين بالمئة من المادّة المصدرية.
- أزواج أسئلة وأجوبة اصطناعية. تُولَّد من وثائق المصدر الداخلية (الإجراءات والأسئلة الشائعة وأدلّة الموظّفين) بنموذج مفتوح الأوزان يعمل داخل المحيط، ثم تُحرَّر بشرياً. الكتلة الرخيصة التي تملأ الذيل الطويل.
- بذور خصومة. خمسمئة إلى ألف مثال مكتوبة عمداً لكشف السلوكيّات السيّئة: الرفض في السجلّ الخطأ، اختلاق الاستشهادات، تلوّث الإنجليزية، تسرّب اللهجة. الأرضية الصلبة لسطح الأمان.
المخطّط الذي نوصي به JSONL بمجموعة حقول ثابتة: id وinstruction وinput (سياق اختياريّ) وoutput وregister (إحدى omani_formal، msa_neutral، technical) وpoliteness_tier وsource_type وcitation_required وannotator_id وreview_status. المخطّط هو العقد الذي يُتيح للمدرّب إعادة موازنة المزيج دون إعادة بناء المجموعة.
توجيهات التوصيف للسجلّ والمجاملة
محوران يقومان بالعبء الأكبر. محور السجلّ يُميّز الفصحى العُمانية الرسمية (الافتراض في المراسلات الوزارية والرسائل الرسمية والوثائق الموجَّهة للجهات الرقابية) عن الفصحى المحايدة (مناسبة لمهامّ المساعد العامّة) عن السجلّ التقني (مقبول في المسارات الهندسية والمالية حيث تظهر الاختصارات اللاتينية). طبقة المجاملة تُميّز بروتوكولات الافتتاح والختام المتوقّعة عند مخاطبة وزير، أو وكيل وزارة، أو جهة نظيرة، أو مواطن.
عمليّاً، يُثبّت دليل التوصيف مكتبة الاستهلال، ومكتبة الختام، واستخدام الألقاب (سعادة، معالي، الفاضل/الفاضلة)، وقواعد النصّ المختلط عربيّ-إنجليزيّ. ويحظر علامات العامّية الشامية والمصرية (عائلة "بنين، بنات، طفشت، شو"). ويُلزم بأن تُلَفّ المقاطع اللاتينية أو تُعزَل بطريقة يستطيع المدرّب الحفاظ عليها. كل موصّف يعمل على المجموعة المعيارية ذاتها المؤلّفة من مئة مثال قبل أن يلمس الدفعة الإنتاجية.
منهج التحقّق قبل التدريب
ثلاث طبقات من التحقّق تُشغَّل قبل أن يصل أيّ رمز من المجموعة إلى ضبط دقيق.
- تحقّق المخطّط والمعجم. JSONL يُحلَّل، وكل حقل مطلوب موجود، ولا علامات شامية، ولا مخرجات إنجليزية فقط، ولا أنماط بيانات شخصية ناجية من التجهيل. آليّ، يعمل في ثوانٍ.
- توافق الموصّفين. طبقة بنسبة 10% ذات توصيف مزدوج تُقاس بمؤشّر كابا لكوهين على كل محور. تحت 0.7 نُعيد تدريب اللجنة على بند الدليل المخالف. وفوق 0.85 فإنّنا نُفرط في موائمة اللجنة ونحتاج إلى توسيعها.
- محوّل تجريبيّ. محوّل LoRA مؤقّت على النموذج الأساس المفتوح (Gemma 4 26B-A4B أو Qwen 3.6) مدرَّب لحقبة واحدة على شريحة من 1,000 مثال. نقيس دقّة السجلّ والتزام المجاملة على مجموعة محجوزة من خمسين تلقيناً. إذا تراجع المحوّل التجريبيّ على أيّ محور، فالبيانات خاطئة قبل أن نلتزم بميزانية التدريب الكاملة.
قرار الإصدار: مفتوح مقابل ملكيّة خاصّة
مسألة الإصدار ليست ثنائية. القسمة القابلة للدفاع لمشترٍ سياديّ عُمانيّ هي نشر شريحة السجلّ العُماني الفصيح العامّة بترخيص متساهل، إسهاماً في المشاع العربي للذكاء الاصطناعي (وهذا هو الموقف الذي يُكافئه برنامج Aya)، مع الإبقاء على الشريحة الخاصّة بالجهة ضمن ملكيّة كاملة داخل المحيط. الشريحة المنشورة ترفع أرضية كل نموذج عُمانيّ يقرأها لاحقاً. أمّا الشريحة الخاصّة فتحمل الإشارة التشغيلية التي تُميّز محوّل المشتري حقّاً ولا تغادر الجهاز.
إن كانت جهتكم تُحجّم مجموعة بيانات لضبط تعليمات بالعربية الفصحى العُمانية لبرنامج نموذج لغويّ سياديّ، وتودّون إحاطة لمدّة ساعة حول المخطّط وخطّة المصادر ولجنة التوصيف وحزام التحقّق، الخطوة التالية مباشرة. راسلونا على [email protected] أو على واتساب +968 9889 9100. سنأتي إليكم، ونستعرض الوصفة، ونترك خطّة موثوقة وفق جدولكم. الأسعار بحسب الطلب، ومحدّدة وفق متطلّباتكم.
أسئلة شائعة
كم مثالاً تحتاج فعلاً مجموعة بيانات سيادية لضبط التعليمات بالعربية؟
خمسة آلاف إلى عشرة آلاف مثال عالي الجودة ومراجَع يدوياً تكفي لتعليم نموذج أساس مفتوح الأوزان السجلّ العُماني الفصيح وسطح المهامّ الخاصّ بالجهة. تحت الخمسة آلاف يتعلّم النموذج المفردات لا السلوك. وفوق العشرة آلاف تتراجع الفائدة سريعاً لاختصاص واحد. أظهرت ورقة CIDAR من ARBML أنّ مجموعة عربية من عشرة آلاف مثال متوائمة ثقافياً تفوّقت على محوّلات دُرّبت على ثلاثين ضعف ذلك من بيانات مترجَمة آلياً، وهذا هو المرتكز التجريبي الذي نستند إليه عند تحجيم برامج المشترين.
لماذا لا نكتفي بترجمة مجموعة Stanford Alpaca إلى العربية؟
ثلاثة أسباب. أوّلاً، Alpaca وُلّدت بنموذج رائد أمريكيّ يُضمر افتراضات ثقافية أمريكية وأعياداً وأسماءً ومراجع قانونية لا تصلح للسياق العُماني. ثانياً، الترجمة الآلية تُسطّح السجلّ، فيخرج النصّ بلغة شامية إعلامية لا فصحى عُمانية رسمية. ثالثاً، Alpaca وُلّدت بـ text-davinci-003 وفق شروط OpenAI التي تُقيّد الاستخدام اللاحق. مجموعة عُمانية مبنية لغرضها تتجنّب المشكلات الثلاث.
هل ينبغي إصدار المجموعة كمصدر مفتوح بعد بنائها؟
القرار يكون لكل شريحة لا للمجموعة كاملة. شريحة السجلّ العُماني الفصيح العامّة يمكن إصدارها بترخيص مفتوح من عائلة CC BY 4.0، إسهاماً في المشاع العربي للذكاء الاصطناعي. أمّا الشريحة الخاصّة بالجهة (الإجراءات الداخلية وأنماط اللغة المصنّفة ومجموعات الكيانات المسمّاة) فتظلّ ملكيّة خاصّة لا تغادر المحيط أبداً. هذا الإصدار المُجزّأ يسمح للمشتري السياديّ بأن يكون مواطناً صالحاً في حركة البيانات العربية المفتوحة دون تسريب التفاصيل التشغيلية.
من يقوم بالتوصيف، وكيف نضبط الجودة؟
لجنة أساس من أربعة إلى ثمانية موصّفين عُمانيّين بخلفيات قانونية ولغوية وقطاعية، تعمل وفق دليل توصيف مكتوب ومجموعة معايرة من مئة مثال مكتمل. كل مثال يخضع لتوصيف مزدوج، وتُحال الخلافات إلى مراجع كبير. نتابع توافق الموصّفين بمؤشّر كابا (الهدف فوق 0.7)، وانحراف الموصّف الفرديّ، ومجموعة تدقيق محجوزة بنسبة 5% تُسجَّل أسبوعياً. المنصّة التي نستخدمها تُحاكي نموذج التوصيف التشاركيّ الذي شغّله مشروع Aya عبر خمس وستّين لغة.