توفير بيانات التدريب للتدريب الدقيق السيادي دون المساس بالخصوصية

يحيا التدريب الدقيق السيادي ويموت بما يدخل المدرّب لا بأيّ مُحسِّن تختار. وصفات LoRA QLoRA on-premise موثَّقة جيداً وأصبحت سلعةً شائعة، أمّا المدوَّنة التي تُغذّيها فهي حيث تتركّز كل أسئلة الخصوصية والتصنيف والمشتريات. هذه المقالة هي دليل التوريد الذي نعتمده حين تريد جهة عُمانية نموذجاً عربياً متخصّصاً دون إرسال سجلٍّ واحد إلى سحابة عامّة.

1. مصادر البيانات الأربعة لتدريب سيادي

كلّ تدريب دقيق قابل للدفاع يستقي من أربعة أنواع من المُدخلات، تختلف نسبها بحسب المهمّة. الخطأ الأول هو وضعها في سلّة واحدة؛ كلٌّ منها يحمل نظام موافقة مختلفاً وتصنيفاً مختلفاً وملمح تسرّب مختلفاً.

  • المدوَّنة المؤسسية. الوثائق الداخلية التي تملكها الجهة فعلاً: السياسات والأدلّة والمراسلات السابقة والسجلات المُهيكلة. هذا أعلى مصدر إشارة لأسلوب الجهة ومفرداتها التخصّصية، وهو أيضاً المصدر الذي يحتاج جدار الحجب الأشدّ والأساس القانوني الأوضح بموجب PDPL.
  • النصوص التنظيمية والحكومية العامّة. المراسيم والتعاميم الوزارية والجريدة الرسمية ومحاضر مجلس الشورى وإرشادات المركز الوطني للسلامة المعلوماتية ونشرات وزارة النقل والاتصالات وتقنية المعلومات. عامّة وقابلة للاستشهاد ومنخفضة الخطورة. ممتازة لتعليم النموذج السجل الرسمي للإدارة العامّة العُمانية.
  • المراجع العامّة. النصوص العربية الكلاسيكية والمواد التعليمية المفتوحة وشرائح ويكيبيديا والكتب العربية المُرخَّصة بترخيص مفتوح وأحكام القضاء المنشورة. مفيدة لطلاقة العربية الفصحى ولموازنة انحياز بيانات الويب الاجتماعية إلى اللهجة.
  • البيانات الاصطناعية. أزواج تعليمات وأجوبة يولّدها نموذج أقوى، إعادات صياغة لبيانات مرجعية، وأمثلة خصومية يكتبها فريق الأمن. رخيصة في التوسعة، خطيرة في الاعتماد المفرط، نافعة بجرعات معايَرة بدقّة.

التقسيم الذي نوصي به عادةً لتدريب نموذج 7B عربي متخصّص هو 40 بالمئة مؤسسية، 25 بالمئة تنظيمية عامّة، 20 بالمئة مراجع عامّة، 15 بالمئة اصطناعية. والمزيج الفعلي دالّة على حجم النصوص المؤسسية الموجودة ومدى حساسيّتها.

2. التحضير الحافظ للخصوصية: حجب ووسم وإثبات الموافقة

قبل أن تصل أيّ شريحة إلى دالّة الخسارة، يجب أن تكون ثلاثة أمور صحيحة: كل معرّف شخصي قد أُزيل أو هُشّ، كل شريحة تحمل وسم تصنيف يستطيع المدرّب فحصه، ولكلّ سجلّ أساس قانوني موثَّق للضمّ. تجاوز إحداها يُنشئ ملاحظة سيلتقطها مراجع المشتريات لاحقاً.

  1. اكتشف وحجب البيانات الشخصية في الطبقة الصحيحة. العربية أصعب من الإنجليزية: صرف غني، اصطلاحات رومنة متعدّدة، وكتابات لهجية للاسم نفسه. الأنابيب التي شحنّاها تربط نموذج NER عربي قائم على المُحوِّلات (يُدرَّب فوق CAMeL Tools أو Farasa) مع تعابير منتظمة حتمية لـIBAN والبطاقة المدنية ولوحات السيارات وسلاسل الهواتف. كل تطابق ينهار إلى رمز فئوي ببصمة مُملَّحة، فيتعلّم النموذج العلاقات لا الهويات.
  2. احمل أصل الموافقة مع كل شريحة. يصل كلّ سجل ومعه ملفّ JSON صغير: المصدر والتاريخ الأصلي والأساس القانوني بموجب المادّة الخامسة من PDPL، وأفق الاحتفاظ، وأي علامات لفئات خاصّة. يرفض المدرّب أيّ شريحة فشل ملفّها في اختبار السياسة.
  3. وسم مستويات التصنيف عند الإدخال. عام، داخلي، مقيَّد، سرّي. يفرض المدرّب أن أي تشغيل يلامس شرائح مقيَّدة أو سرّية يجري على عتاد معتمد فقط، داخل غرفة معتمدة أو ما يعادلها معزول الشبكة، ويكتب مخرجاته في مستودع أصول لا يقبل إلا التوقيع.

الهدف ليس استبدال ضابط الأمن، بل جعل توقيعه آلياً. حين تصل البيانات إلى وحدة المعالجة الرسومية تكون خطوات الحكم البشري قد طُبّقت ودُقِّقت أصلاً.

3. مفاضلات البيانات الاصطناعية: متى تنفع ومتى تُسرّب

البيانات الاصطناعية مغرية لرخصها ولامحدوديتها، وهي أيضاً أخطر ممّا تظنّ معظم الفرق. أظهرت ورقة Generated Data with Fake Privacy أن التدريب على بريد يولّده نموذج لغة قد يرفع معدّل نجاح هجمات استخراج البيانات الشخصية بأكثر من 50 بالمئة مقارنةً بالنموذج قبل التدريب، لأن المولِّد يكشف أجزاءً محفوظة من تدريبه الخاص. الاصطناعي لا يعني الخاصّ.

  • أين تنفع. توسيع تغطية أنماط التعليمات، توليد قوالب الرفض، كتابة تحقيقات خصومية لمجموعة التقييم، إعادة صياغة الأمثلة المرجعية لتمييع التشبّع على صياغات نادرة. هذه مهام مرتبطة بالقالب لا يحمل فيها المحتوى الاصطناعي معلومات خاصّة.
  • أين تُسرّب. توليد "سجلات عملاء اصطناعية" أو "ملفات قضايا اصطناعية" من نموذج عام. الناتج معقول الشكل لكنه يرث حفظ المولِّد. لا تستخدم هذا إلا حين يكون المولِّد نموذجاً تستطيع تدقيق مدوَّنة تدريبه، ويفضَّل أن يكون مدرَّباً داخل حدود الاعتماد ذاتها.
  • التخفيف. أجرِ اختبار استنتاج العضوية على المجموعة الاصطناعية في مواجهة المولِّد قبل أن تصل أيّ منها للمدرّب. اقصر حصّة الاصطناعي على 15 إلى 20 بالمئة. نوّع المولِّدات حين أمكن.

4. بيانات الأصل التي تنجو من التدريب: بطاقة وصف للمُحوِّل

متى ما تدرَّب المُحوِّل وجب على البيانات الوصفية التي رافقت المدوَّنة أن ترافق الأوزان. نُكيِّف قالب Datasheets for Datasets (جبرو وآخرون، 2021) لوصف المحوِّل ذاته لا البيانات الداخلة فحسب. بطاقة وصف المحوِّل هي الأصل الوحيد الذي يطلبه مراجع المشتريات والأصل الوحيد الذي يوقّعه ضابط الأمن.

  • الدافع. المهمّة، المستخدمون المقصودون، حدود النشر، الاستفسارات داخل النطاق وخارجه.
  • التركيب. أعداد السجلات لكل مصدر، خليط التصنيف، توزيع اللغة (فصحى مقابل لهجة)، نطاق التواريخ، رقم إصدار قواعد الحجب.
  • عملية الجمع. كيف صُدِّرت الشرائح المؤسسية، كيف زُحفت المصادر العامّة، كيف وُلِّدت البيانات الاصطناعية وفُحصت.
  • المعالجة المسبقة. إصدار المُجزِّئ، عتبة إزالة التكرار، نموذج الحجب وإصداره، بصمة قائمة الشرائح.
  • الاستخدامات الموصى بها وخارج النطاق. بما في ذلك دليل أنماط الرفض.
  • الصيانة. دورية إعادة التقييم، مراقب الانحراف، المالك الداخلي في الجهة.

المستند صغير (ست إلى عشر صفحات) ويُسدِّد ثمنه أوّل مرّة يرث فيه فريق آخر المُحوِّل أو يسأل فيها جهة تنظيمية كيف دُرِّب النموذج.

5. أثر التدقيق لمشترٍ بدرجة المشتريات الحكومية

المشتريات السيادية لا تشتري الادّعاءات، بل الأدلّة. أثر التدقيق لتدريب دقيق يتألف من خمسة مكوّنات، تُنتَج كلّها كأثر جانبي للأنبوب أعلاه وتُوقَّع في نهاية كل تشغيل.

  1. قائمة شرائح موقَّعة. بصمة SHA-256 لكل شريحة مع ملف الموافقة ووسم التصنيف. يرفض المدرّب ابتلاع أي شيء ليس في القائمة.
  2. إعدادات أداة الحجب وإصدار قواعدها. مبصومة، موقَّعة، مؤرشفة بجوار القائمة.
  3. سجلّ تشغيل التدريب. المعاملات الفائقة، بصمة النموذج الأساس، معرّفات عقد GPU، طوابع البدء والانتهاء، هويّة المُشغِّل.
  4. تقرير التقييم وفرق الاختبار. دقّة المهمّة على مجموعة محتجزة، بالإضافة إلى اختبارات استنتاج العضوية والاستخراج الحرفي وفق المقالة الأمّ.
  5. بطاقة وصف المُحوِّل. المستند الجامع الذي يربط الأصول الأربعة أعلاه في ملفّ قابل للتوقيع.

مراجع يعرف ما يطلبه يُتمّ التحقّق من الخمسة في فترة بعد ظهر واحدة. المورّدون الذين لا يقدّمون ذلك كتابياً يجب التعامل معهم على أنهم غير موثَّقين، مهما ادّعت شرائحهم.

لقاء تعريفي

إن كان فريقك يُحدّد نطاق المدوَّنة لتدريب عربي سيادي ويرغب في عينٍ ثانية على مزيج المصادر أو جدار الحجب أو قالب بطاقة المحوِّل، راسلونا على [email protected] لحجز لقاء تعريفي مدّته ساعة واحدة. نمشي مع علماء البيانات وضابط الأمن والمستشار القانوني عبر الدليل في غرفتكم، ولا نترك أيّ مكتوب دون توقيعكم.

أسئلة شائعة

هل يمكن لفريق سيادي الوصول إلى تدريب دقيق نافع دون استخدام بيانات العملاء؟

نعم لكثير من المهام. يكفي عادةً مزيج من النصوص التنظيمية العامّة والمذكرات الداخلية المؤلَّفة من الموظفين وكمية مضبوطة من تعليمات اصطناعية مزدوجة لتعليم النموذج المفردات المتخصّصة وأسلوب الجهة. بيانات العملاء تصبح ضرورية فقط حين تكون المهمّة مرتبطة بالهوية، كمطابقة الأسماء أو "اعرف عميلك". عندئذ يجب الحجب الصارم وتشغيل المدرّب في غرفة معزولة ومعاملة الأوزان الناتجة كأصول مصنّفة.

هل البيانات الاصطناعية آمنة لاستخدامها في تدريب نموذج عربي؟

نافعة لكنها ليست آمنة تلقائياً. أظهرت أبحاث حديثة أن التدريب على بيانات يولّدها نموذج آخر قد يُضخّم حفظ النموذج الأصلي للبيانات الشخصية بدلاً من تخفيفه. استخدم البيانات الاصطناعية لتوسيع أنماط التعليمات وحالات الحافة، لا بديلاً عن البيانات الحقيقية المُحجَّبة، وافحص المجموعة الاصطناعية باختبار استنتاج العضوية قبل التدريب.

ماذا يجب أن تتضمّن بطاقة وصف المُحوِّل؟

مصدر كل شريحة دخلت المدرّب، قواعد الحجب المُطبَّقة، الأساس القانوني للموافقة لكل مصدر، مستوى تصنيف المُدخلات والمُخرجات، بصمة النموذج الأساس التي يرتبط بها المحوِّل، وصفة التدريب، ونتائج التقييم وفرق الاختبار. الشكل يتبع قالب Datasheets for Datasets معدَّلاً لوصف أوزان المحوِّل لا البيانات الخام.

كيف يتحقّق مراجعو المشتريات من هذه الادّعاءات؟

بطلب القائمة الموقّعة وإعدادات أداة الحجب وسجلات التقييم وتقرير عيّنة لاستنتاج العضوية. مراجع يعرف ما يطلبه يستطيع التحقّق في فترة بعد الظهر من تطابق خط أنابيب المدوَّنة مع ادّعاءات الردّ على العطاء. الموردون الذين لا يقدّمون هذه الأصول كتابياً يجب التعامل معهم على أنهم غير موثَّقين.