التدريب الدقيق لنموذج كوين 3.6 على الوثائق المصنّفة: أنماط أمان التعلم المعزز

التدريب الدقيق لنموذج أساس على مراسلات عربية مصنّفة لا يُشبه ضبط روبوت محادثة على أسئلة المنتجات. نموذج التهديد معكوس: المدوَّنة هي السرّ، الطلبات هي سطح الهجوم، وكل تسرّب حرفي في الإجابة قد يُكلّف صلاحية أو عقداً أو مساراً مهنياً. هذه المقالة هي دليل الأمان الذي نعتمده عندما يأتي فريق سيادي عُماني إلى غرفة معتمدة ويطلب من نموذج Qwen 3.6 أن يتعلّم وثائقهم.

1. لماذا تحتاج التدريبات على البيانات المصنّفة موقفاً أمنياً مختلفاً

تُحسّن تدريبات السحابة العامة المساعدة ومعايرة الرفض تجاه أضرار افتراضية. أمّا التدريب على بيانات مصنّفة فيُحسّن خاصيتين أصعب في آن واحد: أن يكون النموذج نافعاً داخل القوى العاملة المعتمدة، وألّا يُسرّب المدوَّنة لأيّ مستخدم، حتى لو كان حاملاً للتصريح ولكنه أهمل في صياغة طلبه، أو لمهاجم سرق بيانات اعتماد سليمة.

  • لا منفذ عبر الطلبات. يجب أن يرفض النموذج المنشور تكرار العلامات السرّية الخام أو معرّفات الوثائق أو أرقام الملاحق، حتى لو طُلب ذلك بأدب أو ادّعى المستخدم وجود تفويض.
  • لا كشف عرَضي في الإجابات. يجب أن يُعيد النموذج الصياغة في التلخيص والترجمة والإجابة، لا أن يستنسخ. وتُحجب المقاطع الحرفية التي تتجاوز عتبة محدّدة في زمن الفك، لا في زمن التدريب فقط.
  • لا قنوات خفية. يجب تطبيع العلامات المائية ومعرّفات الوثائق وسلاسل اليونيكود غير المعتادة في المصدر قبل التدريب، وإلّا تعلّم النموذج أن يُصدرها كبصمة.

هذا يُحوّل مركز ثقل التصميم من الخوارزمية إلى البيانات وإلى حدود النشر. تفاصيل وصفة التدريب أقلّ أهمية بكثير ممّا يدخل في الوصفة وأين تُحفظ الأصول بعدها.

2. جدار إعداد البيانات

عامِل المعالجة المسبقة كأهمّ ضابط أمان. حين يدخل الرمز إلى دالّة الخسارة تكون قواعد التنزيل قد طُبّقت أصلاً ولا يُمكن التراجع عنها وقابلة للتدقيق. خطّ الإنتاج القياسي لدينا يعمل كاملاً داخل الغرفة المعتمدة على المحطة نفسها التي تُجري التدريب.

  1. إزالة الترويسات والعلامات. تُحذف لافتات التصنيف وقيود التوزيع وأرقام الملف وقصاصات التحويل قبل التجزئة. لا يرى النموذج صياغة العلامات أبداً، بل المحتوى الجوهري فقط.
  2. حجب الكيانات المسماة في الطبقة الصحيحة. أسماء الأشخاص والهواتف والـIBAN ولوحات السيارات والإحداثيات تمرّ عبر مُحجِّب حتمي ببصمة مُملَّحة. وثيقتان مختلفتان تذكران الضابط ذاته تنهاران إلى الرمز نفسه، فيتعلّم النموذج العلاقات لا الهويات.
  3. تقييد حفظ السلاسل النادرة. المعرّفات الأبجدية الرقمية الطويلة هي قنبل الكناري للحفظ. نستبدلها برموز فئوية مثل CASE_ID وANNEX_REF، ونُبقي جدول التطابق مختوماً خارج مجموعة التدريب.
  4. إزالة التكرار بصرامة. الفقرات شبه المكرّرة تُضخّم خطر الحفظ. تمريرة MinHash عند تشابه 0.85 تختزل المدوَّنة إلى نواة غير زائدة قبل التدريب.
  5. توقيع المدوَّنة المُجهَّزة. تُبصَم مخرجات المعالجة وتُوقَّع. يرفض المدرّب ابتلاع أيّ شريحة بصمتها ليست في القائمة الموقّعة.

لا شيء في هذه الخطوات معقّد، لكن تجاوز إحداها يظهر لاحقاً كنتيجة تسرّب لن يدع الفريق الأحمر أحداً ينساها.

3. تصميم بيانات تفضيل التعلم المعزز: ترجيح الإفراط في الرفض على خطر التسرّب

بعد التدريب الموجَّه على المدوَّنة المُحصَّنة، تأتي المواءمة كرافعة ثانية. نُصمّم بيانات التفضيل بحيث تُقايض إشارة المكافأة قدراً يسيراً من المساعدة بتقليص كبير في سطح التسرّب. تتبع البنية روح الذكاء الاصطناعي الدستوري: يُحرّر مراجعون بشريون قائمة قصيرة من المبادئ، ثم تُولَّد التفضيلات الزوجية منها.

  • رفض الاقتباس الحرفي. أمام طلب يستدرج اقتباساً حرفياً من وثيقة معلَّمة، تُعيد الإجابة المفضّلة الصياغة وتشير إلى الوثيقة برمزها الفئوي لا بمرجعها الحقيقي.
  • رفض الطلب خارج الصلاحية. حين يُشير سياق الطلب إلى أن المستخدم لا يحمل صلاحية الموضوع، تعتذر الإجابة المفضّلة بأدب وتوجّه إلى القناة الصحيحة دون كشف وجود الوثيقة.
  • تفضيل التلخيص على الاقتباس. في التلخيص الاعتيادي، تُسجَّل الإجابات التي تُعيد الصياغة فوق الإجابات التي تنسخ عبارة تتجاوز سبع كلمات.
  • معاقبة الإفراط في الرفض على العمل المُصرَّح به. تُسجَّل الإجابات النافعة على الاستفسارات داخل النطاق المُصرَّح فوق الرفض الشامل. بدون هذا الموازن ينهار النموذج إلى مساعد رفض شكلي لا يستخدمه أحد.

أمّا خطوة التدريب نفسها فعادةً تكون التحسين المباشر للتفضيلات (DPO). تُلغي DPO نموذج المكافأة المنفصل وحلقة العيّنات الحيّة التي يتطلّبها RLHF الكلاسيكي، ممّا يُقلّص عدد الأصول الوسيطة الواجب على ضابط الأمن تصنيفها وتوقيعها وإتلافها. يمكن لاحقاً إعادة تشغيل مجموعة التفضيلات نفسها تحت PPO إذا احتاج سلوك بعينه إلى صقل تعزيزي.

4. العتاد في عزل الشبكة: H100 داخل غرفة معتمدة، ومُحوِّلات موقَّعة

يقع جهاز التدريب داخل غرفة معتمدة لا على مضيف متعدّد المستأجرين. عقدة بطاقتَي H100 تكفي لتدريب QLoRA لنموذج Qwen 3.6 7B في يوم عمل تقريباً. النسخ الأكبر تحتاج أربع أو ثماني بطاقات. الغرفة تفرض الحدود، وسير العمل يفرض انضباط الأصول.

  • إدخال الكود عبر وسائط موقَّعة. يصل المدرّب والمُجزِّئ والأوزان الأساسية على وسائط أحادية الكتابة ببصمات مُتحقَّقة. لا يوجد منفذ شبكة للخروج.
  • محوِّل واحد فقط لكلّ تشغيل. الأصل الوحيد الذي يخرج من المدرّب هو ملف محوِّل LoRA موقَّعاً من ضابط الأمن. تبقى حالات المُحسِّن ونقاط الفحص الوسيطة وسجلات التدرّج داخل الجهاز وتُمحى في نهاية الحملة.
  • ربط المحوِّل ببصمة الأساس. يرفض زمن التشغيل تحميل محوِّل لا تُطابق بصمة نموذجه الأساس البصمةَ المنشورة. هذا يمنع تحميل محوِّل مهمل أو مُبدَّل بصمت على أوزان خاطئة.
  • الاستدلال يبقى داخلاً. تعمل المنظومة المُدرَّبة على جهاز استدلال منفصل داخل حدود الاعتماد ذاتها. لا منفذ من النموذج إلى الإنترنت.

5. التقييم وموقف الفريق الأحمر

التقييم على مسارين. الأول يقيس جودة المهمّة على مجموعة اختبار محتجزة بالتصنيف نفسه: دقّة الفرز وأمانة التلخيص ومعايرة الرفض. والثاني خصومي يديره فريق أحمر داخلي صغير مع مراجعة خارجية دورية تحت اتفاقية عدم إفصاح.

  • اختبارات استنتاج العضوية. نختار 200 مقطعاً قصيراً من مجموعة التدريب و200 إعادة صياغة. ينبغي ألّا يُفرّق النموذج بينهما فوق الصدفة في اختبار الاحتمال.
  • اختبارات الاستخراج الحرفي. نُجرّب أنماط طلبات معروفة في أبحاث الاستخراج العامة، بالعربية والإنجليزية، لنرى إن كانت أيّ عبارة من الوثائق ستعود حرفياً.
  • اختبارات سياق الصلاحية. نُعيد تشغيل الاستفسار نفسه بثلاثة سياقات صلاحية مختلفة، وعلى النموذج أن يحترم أدنى سياق مُقدَّم وألّا يُصعّد.
  • فحوصات الانحراف. تُكرَّر البطارية كاملةً شهرياً. أيّ محوِّل جديد يفشل في فحص تسرّب يُسحب لا يُرقَّع في الإنتاج.

للسياق الأوسع لتدريبات LoRA QLoRA on-premise التي تجلس فوقها هذه الطبقة الأمنية، انظر المقالة الأمّ. الوصفات نفسها، لكن الجدار وتصميم التفضيلات والغرفة هي ما يجعلها قابلة للدفاع عند مستوى التصنيف.

لقاء تعريفي

إن كان فريقك يُعدّ تدريباً مصنّفاً لنموذج Qwen 3.6 أو نموذج عربي مماثل، ويرغب في عينٍ ثانية على جدار إعداد البيانات أو تصميم التفضيلات أو تدفق الغرفة المعتمدة، راسلونا على [email protected] لحجز لقاء تعريفي مدّته ساعة واحدة. نمشي مع علماء البيانات وضابط الأمن عبر الدليل داخل الغرفة، ولا نترك أيّ مكتوب دون توقيعكم، ونُجيب على الأسئلة المحرجة بصراحة.

أسئلة شائعة

هل يمكن أن يُسرّب نموذج كوين 3.6 المُدرَّب النصوص المصنّفة التي تعلّم عليها؟

نعم إذا كان جدار إعداد البيانات ضعيفاً. تحفظ النماذج السلاسل النادرة، ويمكن لطلب مُحكَم الصياغة استخراج مقاطع تدريبية حرفية. الحلول: حجب الأرقام التسلسلية والكيانات المسماة قبل التدريب، إجراء اختبارات استنتاج العضوية على مجموعة التقييم، وتقييد رتبة المحوّل لتقليل سعة الحفظ.

هل تعدّ خوارزمية DPO أكثر أماناً من RLHF التقليدية لأعمال البيانات المصنّفة؟

تشغيلياً نعم. تُلغي DPO نموذج المكافأة المنفصل وحلقة العيّنات الحيّة، مما يُضيّق سطح المراجعة وعدد الأصول الوسيطة الواجب تصنيفها وتوقيعها. الأمان يبقى مرتبطاً بمجموعة بيانات التفضيل لا بالخوارزمية. ويمكن إعادة استخدام نفس البيانات لاحقاً مع PPO.

هل تصبح أوزان النموذج المُدرَّب نفسها مصنّفة؟

في معظم الأنظمة السيادية نعم. الأوزان المشتقّة من مدوَّنة مصنّفة ترث أعلى تصنيف لأي مُدخَل. تبقى داخل الغرفة المعتمدة وموقّعة، ولا تعمل إلا على عتاد معتمد. تُحفظ أوزان كوين 3.6 الأساسية غير المصنّفة جنباً إلى جنب لإجراء المقارنة.

ما حجم مجموعة بيانات التفضيل المناسبة للوثائق المصنّفة؟

لمساعد فرز وثائق عربية، تكفي عادةً 3,000 إلى 8,000 ثنائية تفضيل عندما يُتقن النموذج الأساس المجال أصلاً. يُخصَّص نحو 30 بالمئة منها لسلوكيات الأمان: رفض تكرار العلامات الخام، رفض الطلبات خارج الصلاحية، تفضيل التلخيص على الاقتباس الحرفي.