هل نبدأ بـ DPO أم RLHF كاملاً؟

ابدأ بـ DPO. يحتاج إلى نموذج مرجعي ومجموعة بيانات تفضيل مزدوجة، دون نموذج مكافأة منفصل ودون حلقة PPO. لثمانين بالمئة من حالات الاستخدام السيادية (النبرة، سياسة الرفض، أسلوب الاستشهاد، السجل العربي) يتقارب DPO خلال ساعات على وحدة H100 واحدة، ومن السهل تدقيقه. انتقل إلى RLHF بـ PPO فقط حين تحتاج نموذج مكافأة متعلَّماً للاستدلال متعدد الخطوات أو لسلوك وكيل متعدد الجولات.

كم زوج تفضيل نحتاج؟

لتعديل نبرة أو سياسة رفض على نموذج بحجم 7B تكفي عادةً 1500 إلى 3000 زوج عالي الجودة. للاستدلال المجالي (قانوني، طبي، مالي) خطّط لـ 8000 إلى 20000 زوج. اتفاق المعلِّقين فوق 0.7 وفق كابا كوهين أهم من العدد الخام؛ تحت ذلك تدرّب النموذج على ضوضاء المعلِّقين.

هل يمكن تشغيل DPO داخل بيئة معزولة عن الإنترنت؟

نعم. مكتبة TRL وأوزان النموذج الأساس ومجموعات البيانات وأدوات التقييم كلّها أعمال محلية. يقدّم حصن جهاز تدريب مغلقاً مزوَّداً مسبقاً بـ TRL وbitsandbytes وAxolotl؛ تتم تعليقات التفضيل في واجهة سيادية، ولا يغادر شيء محيط الجهة في أيّ مرحلة.

ماذا لو تراجعت سياسة الرفض بعد تشغيل DPO؟

ثبّت محوّل LoRA السابق بوصفه أصل التراجع في سجلّ النماذج. أي تراجع في تقييم الفريق الأحمر يُطلق تراجعاً تلقائياً إلى نسخة المحوّل السابقة (تبادل ساخن في vLLM خلال ثوانٍ). تعامَل مع ترقية نموذج التفضيل كما تتعامل مع ترقيات قواعد البيانات: كلّ تغيير قابل للعكس وموثَّق.

التحسين المباشر للتفضيلات والتعلم المعزز بالتغذية البشرية على البيانات الخاصة: دليل تشغيلي، مدوّنة حصن

يصل المشترون السياديون الذين يلتقطون نماذج أساسية مثل Gemma 4 وQwen 3.6 إلى المفترق نفسه: كيف نُعلِّم النموذج النبرة الصحيحة وسياسة الرفض الصحيحة وأسلوب الاستشهاد الصحيح، دون أن يتسرّب رمز واحد إلى واجهة عامّة؟ الإجابة هي خطّ تفضيلات مغلق يعمل بالكامل داخل المحيط. يغطّي هذا الدليل المقارنة بين DPO وRLHF الكامل، وكيفية جمع بيانات التفضيل، وكيفية تشغيل دورة تدريب بمكتبة TRL على عتاد تملكه، وكيفية ربط التقييم والتراجع لتكون أيّ دورة فاشلة قابلة للعكس خلال دقائق.

١. DPO مقابل RLHF في مئتي كلمة

التعلم المعزز بالتغذية البشرية الكلاسيكي، الذي شاع مع InstructGPT عام ٢٠٢٢، خطّ من ثلاث مراحل: ضبط مُشرَف عليه (SFT)، ثم تدريب نموذج مكافأة على التفضيلات البشرية، ثم تحسين السياسة باستخدام PPO. الأسلوب يعمل، لكنّه باهظ تشغيلياً: نموذجان إضافيان، انجراف توزيعي، ضبط دقيق لانحراف KL، ومخاطر «اختراق المكافأة» التي لا تظهر إلّا بعد النشر. الوصفة الأصلية في Ouyang et al, 2022.

أمّا التحسين المباشر للتفضيلات (Rafailov et al, 2023، الوصيف لأفضل ورقة في NeurIPS) فيُختزل المراحل الثلاث إلى مرحلة واحدة. بإعطاء أزواج تفضيل (مختار، مرفوض)، يستخرج DPO دالّة خسارة مغلقة تُحدِّث السياسة مباشرةً مقابل مكافأة ضمنية، حيث يعمل نموذج SFT نفسه مرساةً لـKL. لا نموذج مكافأة. لا PPO. خسارة واحدة، مُحسِّن واحد، تشغيل واحد قابل لإعادة الإنتاج.

الفرق التشغيلي ضخم في النشر السيادي. DPO قابل للتدقيق، تشغيلة واحدة وأصل واحد. لجوء إلى PPO RLHF الكامل لا يكون إلّا حين يتوقّف DPO عن التحسّن وتحتاج فعلاً إشارة مكافأة متعلَّمة: جودة سلسلة الاستدلال، أو سلوك وكيل متعدد الجولات، أو سياسات أمان لا تُعبَّر بأزواج.

٢. خطّ بيانات التفضيل

أيّاً كانت الطريقة، عنق الزجاجة هو البيانات لا وحدات المعالجة. مجموعة من 1500 زوج عالٍ مُعلَّق من خبيرَيْ مجال مدرَّبَيْن تتفوّق على 50000 زوج مكشوط في كلّ مرّة. الخطّ:

مصدر الموجِّهات. اسحب 200 إلى 500 موجِّه تمثيلي من المجموعة الحقيقية: تذاكر مُعتَّمة، استفسارات قانونية مُنقَّحة، طلبات خدمة المواطنين، أسئلة وأجوبة داخلية. ركّز على المواضع التي يفشل فيها النموذج الحالي أو يُنتج جواباً متكلَّفاً.
توليد المرشّحات. لكل موجِّه، عيّن من نموذج SFT الحالي إجابتَيْن إلى أربع بحرارات متنوّعة (0.3، 0.7، 1.0). يمكن إضافة إجابة من نموذج سقفي أقوى (70B) لمنح المعلِّقين مرجعاً عالي الجودة.
التعليق الزوجي. يرى المعلِّق (موجِّه، أ، ب) ويختار الأفضل مع تعليل نصّي. اشترط اختياراً ثنائياً؛ التعادل يُضعِف الإشارة. تابع كابا كوهين على عيّنة تداخل من 200 موجِّه؛ تحت 0.7 أنت تدرّب على ضوضاء.
بوابات الجودة. ارفض الأزواج ذات الثقة المنخفضة، أو التي يختلف فيها المختار والمرفوض في الطول فقط، أو التي يكون فيها المرفوض صحيحاً وقائعياً لكن غير ملائم أسلوبياً (احتفظ بمجموعة منفصلة للأسلوب).
الصيغة. تسلسُل بصيغة JSONL بحقول prompt وchosen وrejected. هذا ما يتوقّعه DPOTrainer في TRL.

تجري الحلقة كاملةً داخل واجهة تعليق سيادية على جهاز حصن. لا تخرج بيانات. وكما يناقش مقالنا الجذر LoRA QLoRA on-premise، يستطيع العتاد نفسه الذي يخدم الاستدلال أن يقوم بالتعليق والتدريب خارج ساعات الذروة.

٣. دورة التدريب بمكتبة TRL

تعدّ مكتبة TRL من Hugging Face الأداة المفتوحة الواقعية لـDPO وPPO RLHF معاً. تُغلِّف الرياضيات وتُتيح أصنافاً نظيفة: SFTTrainer، DPOTrainer، PPOTrainer، RewardTrainer. وصفتان:

وحدة معالجة واحدة، نموذج 7B، QLoRA + DPO

العتاد. وحدة H100 80GB واحدة، أو حتى RTX 6000 Ada 48GB مع نقاط مراجعة التدرّج.
الإعداد. حمّل نموذج SFT بـ4-bit (bitsandbytes NF4)، وألحِق محوّل LoRA بـr=16، alpha=32، يستهدف إسقاطات الانتباه وMLP.
إعدادات DPO. Beta 0.1 إلى 0.2، معدل تعلم 5e-7 إلى 1e-6، حجم دفعة 4 مع تراكم تدرّج 8، حقبة إلى ثلاث حقب.
الزمن. يتقارب 3000 زوج خلال 90 إلى 180 دقيقة. الناتج محوّل LoRA بحجم 200 ميغابايت لا نموذج جديد. تبادله ساخناً في vLLM دون توقّف.

متعدد الوحدات، نموذج 70B، FSDP + DPO

العتاد. ثماني وحدات H100 أو H200 عبر NVLink/NVSwitch، أو أربع H200 مع تجزئة FSDP.
الإعداد. الدقّة الكاملة نادرة على 70B. استخدم QLoRA بـr=64. النموذج المرجعي يمكن أن يكون النموذج المجمَّد ذاته، فتوفّر نسخة كاملة في الذاكرة.
إعدادات DPO. Beta 0.1، معدل تعلم 1e-6، دفعة دقيقة 1 مع تراكم 16. حقبة واحدة على 8000 إلى 20000 زوج.
الزمن. ستّ إلى اثنتي عشرة ساعة. التكلفة على عتاد مملوك: طاقة هامشية. التكلفة على سحابة عملاقة مستأجرة: حديث آخر.

٤. التقييم قبل وبعد، دون استثناء

كل دورة تفضيل تمرّ ببوابة مجموعة تقييم مجمَّدة، وإلّا فأنت تطير بلا أدوات:

دقّة تفضيل محتجزة. احفظ 10 إلى 15 بالمئة من الأزواج كاختبار. ينبغي أن يختار النموذج المضبوط بـDPO الإجابة المختارة بنسبة 70 إلى 85 بالمئة. أقل من 60: لم تتعلّم. أكثر من 90: مبالغة في التخصيص.
انحدار القدرات. شغّل MMLU وGSM8K ومجموعة التقييم العربية لديك (ArabicMMLU، ALUE) قبل وبعد. تراجع نقطة إلى نقطتين طبيعي ومقبول؛ خمس نقاط فأكثر يعني أنّ المحاذاة تأكل القدرة.
الأسلوب والأمانة. اربط مقاييس الأمانة والملاءمة من Ragas على مجموعة سيادية من 200 سؤال. التفاصيل في مقال أطر تقييم نماذج اللغة.
أمان الفريق الأحمر. مجموعة عدائية من 100 موجِّه تشمل سياسة الرفض ومحاولات الاختراق وفحص البيانات المصنّفة. يجب أن يثبت معدل الرفض أو يتحسّن.

الأرقام الأربعة جميعها تدخل سجلّ النماذج بجانب أوزان المحوّل وبصمة بيانات التدريب وعلامة git الخاصّة بـTRL. كل ترقية إلى الإنتاج سطر واحد، وكل تراجع سطر واحد.

٥. إيقاع التحديث والتراجع

المؤسسات السيادية لا تتحرّك بسرعة الشركات الناشئة، ولا ينبغي لها. إيقاع صحّي:

أسبوعياً. يضيف المعلِّقون 200 إلى 500 زوج جديد من المخرجات الموسومة في النشر الحيّ. يبقى الخطّ ساخناً.
شهرياً. دورة DPO جديدة على البيانات المتراكمة. تجتاز بوابة التقييم، يُرقَّى المحوّل من مرشّح إلى ظلّ: يخدم 5 بالمئة من الحركة بالتوازي لأسبوعين.
ربع سنوي. ترقية الظلّ إلى الأساسي إذا ثبتت مقاييسه. يبقى المحوّل القديم في السجلّ على بُعد نقرتين. وعند تغيّر سياسة أو نصّ نظامي (بند مشتريات محدَّث، توجيه جديد من المركز الوطني للسلامة المعلوماتية أو وزارة النقل والاتصالات وتقنية المعلومات) تُطلق دورة استثنائية.
التراجع. تبادل المحوّل في vLLM دون ثانية. تعامَل مع ترقية التفضيل تماماً كترحيل قاعدة بيانات: كل تغيير قابل للعكس، كل تغيير موثَّق. السجلّ هو أثر التدقيق حين يسأل مدقّق داخلي أو منظِّم خارجي عن سبب قول النموذج ما قاله.

تعمل الحلقة كاملةً، من التعليق إلى التقييم إلى التراجع، داخل المحيط السيادي. لا شيء في هذا الدليل يستلزم استدعاء واجهة عامّة أو منطقة سحابة عملاقة أو وحدة معالجة غير مقيمة في عُمان. هذا هو المقصد.

للحصول على إحاطة من ساعة حول إقامة حلقة DPO على بياناتكم، أو استعراض دورة TRL نموذجية من البداية إلى النهاية على جهاز حصن، راسلونا على [email protected].

١. DPO مقابل RLHF في مئتي كلمة

٢. خطّ بيانات التفضيل

٣. دورة التدريب بمكتبة TRL

وحدة معالجة واحدة، نموذج 7B، QLoRA + DPO

متعدد الوحدات، نموذج 70B، FSDP + DPO

٤. التقييم قبل وبعد، دون استثناء

٥. إيقاع التحديث والتراجع

أسئلة شائعة

مقالات ذات صلة

LoRA وQLoRA وRLHF على عتاد العميل

مصادر بيانات التدريب للضبط السيادي

أطر تقييم نماذج اللغة: Ragas وDeepEval