تقنيات لورا والتعلم المعزز بالتغذية البشرية على عتاد العميل: التدريب الدقيق دون السحابة

Q: هل أحتاج إلى عنقود حوسبة متطوّر لتدريب نموذج مفيد؟

لا. أثبتت ورقة QLoRA المنشورة عام 2023 أنّ تدريب نموذج بحجم 65 مليار معامل ممكن على بطاقة استهلاكية واحدة بسعة 48 جيجابايت، وبجودة تضاهي التدريب الكامل بدقة 16-bit. في عام 2026، تستوعب بطاقة RTX 6000 Ada أو RTX 6000 Blackwell واحدة نماذج 7 إلى 13 مليار معامل بدقة كاملة عبر LoRA، ونماذج 70 مليار معامل عبر QLoRA. عنق الزجاجة المؤسسي هو إعداد البيانات وانضباط التقييم، لا الحوسبة الخام.

Q: هل جودة LoRA تساوي فعلاً جودة التدريب الكامل؟

في معظم المهام المؤسسية، نعم. أظهرت الورقة الأصلية لـ LoRA من Hu وزملائه في Microsoft Research تكافؤاً أو شبه تكافؤ مع التدريب الكامل عبر معايير GLUE وWikiSQL وSAMSum، مع تدريب نسبة ضئيلة فقط من المعاملات. للمهام التي تتطلّب استيعاب قدرات جديدة كلياً أو تحوّلات مفرديّة كبيرة، قد يتفوّق التدريب الكامل قليلاً. الاختبار الصحيح هو تشغيل الاثنين على شريحة تمثيليّة من بياناتك ومقارنتهما على مجموعة التقييم المحجوزة.

Q: ما الفرق بين RLHF وDPO، وأيّهما نستخدم؟

RLHF بصيغته التقليدية يدرّب نموذج مكافأة من أزواج التفضيل البشريّة، ثم يحسّن نموذج السياسة مقابله باستخدام PPO. أمّا DPO، الذي قدّمه Rafailov وزملاؤه عام 2023، فيلغي نموذج المكافأة الصريح وحلقة التعلّم المعزز، ويصوغ الهدف بوصفه دالّة فقدان مُشرَفة مباشرة على أزواج التفضيل. DPO أبسط في التنفيذ، وأكثر استقراراً، وهو نقطة البداية الصحيحة في كلّ نشر سيادي تقريباً. لا تلجأ إلى RLHF بصيغة PPO إلّا حين يعجز DPO عن التعبير عن إشارة المكافأة.

Q: كيف نتراجع عن تدريب دقيق سيّئ؟

تجعل المُحوِّلات التراجع تافهاً. كلّ تدريب ينتج ملفّ مُحوِّل صغير (عشرات الميغابايتات في الغالب) يُحمَّل فوق النموذج الأساسي غير القابل للتغيير. الإصدارات تعيش في سجلّ المُحوِّلات الخاص بالمؤسّسة. التراجع يعني تفريغ المُحوِّل المعطوب وتحميل النسخة السابقة، دون أيّ تبديل للنموذج. هذه إحدى الأسباب التشغيليّة لكون التدريب على نمط LoRA هو النمط السائد في الإنتاج.

بقلم حصن لخدمات الذكاء الاصطناعي ش.م.م · نُشر في 2026-05-03 · 2,150 كلمة

أقصر حجّة ممكنة للتدريب الدقيق السيادي هي الآتية: بياناتك التدريبيّة هي حصنك، السحابة لا تراها، وفي عام ٢٠٢٦ لم تعد بحاجة إلى عنقود حوسبة متطوّر لاستثمارها. بطاقة GPU واحدة على رفّ مع بضعة آلاف من الأمثلة المُنتقاة بعناية تكفي لثني نموذج مفتوح الأوزان نحو صوت مؤسّستك، وتصنيفاتها، ومصطلحات منظّمها، واختصاراتها الداخليّة. الآليّات الأساسيّة (LoRA، QLoRA، DPO، التدريب الفعّال في المعاملات) منشورة، ومُحكَّمة، وأصبحت اليوم مستقرّة بشكل ممل. يمشي هذا الدليل عبر ما تفعله كلّ تقنيّة، وما يلزمها من عتاد، وكيف تُعِدّ البيانات دون تسريبها، وكيف تعرف أنّ النتيجة جيّدة، وكيف تُشغّل المُحوِّل الناتج كأيّ أصل مدقَّق آخر.

لماذا يهمّ التدريب الدقيق للذكاء الاصطناعي السيادي

النموذج العامّ مفتوح الأوزان يعرف العالم. لكنّه لا يعرف مؤسّستك. لم يقرأ أدلّة إجراءاتك الداخليّة، ولا مستويات تصنيفك، ولا قوالبك التنظيميّة، ولا الطريقة التي يصيغ بها مديرك العام قراراً. خارج الصندوق، هو متخصّص عام كفء. أمّا بعد بضع ساعات من التدريب الدقيق على ألف مثال مؤسّسي، فيصبح مُلكاً لك بشكل خاص.

للجهة السياديّة، يحمل التدريب الدقيق وزناً ثانياً. البيانات المستخدمة في التدريب هي، بحكم التعريف تقريباً، الذخيرة الأكثر حساسيّة التي تملكها المؤسّسة: مراسلات سابقة، قرارات تاريخيّة، تصنيفات داخليّة، صياغات لهجيّة، مصطلحات تنظيميّة، ملفّات عملاء. لا شيء من هذا قابل للرفع إلى واجهة تدريب سحابيّة. ولا شيء منه يجوز أن يغادر المحيط. التدريب الذي يستلزم إرسال البيانات إلى سحابة أجنبيّة هو خيار ميّت لأيّ عبء عمل يلامس استثناء الأمن الوطني في المرسوم السلطاني 6/2022، أو متطلّبات إقامة البيانات لأيّ منظِّم قطاعيّ.

واقع عام ٢٠٢٦ أنّ التدريب الدقيق داخل المؤسّسة لم يعد فضولاً بحثيّاً، بل أصبح الافتراض. العتاد قابل للشراء، والمكتبات ناضجة، والوصفات مستقرّة، والمُحوِّل الناتج أصل صغير قابل للتدقيق، تستطيع إصداره وتوقيعه وأرشفته والتراجع عنه. ما يلي هو جولة بعين المشتري عبر تفاصيل العمل.

ثورة LoRA في مئتي كلمة

تقنيّة التكييف منخفض الرتبة، التي قدّمها Hu وزملاؤه في Microsoft Research في ورقة LoRA عام ٢٠٢١، هي ما أخرج التدريب الدقيق من مركز البيانات. الفكرة بسيطة: حين تُدرِّب نموذجاً ضخماً تدريباً دقيقاً، لا تحتاج إلى تعديل كلّ وزن. التغيير الفعليّ منخفض الرتبة، أي تحديث صغير ومنظَّم فوق الأوزان الأصليّة. تجمّد LoRA النموذج الأساسي بأكمله، وتُدرج زوجين من المصفوفات الصغيرة (برتبة 8 أو 16 أو 32) داخل طبقات منتقاة. تُدرَّب هذه المصفوفات وحدها، فيما يبقى كلّ ما عداها كما أصدره الناشر.

الأرقام لافتة. في نموذج بسبعة مليارات معامل، تُدرِّب LoRA الكلاسيكيّة نحو 0.1 إلى 1 بالمئة من المعاملات وتبلغ تكافؤ الدقّة مع التدريب الكامل في معظم المهام التطبيقيّة. في نموذج بسبعين مليار معامل، تنخفض النسبة أكثر. ملفّ المُحوِّل الناتج بعشرات الميغابايتات لا الجيغابايتات. تستطيع الاحتفاظ بعشرات المُحوِّلات لكلّ نموذج أساسي، وتبديلها وقت الاستدلال، وتسجيلها في أيّ سجلّ قياسي. النموذج الأساسي على القرص لا يتغيّر، وهو ما يجعل التدقيق وتتبّع المنشأ للأصل الثقيل أمراً تافهاً.

كيف يجعل QLoRA تدريب 70 مليار معامل ممكناً ببطاقة واحدة

تقلّص LoRA عدد المعاملات القابلة للتدريب. ثمّ جاءت ورقة QLoRA، التي نشرها Dettmers وزملاؤه في مايو ٢٠٢٣، لتهاجم البصمة الذاكريّة للنموذج الأساسي المجمَّد نفسه. للمساهمة ثلاثة أجزاء.

الأوّل، نوع بيانات جديد بدقّة 4-bit اسمه NF4 (NormalFloat-4) مثاليّ معلوماتيّاً لأوزان المحوّل ذات التوزيع الطبيعي. الثاني، التكميم المزدوج، الذي يُكمِّم ثوابت التكميم نفسها لاستعادة شريحة صغيرة إضافيّة من الذاكرة. الثالث، المُحسِّنات المُرحَّلة التي تستخدم الذاكرة الموحَّدة من NVIDIA لإراقة حالة المُحسِّن إلى ذاكرة المضيف خلال قمم نقاط فحص التدرّج النادرة، فتمنع انهيار التدريب من نفاد الذاكرة على التسلسلات الطويلة.

الأثر المُجمَّع مذهل. حيث تحتاج LoRA بدقّة 16-bit إلى نحو بايتين لكلّ معامل في الأوزان المجمَّدة، تحتاج NF4 إلى نصف بايت. نموذج بسبعين مليار معامل يستهلك نحو 140 جيجابايت من ذاكرة GPU بدقّة 16-bit يتّسع في حدود 35 جيجابايت بدقّة NF4، ويترك مكاناً لمُحوِّل LoRA وحالة المُحسِّن والتنشيطات على بطاقة محطّة عمل واحدة بسعة 48 جيجابايت أو على H100 واحدة. أثبتت ورقة QLoRA الأصليّة إمكانيّة تدريب نموذج بـ65 مليار معامل على GPU استهلاكيّة واحدة بجودة تضاهي التدريب الكامل بدقّة 16-bit على مجموعة تقييم Vicuna. تلك اللحظة هي حين عبر التدريب الدقيق من نشاط مركز بيانات إلى نشاط محطّة عمل.

أصبح QLoRA الآن الوصفة الافتراضيّة لأيّ نموذج أكبر من 13 مليار معامل على GPU واحدة، والمرجع القياسي لأيّ مؤسّسة تُحجِّم منصّة تدريبها الأولى. التنفيذ مُضَمَّن في مكتبة bitsandbytes، ومُدمَج في كلّ إطار تدريب رئيسي.

التعلّم المعزز وDPO: مواءمة النموذج مع صوت المؤسّسة

التدريب الدقيق المُشرَف يعلّم النموذج ما يقول. أمّا التعلّم المعزز بالتغذية البشريّة فيعلّمه أيّ طريقة قول تفضّلها المؤسّسة. خطّ الإنتاج الكلاسيكي للتعلّم المعزز بالتغذية البشريّة، الذي روّج له عمل OpenAI عام ٢٠١٧ ورُسِّخ في ورقة InstructGPT، يضمّ ثلاث مراحل. الأولى تدريب دقيق مُشرَف على عيّنات إيضاحيّة. الثانية جمع أزواج تفضيل (المشغِّل أ والمشغِّل ب يصنّفان أيّ مخرجين أفضل) ثمّ تدريب نموذج مكافأة منفصل عليها. الثالثة تحسين السياسة، عادةً عبر PPO، حيث يُحدَّث النموذج الأصلي ليُعظِّم درجة نموذج المكافأة مع البقاء قريباً من توزيعه الابتدائي.

هذا الخطّ يعمل، لكنّه هشّ تشغيليّاً. PPO حسّاس للمعاملات الفائقة، ونموذج المكافأة قابل للاحتيال، ورقصة النماذج الأربعة (السياسة، المرجع، المكافأة، القيمة) تلتهم الذاكرة. في عام ٢٠٢٣، جاء التحسين المباشر للتفضيل (DPO)، الذي اقترحه Rafailov وزملاؤه في Stanford، وأزال معظم هذا التعقيد. يُبيّن DPO أنّ هدف RLHF بأكمله يمكن إعادة صياغته بوصفه دالّة فقدان تصنيفيّة مُشرَفة واحدة على أزواج التفضيل، دون أيّ نموذج مكافأة صريح ودون أيّ حلقة تعلّم معزز. يتصرّف التدريب كأيّ تدريب اعتيادي بدالّة فقدان متقاطع. حمل البرهان الرياضي المتكافئ في الورقة DPO من فضول بحثي إلى افتراضي خلال أشهر.

التوجيه العملي لجهات النشر السيادي بسيط: ابدأ بتدريب دقيق مُشرَف لتعليم النموذج المجال. ثمّ، إن توفّر للمؤسّسة ذخيرة بيانات تفضيل (مشغّلون يصنّفون الإجابات الداخليّة بـ"اعتمد هذا" مقابل "أعد الصياغة")، طبّق DPO فوق ذلك. احتفظ بـRLHF القائم على PPO للحالات النادرة التي لا يمكن فيها التعبير عن إشارة المكافأة بأزواج تفضيل، كأن تعتمد على ناتج أداة خارجيّة. تُقدِّم مكتبة TRL من Hugging Face مُدرِّبات إنتاجيّة الجودة لـDPO وIPO وKTO وPPO؛ ويلفّ axolotl هذه الأدوات في تدفّق عمل تقوده ملفّات الإعداد، وهو ما يلائم ضوابط التغيير المؤسّسيّة جيّداً.

تحجيم العتاد للتدريب الدقيق

السؤال العملي ليس "ما الحدّ الأدنى المطلق؟" بل "أيّ عتاد يُمكِّن الفريق من التكرار بسرعة دون احتراق أسابيع في ضبط الذاكرة؟" في عام ٢٠٢٦، طبقات الشراء الصحيحة واضحة.

للنماذج بفئة سبعة مليارات معامل (Gemma 4 بـ4-7 مليار، Qwen 3.6 بسبعة مليارات، Falcon Arabic بسبعة مليارات). بطاقة NVIDIA RTX 6000 Ada أو RTX 6000 Blackwell واحدة بسعة 96 جيجابايت GDDR مريحة للتدريب الدقيق بـLoRA بدقّة 16-bit بأحجام دفعات إنتاجيّة. يدفع QLoRA البطاقة نفسها إلى فئة 13 مليار معامل دون عناء. هذه هي منصّة التدريب لطبقة محطّة العمل: بطاقة واحدة، جهاز مطوِّر واحد، نتائج خلال ساعات.

للنماذج بفئة 27-30 مليار معامل (Gemma 4 27B MoE، Qwen 3.6 27B، نماذج خبراء على نمط Mixtral). H100 واحدة بسعة 80 جيجابايت أو H200 بسعة 141 جيجابايت تستوعب QLoRA بسلاسة. منصّة طبقة Tower بـH100 واحدة هي نقطة البدء المؤسّسيّة الصحيحة: تخدم الاستدلال لأعباء العمل القطاعيّة نهاراً، وتُشغِّل تدريبات ليليّة، وتُنتج مُحوِّلات في يوم عمل واحد لذخيرة نموذجيّة بخمسة آلاف مثال.

للنماذج بفئة 70 مليار معامل. H100 واحدة مع QLoRA ممكنة وفقاً للورقة الأصليّة، لكنّها بطيئة بأحجام دفعات إنتاجيّة. التكوين العمليّ هو بطاقتا H100 أو H200 مع NVLink، ممّا يسمح بـLoRA بدقّة 16-bit ودفعات أكبر وأزمنة ساعة جداريّة محتملة. هذه هي طبقة Rack المؤسّسيّة وهي تخدم بيئة التدريب أيضاً.

للتدريب الكامل بدقّة كاملة للنماذج الأكبر. تعدّد البطاقات إلزامي. أربع إلى ثماني H100 مع NVLink أو NVSwitch، توازي بيانات مُجزَّأ كامل عبر PyTorch FSDP أو DeepSpeed ZeRO-3، وتخزين NVMe عالي النطاق. هذا هو تكوين الحصّة الصغيرة من أعباء العمل التي تحتاج فعلاً إلى التدريب الكامل. معظم الأعباء المؤسّسيّة لا تحتاجه، ويُلجأ إليه فقط بعد قياس LoRA وQLoRA واستبعادهما على شريحة تمثيليّة.

قاعدة تحجيم واحدة تتفوّق على الباقي: اشترِ أصغر طبقة تستوعب أكبر تدريب دقيق واقعي للمؤسّسة في أقلّ من أربع وعشرين ساعة من زمن الساعة الجداريّة، مع طبقة احتياطيّة واحدة. سرعة التكرار هي المتغيّر المهيمن في جودة التدريب الدقيق. فريق يُجري خمس تجارب أسبوعيّاً يتفوّق على فريق يُجري واحدة، أيّاً كان طراز البطاقة.

إعداد البيانات للتدريبات السياديّة

العتاد هو الجزء السهل. الجزء الصعب هو البيانات. مجموعة بيانات التدريب الدقيق السيادي أصل حسّاس بحدّ ذاته، ويستحقّ معاملة المستندات المصنّفة الأخرى نفسها.

ابدأ بالتصنيف. يحمل كلّ مثال تصنيف مصدره. خلط مثال "سرّي" داخل مجموعة تدريبيّة "محدودة" يرفع المُحوِّل الناتج إلى مستوى "سرّي". المُحوِّل يرث أعلى تصنيف لأيّ مثال في ذخيرته التدريبيّة، انتهى الأمر. هذه القاعدة هي القرار الحوكمي الأهمّ في خطّ الإنتاج، ويجب أن تنفذها الأدوات لا حسن النيّة.

انتقل إلى معالجة البيانات الشخصيّة (PII). معظم الذخائر المؤسّسيّة تتضمّن بيانات شخصيّة: أسماء، أرقام تعريف، مراجع عملاء، عناوين. لبعض أهداف التدريب هذا مقبول بل ضروري. لمعظمها ليس كذلك. تنظيف ما قبل التدريب الذي يستبدل المُعرِّفات الشخصيّة بعنصر نائب (NAME_1، NID_1، ACCOUNT_1) يحفظ الإشارة اللغويّة ويُزيل خطر التسريب. العناصر النائبة قابلة للعكس فقط مقابل جدول ربط غير متّصل يعيش خارج بيئة التدريب.

ثمّ تقسيم التدريب والتقييم. التقسيم العشوائي السذج خيار خاطئ حين تتضمّن الذخيرة مستندات مترابطة. التقسيم بالتاريخ، أو بملفّ القضيّة، أو بالمؤلِّف يمنع تسرّب شبه-المكرّرات بين التدريب والتقييم ويعطي قياساً أكثر صدقاً. احجز ما لا يقلّ عن 10% من الذخيرة المُنظَّفة للتقييم، ولا تدع تدريباً واحداً يلامسها.

أخيراً، التنسيق. تتوقّع مكتبة التدريب الدقيق مخطّطاً محدّداً (تعليمة، مدخل، مخرج للتدريب المُشرَف؛ ومحفّز، مختار، مرفوض لـDPO). حوِّل مرّة، وجزِّئ JSONL الناتج، واحفظ تجزئته في سجلّ مجموعات البيانات. كلّ تدريب دقيق يسجّل أيّ تجزئة بيانات استخدمها. القابليّة لإعادة الإنتاج لا تكلّف شيئاً تقريباً في هذه المرحلة، وتوفّر أسابيع من اللبس بعد ستّة أشهر.

التقييم: ما شكل النتيجة الجيّدة

سؤال التقييم ينقسم نصفين: مجموعات آليّة، ومراجعة بشريّة.

النصف الآلي غير قابل للتفاوض. كلّ تدريب دقيق يُنتج درجة عدديّة على مجموعة تقييم ثابتة تتضمّن شريحة محجوزة من ذخيرة المؤسّسة الخاصّة، ومعياراً عامّاً للقدرات (MMLU، GSM8K، HumanEval) لرصد التراجع في الكفاءة العامّة، وأيّ مجموعة قطاعيّة تخصّ حالة استخدام المؤسّسة (أسئلة قانونيّة، اللغة العربيّة، إكمال البرمجة). تظلّ المجموعة نفسها عبر التدريبات لتكون المقارنات صادقة. أدوات مثل lm-evaluation-harness من EleutherAI هي المعيار للمعايير العامّة؛ والمؤسّسة تكتب مُشغِّلها الخاص للشريحة الخاصّة.

النصف البشري يلتقط ما تفوّته المجموعات الآليّة. اختر خمسة إلى عشرة مشغّلين سيكونون المستخدمين الفعليّين للنموذج. شغِّل اختبار A/B أعمى بين المُحوِّل الجديد والمُحوِّل الإنتاجي السابق على عشرين محفّزاً حقيقيّاً لكلّ مشغِّل. يصنّف المشغّلون كلّ زوج بحسب الدقّة والفائدة والنبرة. الأرقام مزعجة، لكنّ الإشارة المُجمَّعة عبر ثلاثين زوجاً موثوقة بما يكفي لبوّابة طرح إنتاجي. مُحوِّل جديد يخسر أمام السائد في تفضيل المشغّلين لا يُطلَق، أيّاً كانت درجته على المجموعة الآليّة.

حاجز أخير. اختبر المُحوِّل الجديد على مجموعة صغيرة من المحفّزات الخصيمة وخارج التوزيع قبل الترقية. يستطيع التدريب الدقيق أن يُضعف سلوك السلامة بشكل خفيّ على مدخلات لا يراها المشغّلون في تدفّقهم الاعتيادي. فحص فريق أحمر لعشر دقائق وقت الترقية يمنع فئة من الحوادث يصعب اكتشافها بعد النشر.

تشغيل المُحوِّل في الإنتاج

انتهى التدريب. الأرقام جيّدة. الآن تبدأ العمليّات.

عامل ملفّ المُحوِّل بوصفه أصلاً ذا إصدارات. كلّ إصدار يحصل على رقم نسخة دلالي، وتجزئة SHA-256، وتجزئة مجموعة البيانات التي دُرِّب عليها، ونسخة النموذج الأساسي التي يُثبَّت معها، ونسخة إطار التدريب، وتقرير التقييم. كلّ هذا يعيش في سجلّ صغير داخل المؤسّسة. السجلّ هو مصدر الحقيقة: مُحوِّل غير مُسجَّل غير قابل للنشر.

انشر عبر بيئة تجريب معزولة. المُحوِّل الجديد يُحمَّل أوّلاً في نسخة طبق الأصل غير إنتاجيّة من خادم الاستدلال، خلف راية ميزة تكشفه لمجموعة مستخدمين مضبوطة. المجموعة تُشغِّل أعباء عمل حقيقيّة لأسبوع إلى أسبوعين. إن صمدت بيانات القياس، ومعدّلات الأخطاء، وملاحظات المشغّلين، تنقلب الراية إلى الإنتاج. وإن تراجع شيء، تنقلب إلى الخلف. النموذج الأساسي لم يتحرّك، فالتراجع لحظي.

خطّط لانتشار المُحوِّلات. مؤسّسة ناضجة ستراكم مُحوِّلات لكلّ قسم، ولكلّ حالة استخدام، ولكلّ منظِّم، ولكلّ لغة. خوادم الاستدلال مثل vLLM وTGI تدعم الآن التحميل الساخن للمُحوِّلات لكلّ طلب، ممّا يعني أنّ نموذجاً أساسيّاً واحداً يستطيع خدمة عشرات السلوكيّات المتخصّصة من تجمّع GPU نفسه. النمط التشغيلي هو نموذج أساسي قانوني واحد لكلّ جيل، ومُحوِّلات كثيرة فوقه، كلّها صغيرة، كلّها مُجزَّأة، كلّها مملوكة للمؤسّسة.

خطّط للتقاعد. المُحوِّلات تشيخ. النموذج الأساسي يحصل على تحديث أمني، وتظهر متغيّرات جديدة، ويغيّر المنظِّم المصطلحات، وتتحوّل تفضيلات المشغّلين. كلّ مُحوِّل له وتيرة مراجعة محدّدة (ستّة أو اثنا عشر شهراً)، ويُظهر السجلّ ما تجاوز موعده. تقاعد مُحوِّل غير مستخدم تغيير سطر واحد في السجلّ. إعادة تدريبه مهمّة نصف يوم لا مشروع.

إذا كانت مؤسّستك تنتقل من نماذج جاهزة مفتوحة الأوزان إلى نشر مُدرَّب دقيقاً، مُواءَم في الصوت، مُدرِك للتصنيف، وتودّ لقاء إحاطة لمدّة ساعة حول البيانات والعتاد والنمط التشغيلي المناسب لوضعك، فالخطوة التالية بسيطة. راسلنا على [email protected] أو واتساب +968 9889 9100. سنمشي معك عبر شكل ذخيرتك، ومستويات تصنيفك، وطبقة العتاد المستهدفة، وخطّة تدريب وتقييم موثوقة على جدولك. الأسعار بحسب الطلب، مُحجَّمة على متطلّبك المحدّد.

أسئلة شائعة

هل أحتاج إلى عنقود حوسبة متطوّر لتدريب نموذج مفيد؟

لا. أثبتت ورقة QLoRA المنشورة عام ٢٠٢٣ أنّ تدريب نموذج بحجم 65 مليار معامل ممكن على بطاقة استهلاكيّة واحدة بسعة 48 جيجابايت، وبجودة تضاهي التدريب الكامل بدقّة 16-bit. في عام ٢٠٢٦، تستوعب بطاقة RTX 6000 Ada أو RTX 6000 Blackwell واحدة نماذج 7 إلى 13 مليار معامل بدقّة كاملة عبر LoRA، ونماذج 70 مليار معامل عبر QLoRA. عنق الزجاجة المؤسّسي هو إعداد البيانات وانضباط التقييم، لا الحوسبة الخام.

هل جودة LoRA تساوي فعلاً جودة التدريب الكامل؟

في معظم المهام المؤسّسيّة، نعم. أظهرت الورقة الأصليّة لـLoRA من Hu وزملائه في Microsoft Research تكافؤاً أو شبه تكافؤ مع التدريب الكامل عبر معايير GLUE وWikiSQL وSAMSum، مع تدريب نسبة ضئيلة فقط من المعاملات. للمهام التي تتطلّب استيعاب قدرات جديدة كلّيّاً، قد يتفوّق التدريب الكامل قليلاً. الاختبار الصحيح هو تشغيل الاثنين على شريحة تمثيليّة من بياناتك ومقارنتهما على مجموعة التقييم المحجوزة.

ما الفرق بين RLHF وDPO، وأيّهما نستخدم؟

RLHF بصيغته التقليديّة يدرّب نموذج مكافأة من أزواج التفضيل البشريّة، ثمّ يُحسِّن نموذج السياسة مقابله باستخدام PPO. أمّا DPO، الذي قدّمه Rafailov وزملاؤه عام ٢٠٢٣، فيُلغي نموذج المكافأة الصريح وحلقة التعلّم المعزز، ويصوغ الهدف بوصفه دالّة فقدان مُشرَفة مباشرة على أزواج التفضيل. DPO أبسط وأكثر استقراراً، وهو نقطة البداية الصحيحة في كلّ نشر سيادي تقريباً. لا تلجأ إلى RLHF بصيغة PPO إلّا حين يعجز DPO عن التعبير عن إشارة المكافأة.

هل يمكن إجراء التدريب الدقيق ضمن نظام معزول تماماً عن الإنترنت؟

نعم. يجري تنزيل النموذج الأساسي، والمُجزِّئ، وإطار التدريب (axolotl، TRL، Hugging Face Transformers)، ومكتبة التكميم (bitsandbytes) مرّة واحدة عبر قناة مضبوطة، ثمّ تُدقَّق توقيعات الناشر وتُثبَّت الإصدارات. التدريب نفسه عمليّة حسابيّة محلّيّة قطعيّة. لا تخرج أيّ بيانات قياس عن المحيط، ويبقى ملفّ المُحوِّل الناتج أصلاً سياديّاً مملوكاً للمؤسّسة.

كم نحتاج من البيانات الموسومة؟

أقلّ ممّا تتوقّعه معظم الفرق. للتدريب الدقيق على هيئة تعليمات لمهمّة متخصّصة، تكفي عادةً 1,000 إلى 5,000 مثال عالي الجودة لإحداث تحسّن قابل للقياس. لأعمال الأسلوب والنبرة، قد تكفي 200 إلى 500 مثال مكتوب بعناية. المتغيّر المهيمن هو جودة البيانات لا كمّيتها. قضاء أسبوعين على مجموعة بيانات نظيفة مُدرِكة لمستويات التصنيف يتفوّق على قضاء أسبوعين في تجميع مجموعة أكبر بعشرة أضعاف ولكنّها مزعجة.

كيف نتراجع عن تدريب دقيق سيّئ؟

تجعل المُحوِّلات التراجع تافهاً. كلّ تدريب يُنتج ملفّ مُحوِّل صغير (عشرات الميغابايتات في الغالب) يُحمَّل فوق النموذج الأساسي غير القابل للتغيير. الإصدارات تعيش في سجلّ المُحوِّلات الخاصّ بالمؤسّسة. التراجع يعني تفريغ المُحوِّل المعطوب وتحميل النسخة السابقة، دون أيّ تبديل للنموذج. هذه إحدى الأسباب التشغيليّة لكون التدريب على نمط LoRA هو النمط السائد في الإنتاج.

لماذا يهمّ التدريب الدقيق للذكاء الاصطناعي السيادي

ثورة LoRA في مئتي كلمة

كيف يجعل QLoRA تدريب 70 مليار معامل ممكناً ببطاقة واحدة

التعلّم المعزز وDPO: مواءمة النموذج مع صوت المؤسّسة

تحجيم العتاد للتدريب الدقيق

إعداد البيانات للتدريبات السياديّة

التقييم: ما شكل النتيجة الجيّدة

تشغيل المُحوِّل في الإنتاج

أسئلة شائعة

مقالات ذات صلة

التدريب الدقيق لنموذج Gemma على ذخيرة قانونيّة عُمانيّة

التدريب الدقيق لـQwen على بيانات سرّيّة مع سلامة RLHF

DPO وRLHF على البيانات الخاصّة