تصميم طبقة التخزين لأوزان نماذج اللغة وذاكرة KV
معظم تصاميم الأجهزة السيادية للذكاء الاصطناعي تبدأ من وحدة المعالجة الرسومية وتنتهي عند منفذ الشبكة. أمّا طبقة التخزين بينهما، حيث تسكن الأوزان، وحيث تفيض ذاكرة KV، وحيث تُقرأ مكتبات الاسترجاع، فهي التي تقرّر هل يعود الجهاز إلى الخدمة في 40 ثانية أم في 12 دقيقة، وهل يستطيع مستخدم واحد أن يُعطّل الجلسات المتزامنة كلّها. هذه المقالة تُقسِّم الطبقة إلى ثلاثة أدوار، وتعطي قواعدَ مُجرَّبة لكلٍّ منها على جهاز من فئة حصن.
ثلاثة أدوار للتخزين داخل جهاز واحد
كل نشر محلّي لنماذج اللغة يُشغّل بهدوء ثلاثة أحمال تخزين متمايزة، بأنماط وصول مختلفة جدًا. التعامل معها كمسألة تخزين جماعية واحدة هو أكثر الأخطاء المعمارية شيوعًا في طلبات العروض السيادية.
- أوزان النماذج. تُقرأ مرّة عند بدء التشغيل، وقد تُعاد قراءتها عند كل تبديل نموذج. تسلسلية، باردة، تتحمّل التأخير إذا كان المُشغِّل صبورًا، وتصبح حسّاسة للزمن إذا تعهّد اتّفاق الخدمة بإعادة تشغيل دون الدقيقة. حِفاظ نموذج Gemma 4 أو Qwen 3.6 بصيغة BF16 يقع بين 70 و200 جيجابايت، أمّا النسخة المُكمَّمة بصيغة GGUF فتقع بين 20 و60 جيجابايت (توثيق Hugging Face لتحميل النماذج الكبيرة).
- فائض ذاكرة KV. عشوائي، حسّاس للزمن، يُكتب ويُقرأ في صفحات ثابتة الحجم بواسطة محرّك التشغيل عندما تمتلئ ذاكرة المعالج الرسومي. يُتيح vLLM وSGLang أهداف تبديل صريحة على الذاكرة المركزية والقرص، فتُوقَف الجلسات الطويلة دون فقدان سياقها (تصميم PagedAttention في vLLM).
- مجموعات البيانات ومكتبة RAG. غالبها قراءة، يمزج التسلسلي والعشوائي، وكثيرًا ما تُتشارك بين العقد عند توسّع النشر إلى أكثر من جهاز. التضمينات المفهرسة وكتل الوثائق تتراوح من جيجابايتات قليلة (مكتبة سياسات وزارة واحدة) إلى عدّة تيرابايتات (أرشيف وطني).
مبدأ التطبيق بسيط: ضع الأوزان وفائض KV على NVMe محلي داخل عقدة المعالج الرسومي، وضع المكتبات المشتركة على نظام ملفات شبكي تستطيع كل عقدة ربطه. خلطها على جهاز مشترك واحد هو ما يُنتج إعادات التشغيل الطويلة وتعطيل الجار الضوضائي الذي يظهر في مراجعات إثبات المفهوم.
NVMe محلي للأوزان وفائض KV
الأوزان وفائض KV كلاهما يريد جهازًا كتليًّا سريعًا مخصّصًا محليًا. الإجابة الصحيحة في 2026 هي أقراص NVMe من فئة U.2 أو E1.S على PCIe Gen4 أو Gen5 داخل هيكل المعالج الرسومي. يُحقّق قرص Gen4 مؤسسي واحد قراءة تسلسلية مستدامة بمعدّل 6 إلى 7 جيجابايت في الثانية، ويُضاعف قرص Gen5 ذلك إلى 12 إلى 14 جيجابايت في الثانية (مؤتمر SNIA لمطوّري التخزين 2023، PCIe Gen5 NVMe). هذا هو الفرق بين تحميل بارد لحفاظ BF16 بحجم 140 جيجابايت في 22 ثانية، وتمديد التحميل ذاته إلى أربع دقائق على قرص SATA SSD.
أمّا فائض KV فالمعيار المهيمن هو زمن القراءة العشوائية تحت الحمل المتزامن. الاختيار الصحيح هو أقراص NVMe مؤسسية بحماية كاملة من انقطاع التيار وزمن قراءة عشوائي ثابت دون 100 ميكروثانية عند عمق طابور 32. الأقراص الاستهلاكية من فئة M.2 قد تُجاري أرقام الإنتاجية الخام في معيار، لكنها تنهار تحت ضغط مختلط مستدام للقراءة والكتابة بمجرّد امتلاء ذاكرة SLC الوسيطة، وهو الوضع الذي يُنتجه فائض KV تحت الحمل. نعتمد قرصَيْن من فئة U.2 في وضع المرآة للأوزان، وقرصًا منفصلًا مخصّصًا لمسوّدات KV دون RAID، لأن البيانات قابلة للاستنساخ وحسّاسة للزمن.
تخزين شبكي للمكتبات المشتركة
متى ما تجاوز النشر السيادي عقدةً واحدة، أو تجاوزت مكتبة الاسترجاع بضع مئات من الجيجابايتات، صار التخزين الشبكي ضرورة لا خيارًا. النهجان القابلان للتطبيق داخل نشر حصن معزول هما NFS فوق RDMA على عتاد سلعي، أو نظام ملفات متوازٍ مخصّص مثل Weka أو VAST.
- NFS فوق RDMA. ناضج، مفهوم جيدًا، ويعمل على نفس نسيج إيثرنت 100 جيجابت المُستخدم بين عقد المعالج الرسومي للتوازي على مستوى التِنسر وخطوط الأنابيب. يدعم عميل النواة نقل RDMA مباشرةً، فتُشبع مكتبة من رأس تخزين واحد وصلة 100 جيجابت دون تعقيد. هو الإجابة الصحيحة للوزارات والجهات التنظيمية ومعظم البنوك السيادية.
- Weka أو VAST. أنظمة ملفات متوازية تتوسّع أفقيًا عبر عقد تخزين متعدّدة وتقدّم فضاء أسماء واحد. تستحقّ كلفة الدمج عندما يكون التدريب المتزامن مطروحًا، أو حين تتجاوز المكتبة عشرات التيرابايتات، أو حين تطرق عقد رسومية كثيرة الواقعة ذاتها فيصبح رأس NFS مرجعيًّا عنق الزجاجة. توضّح أدبيات التدريب مسارات GPUDirect Storage التي تتجاوز المعالج المضيف كليًّا (دليل NVIDIA GPUDirect Storage).
لمعظم المؤسسات السيادية، نقطة الانطلاق الصحيحة هي NFS فوق RDMA. يستخدم نفس النسيج المادي لباقي شبكة عنقود الذكاء الاصطناعي 100/25 جيجابت، فيُبقي قائمة المواد وعبء الدمج ومجال الفشل صغيرًا.
تَبِعات العزل التام: حِزَم موقَّعة، لا مخازن كائنات بعيدة
تختلف طبقة التخزين داخل نشر معزول حقًا. لا يوجد دلو S3، ولا مرآة Hugging Face، ولا Artifactory يمكن للجهاز الوصول إليه. كل ملف نموذج، ومُرمِّز، ومُحوِّل ضبط، وفهرس تضمين، يجب أن يصل عبر العزل في صورة حِزمة موقَّعة، ويُتحقَّق منها محليًا قبل أن تلامس التخزين العامل. تشرح المقالة المرجعية حول معمارية شبكة العزل للذكاء الاصطناعي آلية النقل بتفصيل، وتَبِعة طبقة التخزين هي أن التخطيط على الجهاز يجب أن يَدعم هذا التدفّق دون تعديل برمجي.
عمليًّا يعني ذلك ثلاثة أمور على كل جهاز حصن. أولًا، تسكن الأوزان تحت شجرة دلائل مُصدَّرة بإصدار، مع ملفات بيان تلتقط تجزئات SHA-256 وتواقيع الحِزَم، لا تحت مسار اختاره سكريبت تنزيل. ثانيًا، يتحقّق المُحمِّل من التواقيع مقابل مفاتيح المُشغِّل المُثبَّتة قبل ربط أي تنسر بذاكرة VRAM. ثالثًا، لا يصل الجهاز إلى أي سجلّ بعيد ليتحرّى التحديثات، فالتحديثات لا تصل إلا حين يُسلّمها مُشغِّل ويتحقّق منها. هذا هو الخطّ الفاصل بين صندوق معزول حقيقي وآخر متّصل بالسحابة بطلاء حصين.
لقراءة المقالة المرجعية حول AI rack power cooling airgap، وكيف تجلس طبقة التخزين هذه داخل تصميم الرف والمنشأة الأوسع، طالعها للتعمّق. لتحديد حجم NVMe والتخزين الشبكي لحملك تحديدًا، راسلنا على [email protected] لجلسة تعريف لمدّة ساعة.
أسئلة شائعة
لماذا تُفضَّل أقراص NVMe المحلية على شبكة التخزين لأوزان النماذج؟
تحميل ملف نموذج بحجم 70 إلى 200 جيجابايت عبر مشاركة شبكية يضيف عشرات الثواني إلى وقت إعادة التشغيل ويُنشئ تبعية صلبة على صندوق تخزين منفصل. أقراص NVMe المحلية من فئة U.2 على PCIe Gen4 أو Gen5 داخل عقدة وحدة المعالجة الرسومية تقدّم 6 إلى 14 جيجابايت في الثانية قراءة مستدامة، فتنتقل الأوزان إلى ذاكرة VRAM في أقل من دقيقة ويبقى الجهاز قائمًا بذاته.
متى يُجدي إفراغ ذاكرة KV إلى SSD بدلًا من إنهاء الجلسة؟
الإفراغ مُجدٍ عندما تكون الجلسات طويلة الأمد ومرشّحة للاستئناف، كمحلّل في جهة تنظيمية يتوقّف لحضور اجتماع. منصّات التشغيل الحديثة مثل vLLM وSGLang تستطيع نقل كتل KV الخاملة إلى NVMe واستعادتها عند الاستئناف، وهو أرخص من إعادة حساب 200 ألف رمز من السياق. أمّا في الإجابات اللحظية فالطرد بدون إفراغ غالبًا أوفر.
هل نحتاج عنقود Weka أو VAST، أم يكفي NFS فوق RDMA؟
لجهاز Hosn Tower أو Rack واحد يخدم الاستدلال وضبطًا متواضعًا، يكفي NFS فوق RDMA على عتاد قياسي للمكتبات المشتركة. نظام ملفات متوازٍ مثل Weka أو VAST يبدأ في الإجداء حين تتدرّب عدّة عقد متزامنًا على نفس المكتبة، أو حين تتجاوز البيانات عشرات التيرابايتات بمتطلّبات صارمة لزمن القراءة العشوائية.
كيف تصل تحديثات النماذج إلى جهاز حصن المعزول تمامًا؟
يَشحن حصن كل نموذج ومُرمِّز ووزن في صورة حِزمة موقَّعة على وسيط أحادي الاتجاه، عادةً وسيط مشفّر أو مُحوِّل ديود مُؤمَّن. يتحقّق الجهاز من التواقيع مقابل مفاتيح مثبَّتة قبل التحميل. لا يوجد اتّصال خلفي بمخزن كائنات بعيد، ولا سجلّ أوزان سحابي، ولا مسار تحديث آلي يعبر طبقة العزل.