خزائن الذكاء الاصطناعي ذات المستوى المركزي: الطاقة والتبريد ومزوّد الطاقة غير المنقطع وتصميم الشبكة المعزولة

خزانة الذكاء الاصطناعي السيادية ليست خادماً تُدرجه في الخزانة القائمة. حِمل التبريد لنظام H100 واحد كامل يضاهي مكتب شركة صغيرة بأكمله، والشبكة مطلوبٌ منها أن ترفض البايتات الصادرة على مستوى الفيزياء، والغرفة نفسها جزء من نموذج التهديد. هذا دليل ميداني لمسؤول المشتريات ومهندس المرافق وضابط الأمن الذين يوقّعون اللوحة نفسها. الطاقة، التبريد، UPS، الأمن المادي، عزل الشبكة، التخزين، والجدول الواقعي 12-20 أسبوعاً الذي يحوّل أرضية فارغة إلى بيئة من المستوى A.

من الآلة الافتراضية إلى الخزانة داخل الحصن

الغريزة السحابية تسأل: «أيّ نوع من الخوادم يناسب الحمل؟» وتترك الطبقة المادية لغيرها. تنكسر هذه الغريزة لحظة تمنع قواعد التصنيف عبور البيانات من المحيط. يتحوّل السؤال من «أيّ خادم» إلى «أيّ غرفة»، وتصبح الغرفة بنداً تسليمياً في كرّاسة الشروط نفسها التي تشتري بها الوحدات الرسومية.

ثلاث إعادات تأطير مفيدة قبل تسعير أيّ بند:

  • الخزانة هي وحدة التصميم لا الوحدة الرسومية. الطاقة والتبريد والوزن والشبكة تُحجَز على مستوى الخزانة. نظام بثماني وحدات يستهلك عشرة كيلوواطات أقرب إلى ورشة صغيرة منه إلى خادم بحجم صندوق البيتزا.
  • الغرفة هي وحدة الاعتماد لا الخزانة. تُصادق الجهات المعتمِدة على الجدران والأبواب والمجاري ومسارات الكابلات. خزانة محكمة داخل غرفة مُسرِّبة تسقط في التدقيق.
  • سلسلة التوريد هي وحدة الثقة لا العلامة. الشحن المختوم والاختبارات المصنعية وقوائم البرامج الثابتة الموقّعة أهمّ من شعار الواجهة.

لخلفية حول استبعاد السحابة العامة في الطبقة السيادية، راجع المقال الأم عن الذكاء الاصطناعي داخل المؤسسات السيادية. هذا المقال يفترض أنّ هذا القرار مُتَّخَذ.

الطاقة: استهلاك الوحدة والخزانة وتحجيم UPS

ابدأ من الرقاقة. نشرة بيانات NVIDIA H100 تُقدِّر شكل SXM5 بـ 700 واط أقصى تصميم حراري، وشقيقها PCIe عند 350 واط. أمّا H200 SXM الأحدث، فيرفع الظرف إلى 1000 واط لكل وحدة. ثماني وحدات على لوحة HGX تعطيك 5.6 إلى 8 كيلوواط من الرقاقات وحدها قبل أن تحسب المعالج والذاكرة وNVSwitch وبطاقات الشبكة والأقراص والمراوح وفاقد المزودات.

تنشر NVIDIA الرقم على مستوى النظام في دليل DGX H100: 10.2 كيلوواط ذروة لكل وحدة. خزانة بأربعة أنظمة مع محوّل وفائض موزِّع تتراوح بين 41 و45 كيلوواط تحت تدريب مستمر. أحمال الاستدلال أقل، 60-70 ٪ من الذروة، لكنّك تحجِّم تغذية الخزانة على أسوأ الحالات.

قائمة تخطيط الطاقة:

  • تغذيتان متباينتان A وB من محولين منفصلين. كلٌّ منهما بحمل الخزانة الكامل، ليحمل الناجي الحمل كلّه عند سقوط شقيقه.
  • 415 فولت ثلاثي الطور إلى موزِّع الخزانة، لا 230 فولت أحادي الطور. تيار 195 أمبير لخزانة 45 كيلوواط على أحادي الطور يحوّل الكابلات إلى قضبان نحاسية.
  • تحجيم UPS على المُحوِّل لا المتوسط. خزانة بأربع وحدات بذروة 22 كيلوواط تحتاج UPS سعة 30 كيلوفولت أمبير عند 0.9 معامل قدرة. خزانة الثماني عند 45 كيلوواط تحتاج 60 كيلوفولت أمبير. تنشر APC وVertiv وEaton أدوات تحجيم تأخذ الانطلاق والتشوّه التوافقي بالحسبان.
  • زمن تشغيل المولّد مرتبط بالسياسة. غرفة محصّنة لا تتحمّل فقدان الحالة تحتاج ديزل يحمل الحمل ثماني ساعات على الأقل، مع عقد وقود يضمن إعادة التزويد خلال 72 ساعة. أيّ شيء أقل من ذلك تظاهرٌ لا أكثر.
  • ممرّ الالتفاف ومحوّلات العزل بين شبكة الخدمة وخزانة الوحدات الرسومية. مسار مباشر سيُسقط النظام عند أوّل هبوط جهد، وذاكرة GPU لن تنجو من إعادة التشغيل البارد بسلاسة.

التفصيلة المنسيّة: مزودات GPU ليست عند معامل قدرة الواحد. خطّط UPS بالكيلوفولت أمبير لا الكيلوواط، وأكِّد بصمة التشوّه مع المورِّد. UPS سيِّئ الاختيار يتراجع 20 ٪ تحت حِمل عالي THD، وستكتشف ذلك عند التشغيل لا قبله.

التبريد: هوائي وسائل، وعامل مناخ مسقط

دلائل ASHRAE TC 9.9 الحرارية تعرّف الأظرفة. الفئة A2، غرفة المؤسسة الاعتيادية، تسمح بهواء داخل من 10 إلى 35 درجة مئوية. تعمل H100 داخل A2، لكنّ كل درجة فوق 27 تكلِّف طاقة مراوح وتختصر العمر. تحديث 2021 لـ سلسلة Datacom أدخل ظرف H1 خصيصاً لأحمال الذكاء الاصطناعي عالية الكثافة.

تحت 25 كيلوواط لكل خزانة، يوصِل حجز الممرّ الحار ووحدات CRAH بالماء المبرَّد الهواءَ إلى المدخل عند 22 إلى 25 درجة. فوق 30 كيلوواط أنت تصارع الفيزياء. هواء بكثافة 1.2 كغ/م³ يحمل تقريباً كيلوواطاً لكل متر مكعب في الثانية لكل درجة فارق، أي 35-40 م³/ث لخزانة 45 كيلوواط، وهذه تهوية صناعية لا غرفة خوادم.

الجواب العملي عند 30 كيلوواط فأكثر هو التبريد السائل المباشر إلى الرقاقة. صفائح باردة على نواة GPU وغطاء المعالج، ماء عند 35-45 درجة إمداد، ووحدة توزيع مبرِّد CDU لكل خزانة. تذكر مشاريع Open Compute للتبريد تصنيفي W32 وW45. مبادلات الباب الخلفي طريق وسط: تجلس على عادم الخزانة وتسحب الحرارة قبل دخولها الغرفة، وتترك الباقي على تكييف تقليدي.

تعديلات مسقط جوهرية. درجات حرارة الجاف الصيفية 42 وكُتلة رطبة تقترب من 30 تنسف أيّ خطّة بالمبرِّدات الجافة. التركيبات الناجحة فعلاً في هذا المناخ:

  • محطّة ماء مبرَّد بمضاغط طرد مركزي ذات محامل مغناطيسية، محسوبة عند 38 درجة محيطة مع تكرار N+1.
  • مبادلات باب خلفي أو CRAH داخل الصف على الخزانة، تتغذّى من حلقة الماء المبرَّد عند 14-18 درجة.
  • اقتصادي تبريد حر مفيد فقط في ديسمبر-فبراير وفي الليل. خطّط له كهديّة لا كأساس.
  • تحكّم رطوبة أدقّ مما يوحي المناخ. الرطوبة الساحلية مع تبريد عدواني تُسبِّب تكثّفاً على الصفائح الباردة، وهذا عَطَل لا ميزة.

للتحليل الأبعادي على صندوق رباعي الوحدات مضبوط على مسقط، راجع تبريد خزانة رباعية الوحدات في مناخ مسقط.

الأمن المادي: غرف من فئة SCIF والتحكّم بالدخول

يبقى التوجيه ICD 705 أكثر معايير الإنشاء استشهاداً عالمياً للمنشآت ذات المعلومات الحساسة المقسَّمة. حتى عندما لا يكون المُعتمِد المحلي هو الجهة الأمريكية، يبقى ICD 705 الخطّ الأساس. السمات ذات الصلة:

  • الإنشاء. جدران من بلاطة إلى بلاطة، لا أسقف زائفة تعبر الحدّ، تدريع راديوي (عادة 80 ديسيبل في 1 ميغاهرتز إلى 10 جيغاهرتز)، عزل صوتي من الفئة الثالثة، لا زجاج محيطي.
  • التحكّم بالدخول. عاملان عند الباب (بطاقة وبيومتري)، مراجعة قائمة الدخول شهرياً، قاعدة الشخصين عند انكشاف مادة مصنّفة.
  • كشف الاقتحام. مفاتيح مغناطيسية متوازنة على كل باب، حسّاسات حركة وكسر زجاج، مراقبة 24/7 من مركز مرخّص باستجابة مسلَّحة.
  • الكاميرات. كل باب، كل واجهة خزانة، كل مسار كابل. يُحتفظ بالتسجيلات بحسب سياسة الجهة المنظِّمة، 90 يوماً عادةً كحدّ أدنى.
  • مسارات الكابلات. تدخل الكابلات من اختراق وحيد، مختوم ومُفتَّش، لا مجاري مشتركة مع دوائر غير مصنّفة.

في عُمان ينشر المركز الوطني للسلامة المعلوماتية إرشادات بناء منشآت آمنة منسجمة مع المعايير الدولية. نسِّق التنفيذ مع الجهة المعتمِدة قبل صبّ الخرسانة. تركيب التدريع الراديوي لاحقاً يكلِّف ثلاثة أضعاف ما يكلِّف بناؤه صحيحاً من البداية.

للنشر دون SCIF (ما يعادل سرّي أو أدنى)، يمكن للعتاد ذاته أن يجلس في غرفة محصّنة بدخول بيومتري، وخزائن مقاومة للعبث، وتغطية كاميرات مستمرّة. الجهة المعتمِدة، لا المورِّد، هي من يضع الحدّ.

الشبكة: العزل، الديود البياني، شبكات VLAN المصنّفة

«العزل» عقد لا كلمة تسويقية. يعني صفر مسار حيّ من البيئة المصنّفة إلى أيّ شيء خارجها. التحديثات والقياسات وأيّ بايتات قادمة تعبر بوّابة أحادية، أيضاً ديود بياني، يُفرَض في عتاد بصري: ليف إرسال بلا ليف استقبال، أو زوج ضوئي أحادي. تتدفّق البايتات للداخل فقط، ولا يستطيع الجانب العالي الإشارة إلى الجانب الواطئ بحكم الفيزياء لا بقاعدة جدار حماية.

البنية المرجعية للبيئة السيادية:

  1. المحيط الخارجي (الجانب الواطئ). منطقة إنترنت أو إنترانت تضم تحديثات النموذج وتصحيحات المورِّدين ومحطّات المشغّلين. جدران حماية تقليدية، IDS، SIEM.
  2. الحلّ بين النطاقات. هنا يجلس الديود البياني، إضافة إلى جهاز نزع المحتوى الفعّال وإعادة بنائه (CDR). يصف إرشاد NSA لحلول النطاق المتقاطع النمط، وقائمة المنتجات المعتمدة من NCDSMO متبعَة دولياً.
  3. المحيط الداخلي (الجانب العالي). شبكة VLAN المصنّفة. لا DHCP من الخارج، ولا تحليل أسماء يخرج عن مُحلِّل داخلي مختصر، ولا NTP عام. مزامنة الزمن من مستقبِل GPS داخلي.
  4. نسيج حساب GPU. InfiniBand أو RoCE بين العقد للعمليات الجماعية. لا يَعبُر هذا النسيج إلى VLAN المصنّفة، فهو شبكة منفصلة فيزيائياً.
  5. نسيج التخزين. منفصل عن نسيج الحساب. تشفير في الراحة بمفاتيح مدعومة بالعتاد.

ثلاث شبكات VLAN مصنّفة معتادة: الإدارة (محطّة قفز، syslog، IPMI/BMC)، مستوى البيانات (تشغيل النموذج، استرجاع RAG)، والإدارية (وصول المشغِّل بتوقيع شخصين للعمليات الحساسة). للمعالجة الأعمق، راجع بنية الشبكة المعزولة للذكاء الاصطناعي.

طبقة التخزين لأوزان النماذج وذاكرة KV

أوزان نموذج 70 مليار معلمة بصيغة BF16 تساوي 140 جيغابايت، وعند INT8 سبعون جيغابايت. تتضخّم ذاكرة KV طردياً مع طول السياق وحجم الدفعة: نموذج 70 مليار يخدم 32 مستخدماً متزامناً عند 32 ألف رمز قد يستهلك 200 جيغابايت من HBM لـ KV وحدها. طبقة التخزين خلف GPU ملزَمة بإطعام الأوزان بسرعة NVMe وتفريغ KV إلى ومضي عام سريع.

تخطيط التخزين لبيئة المستوى A:

  • NVMe محلي لكل عقدة 8-16 تيرابايت لأوزان نشطة وعمل المشغِّل. PCIe Gen5 حدّ أدنى مع منصّات H100.
  • تخزين ومضي مشترك (WekaIO، VAST، DDN، أو Ceph بـ NVMe) لسجل النماذج، مرجع RAG، وسجلّ التدقيق. 50-200 تيرابايت تكفي معظم النشر السيادي.
  • طبقة باردة على SATA SSD مشفَّر أو شريط LTO-9، داخل البيئة، للأرشفة وسجلّ التدقيق غير القابل للتعديل. الشريط ما زال أرخص وسيط، وأكثرها مقاومةً للعبث، لاحتفاظ سبع سنوات.
  • التشفير. كامل القرص في الراحة، بمفاتيح في وحدة HSM معتمدة FIPS 140-3 داخل البيئة. حفظ المفاتيح وفق سياسة الجهة المنظِّمة.

التشغيل: ضبط التغيير، التحديثات الموقَّعة، التحكّم الثنائي

نموذج التشغيل هو من يقرّر بقاء الخزانة موثوقة في السنة الثالثة. النمط الذي يصمد في التدقيق:

  • تحديثات موقَّعة. كل ثنائي يعبر الديود البياني يحمل توقيعاً من مفتاح مدعوم بعتاد. الجانب المستقبِل يتحقق قبل التنزيل. غير الموقَّع يُرفض لا يُحجز.
  • سلامة الشخصين. ترقية وزن نموذج أو ثابت firmware أو إعداد من البيئة التجريبية إلى الإنتاج تتطلب مشغِّلَين بحسابين منفصلَين. تُطبَّق في أداة الإجراء لا في الباب.
  • سجلّ تدقيق غير قابل للتعديل. كل عملية، من فعلها ومتى وأيّ تجزئة رُقِّيَت، تُكتب في تخزين «إلحاق فقط». تخزين WORM أو سجلّ مُسلسَل تجزئياً على جهاز منفصل.
  • نوافذ التغيير. تغييرات الإنتاج فقط في نوافذ مُعلنَة قبل 48 ساعة. التغييرات الطارئة تتطلّب «كسر زجاج» موثَّقاً مع مراجعة لاحقة.
  • تدريبات. تمارين فصلية على عطل UPS، عطل المبرِّد، تسرّب في الحلقة السائلة، اشتباه داخلي، شذوذ في الديود. التدريبات تكشف ثغرات الكتاب قبل أن يكشفها حادث حقيقي.

جدول الشراء والإنشاء (12-20 أسبوعاً)

للجهة المشترية من المستوى A التي تملك المبنى وميزانيتها معتمَدة، اثنا عشر إلى عشرين أسبوعاً هو الإطار الواقعي. الحدّ الأعلى يستوعب مدد توريد GPU التي تجاوزت 16 أسبوعاً منذ ضائقة 2024. التقسيم الإرشادي:

  1. الأسابيع 1-4: تصميم وشراء. دراسة حِمل، رسم خط أحادي، حساب حِمل تبريد، طوبولوجيا شبكة، تواصل مع جهة الاعتماد. أوامر شراء للوحدات الرسومية وUPS والمبرّدات والخزائن وحلّ النطاق المتقاطع.
  2. الأسابيع 5-10: مدنية وكهروميكانيكية. جدران من بلاطة إلى بلاطة، تدريع راديوي، أبواب دخول، إطفاء بغاز نظيف لا رشّاشات فوق GPU. كهربياً: لوح محوّل، مفاتيح، تركيب UPS، تشغيل المولّد. ميكانيكياً: محطة ماء مبرَّد، CRAH أو مبادلات باب خلفي، كشف تسرّب.
  3. الأسابيع 11-14: شبكة وتركيب خزائن. كابلات منظَّمة، محوّلات VLAN المصنّفة، نسيج InfiniBand، تشغيل الديود وحلّ النطاق المتقاطع. تسليم خزائن وتركيب أنظمة GPU وتغذية الموزِّع.
  4. الأسابيع 15-16: تشغيل GPU واختبار حراري. اختبار قبول المورِّد، 72 ساعة عند الحمل الكامل، اعتماد NVLink وNVSwitch، اختبار التخزين.
  5. الأسابيع 17-18: حزمة برمجية. تحصين نظام التشغيل (CIS أو STIG)، تثبيت تعريفات، حاوية تشغيل، سجلّ نماذج، حزمة مراقبة، أنبوب تدقيق.
  6. الأسابيع 19-20: اعتماد وتسليم. اختبار اختراق، جولة جهة الاعتماد، تسليم وثائق، تدريب مشغّلين، انطلاق.

تحجيم ظرف الحوسبة قبل بدء تصميم الغرفة هو ما يربح الأسابيع أو يحرقها. للتحليل الأبعادي الذي يربط أعداد المستخدمين وأهداف الكُمون بعدد الوحدات الرسومية، راجع تحجيم جهاز ذكاء اصطناعي سيادي بحسب المستخدمين والكُمون.

إذا كنت تحدد نطاق الغرفة قبل وصول الوحدات الرسومية، أو تحاول تحويل خزانة اتصالات قائمة إلى ما يصمد أمام تفتيش SCIF، راسِلنا على [email protected] لإيجاز ساعة واحدة. سنمشي معك في المخطط واللوحة الأحادية وهدف الاعتماد، ونصارحك إن كان الجدول 12 أم 20 أسبوعاً.

أسئلة شائعة

ما حجم استهلاك الطاقة الفعلي لخزانة H100 محمَّلة بثماني وحدات معالجة رسومية؟

اللوحة الأساسية HGX H100 ذات الثماني وحدات تستهلك نحو 5.6 كيلوواط للوحدات وحدها (8 × 700 واط لكل SXM5). مع المعالج والذاكرة وبطاقات الشبكة والمراوح وفاقد المزودات يصل النظام الواحد DGX H100 إلى نحو 10.2 كيلوواط حسب NVIDIA. خزانة بأربعة أنظمة ومحوّل تتراوح بين 40 و45 كيلوواط تحت تدريب مستمر. خصّص للوحدة الموزّعة وللتغذية ما لا يقل عن 50 كيلوواط مع تكرار N+1.

تبريد هوائي أم سائل لخزانة من ثماني وحدات في مسقط؟

دون 25 كيلوواط لكل خزانة، يمكن العمل بحجز الممرّ الحار ووحدات CRAH عالية الكثافة عند 27 درجة في الممرّ البارد. فوق 30 كيلوواط، التبريد السائل المباشر إلى الرقاقة هو الجواب العملي. حرارة مسقط الصيفية وكُتلتها الرطبة تُجهد المبرّدات، وفشل المبرّدات الجافة وحدها في يوليو شبه مؤكَّد. معظم النشر السيادي يستقرّ على ماء مبرَّد مع مبادلات باب خلفي أو حلقة سائلة كاملة بـ CDU لكل خزانة.

ماذا يعني العزل الشبكي فعلياً إذا احتجنا أيضاً إدخال تحديثات النموذج؟

العزل الحقيقي يعني عدم وجود مسار شبكي حيّ بين البيئة المصنّفة والعالم الخارجي. تعبر التحديثات عبر بوّابة أحادية الاتجاه تُعرف بالديود البياني، تسمح بالبايتات للداخل فقط، وتُفرَض في العتاد لا في البرمجيات. الجانب المستقبِل يتحقق من التوقيع ويفحص ويُرحِّل التحديث في حجر صحي قبل الإطلاق. الخروج مستحيل بحكم الفيزياء لا بقاعدة جدار حماية.

هل نحتاج غرفة محصّنة بمواصفات SCIF لخزانة سيادية؟

ليس دائماً، يعتمد الأمر على تصنيف البيانات. للمعلومات السرية للغاية أو المقسَّمة، يلزم بناء وفق ICD 705 (تدريع راديوي، عزل صوتي، كشف اقتحام، قاعدة الشخصين). لما يعادل (سرّي)، تكفي عادةً غرفة خوادم محصّنة بدخول بيومتري وكاميرات شاملة وخزائن مقاومة للعبث. الجهة المعتمِدة هي من يحدد السقف، لا المورِّد.

كم تستغرق إقامة غرفة من المستوى A بدءاً من أرضية فارغة؟

اثنا عشر إلى عشرين أسبوعاً هو الإطار الواقعي إذا كان المبنى ملك الجهة المشترية. الأسابيع 1-4 للتصميم ودراسة الحمل والمشتريات. الأسابيع 5-10 للأعمال المدنية والكهربائية والميكانيكية. الأسابيع 11-16 للكابلات والخزائن والتشغيل والاختبار. الأسابيع 17-20 للاعتماد والاختراق والتسليم. مدد توريد GPU قد تمدّ السقف الأعلى.

لماذا التحكّم بالشخصين والتحديثات الموقَّعة بدلاً من الثقة بالمشغِّل؟

خطر الداخل هو التهديد الأبرز في بيئة معزولة بإحكام. سلامة الشخصين، توقيع الشيفرة بمفاتيح مدعومة بالعتاد، وسجلّ تغييرات غير قابل للتعديل، يحوِّل نموذج الثقة من الأشخاص إلى الإجراء. لا يستطيع مشغِّل واحد دفع وزن نموذج غير مراجَع إلى مستوى الإنتاج. ويغدو سجلّ التدقيق مقبولاً لدى الجهة المنظِّمة دون التباس.