تحجيم مزوّد الطاقة غير المنقطع لخزانة الذكاء الاصطناعي
تحجيم مزوّد الطاقة غير المنقطع UPS هو أرخص بوليصة تأمين على خزانة ذكاء اصطناعي سيادية، وأسهل موضع للإفراط في الإنفاق أو التقصير في المواصفة. وحدات معالجة الرسومات ليست خوادم تقليدية، فهي تتجاوز قدرتها الحرارية المعلنة خلال خطوات الانحدار، ولا تتحمّل فجوة التحويل من 4 إلى 8 ميلي ثانية التي يفرضها UPS التفاعلي الخطي. يستعرض هذا المقال ملف الطاقة لخزانة ذكاء اصطناعي، وفئات UPS الثلاث الجديرة بالاعتبار، وحسابات الكيلوفولت أمبير وزمن التشغيل، ثم انضباط التنسيق الذي يحوّل حادث انقطاع إلى نقطة تحقّق آمنة بدلاً من جلسة تدريب فاسدة.
ملف الطاقة لخزانة الذكاء الاصطناعي
قبل أي تحجيم تحتاج صورة صادقة لما تسحبه الخزانة فعلاً. الحمل المستدام رقم سهل، أما السلوك اللحظي فهو ما يربك من يقرأ ورقة المواصفات وحدها.
- خزانة دخول بعقدة واحدة (4x H100 SXM5): نحو 4.2 كيلوواط على لوحة التوزيع، تستهلك منها وحدات الـ GPU وحدها 2.8 كيلوواط (700 واط لكل وحدة وفق ورقة بيانات NVIDIA H100)، ويُضاف إليها معالجات المضيف، والتخزين، والشبكة، وخسائر مزوّدات الطاقة.
- خزانة تدريب متوسطة الكثافة (8x H200): 10 إلى 12 كيلوواط مستدام، مع قمم لحظية بين 13 و14 كيلوواط أثناء مراحل all-reduce على دُفعات كبيرة.
- خزانة استدلال مختلطة (RTX 6000 Ada مع عنقود Mac Studio): 3 إلى 5 كيلوواط مستدام، منحنى مسطّح، تتخلّله قمم قصيرة عند تشغيل مهام سياق طويل على Gemma أو Qwen.
السلوك اللحظي مهم لأن تردد الـ GPU مرفوع بقوة. القدرة الحرارية المعلنة TDP غلاف مستدام لا سقف لحظي. تُظهر قياسات Uptime Institute أن خزانات الذكاء الاصطناعي تسحب 1.2 إلى 1.4 ضعف القدرة المستدامة لنوافذ دون الثانية أثناء التدريب، خصوصاً حين تتزامن حركة الذاكرة عبر NVLink. UPS محجّم على الحالة المستقرّة فقط سيُفصل عند هذه القمم.
فئات UPS: تحويل مزدوج، تفاعلي خطي، وتيار مستمر مباشر
ثلاث عائلات من طوبولوجيا UPS تغطّي سوق خزانات الذكاء الاصطناعي عملياً، اثنتان منها غير مناسبتين لخوادم الـ GPU لكنهما مغريتان من زاوية رأس المال، فيستحقّ تفصيل المفاضلات.
- تحويل مزدوج اتصالي. يتحوّل التيار الرئيسي إلى مستمر ثم يُعاد عكسه إلى متناوب نظيف. الحمل دائماً على العاكس، فلا يحدث أي حدث تحويل عند خطأ في الشبكة. الخرج منظّم ضمن 1 إلى 2 بالمئة جهداً و0.1 بالمئة تردداً، وملف التوافقيات نظيف بما يكفي لأي مزوّد طاقة GPU. هذه هي الإجابة الصحيحة الوحيدة لخزانات التدريب. الفارق الرأسمالي بين 30 و40 بالمئة فوق التفاعلي الخطي حقيقي ويستحقّ الدفع.
- تفاعلي خطي. يمرّ التيار الرئيسي مباشرة في التشغيل العادي مع محوّل ذاتي يضبط الجهد، وعند الخطأ يتحوّل إلى العاكس بفجوة من 4 إلى 8 ميلي ثانية. معظم الخوادم المؤسسية تتحمّل ذلك، أما جلسات تدريب الذكاء الاصطناعي فلا. ترى الفجوة انخفاضاً كهربائياً، فتتعثّر مزوّدات الـ GPU، وتُهدّد حالة المُحسِّن الجارية. مقبول للمعدّات المكتبية، والشبكات، والمراقبة. غير مناسب لحوسبة الـ GPU.
- تيار مستمر مباشر (380V أو 48V). منهج المزوّدات الفائقة: الاستغناء عن العكس AC وتغذية الخزانة من ناقل DC مدعوم ببطاريات. أعلى كفاءة (تحسين PUE بين 5 و8 بالمئة)، لا عاكس قابل للعطل، وتسليم بطارية فوري. القيد أن خوادم الـ GPU الجاهزة لا تقبل دخل DC اليوم، فلا يصلح هذا الخيار إلا حين تصمّم الخزانة من الصفر. لمعظم النشر السيادي في 2026 يبقى خياراً مستقبلياً.
لشكلَي Hosn Tower وHosn Rack القياسيين نعتمد افتراضياً وحدات UPS تحويل مزدوج بليثيوم فوسفات الحديد من فئات Schneider Electric وVertiv وEaton، محجّمة درجة واحدة فوق الحمل المستدام لاستيعاب القمم.
حسابات التحجيم: كيلوفولت أمبير لكل خزانة، الهامش، والتكرار N+1
الحساب لخزانة واحدة بسيط، والانضباط يكمن في التطبيق المتسق:
- الخطوة 1، السحب الفعلي على لوحة التوزيع. اجمع الحمل المستدام لكل جهاز في الخزانة، ثم أضف 15 إلى 20 بالمئة للقمم اللحظية. عقدة 4x H100 مستدامة عند 4.2 كيلوواط تصبح رقم تصميم 4.8 إلى 5.0 كيلوواط.
- الخطوة 2، التحويل إلى كيلوفولت أمبير. اقسم على معامل قدرة خرج UPS، نحو 0.9 لوحدات الليثيوم الحديثة. 5 كيلوواط على 0.9 تحتاج 5.6 كيلوفولت أمبير، فالحجم القياسي التالي إطار 6 كيلوفولت أمبير.
- الخطوة 3، إضافة هامش للنمو. 25 إلى 30 بالمئة فوق رقم التصميم. مثال العقدة الواحدة بـ6 كيلوفولت أمبير يقفز إلى UPS 7.5 إلى 8 كيلوفولت أمبير. هذا الهامش يُبقي العاكس في نطاقه الأكفأ بدلاً من حافة الحمل.
- الخطوة 4، قرار التكرار. N+1 يعني وحدة إضافية في إطار متوازٍ. الجهات التنظيمية والدفاعية والمصرفية تستحقّ N+1. خزانة التطوير لا. الزيادة الرأسمالية بين 25 و35 بالمئة من تكلفة UPS الأساس، أما تخفيض خطر التوقّف فبحدود رتبة عشرية.
لخزانة تدريب كثيفة بـ12 كيلوواط، يعطي الحساب نفسه 14 كيلوواط تصميمياً، 15.5 كيلوفولت أمبير عند معامل 0.9، مع هامش يستقرّ على إطار 20 كيلوفولت أمبير، تُضاف وحدة N+1 للطبقة السيادية. هذا هو الجواب الصحيح، وأي شيء أصغر اقتصاد كاذب.
أهداف زمن التشغيل لإيقاف آمن
زمن البطارية موضع الإفراط الأشيع. السؤال الصحيح ليس «كم يمكننا الصمود في الانقطاع»، بل «كم يحتاج الصفّ ليهبط بأمان حتى يقوم المولّد». المرحلتان:
- المرحلة 1، تسليم المولّد (0 إلى 60 ثانية). UPS يحمل الخزانة بينما يبدأ المولّد الديزل، يتزامن، ويستلم الحمل. هذه المرحلة غير قابلة للتفاوض، وهي الحالة المهيمنة عملياً على الشبكة العُمانية.
- المرحلة 2، إيقاف آمن (60 ثانية إلى 10 دقائق). إذا فشل المولّد، تُحفظ طبقة التنسيق حالة المُحسِّن، ونقاط أوزان النموذج، وتفرغ طابور الاستدلال، وتهبط بـGPU إلى توقّف آمن. هنا تُكتسب 5 إلى 10 دقائق إضافية، لا 60 دقيقة.
الهدف الإجمالي: 10 إلى 15 دقيقة عند الحمل الكامل. اقرن UPS بمتحكّم واعٍ به (NUT، PowerChute، أو خطّاف systemd مخصّص) يُطلق سكربتات نقاط التحقّق على خدمات الاستدلال والتدريب فور انتقال الخزانة إلى البطارية. بدون هذا التنسيق يُهدر زمن التشغيل، ومعه ينتهي حتى أسوأ سيناريو فشل المولّد إلى إقلاع نظيف لا أوزان فاسدة.
تحجيم UPS جزء من دليل أوسع لـطاقة وتبريد وعزل خزانة الذكاء الاصطناعي السيادية، يجب أن يكون جاهزاً لدى أي مشترٍ في حصن قبل توقيع طلب عتاد. راسلنا على [email protected] لجلسة لقاء ساعة نطبّق فيها الأرقام على قائمة عتاد موقعك وظروف شبكتك.
الأسئلة الشائعة
ما حجم UPS بالكيلوفولت أمبير الذي تحتاجه خزانة ذكاء اصطناعي واحدة؟
اجمع أقصى سحب فعلي على لوحة التوزيع، اقسمه على معامل قدرة 0.9، ثم أضف هامشاً بين 25 و30 بالمئة. عقدة بأربع وحدات H100 بحدود 4.2 كيلوواط تستقرّ عند 6 إلى 8 كيلوفولت أمبير، وعقدة كثيفة بثماني وحدات H200 بحدود 12 كيلوواط تحتاج 18 إلى 20 كيلوفولت أمبير. حجّم دائماً بناءً على القمم اللحظية لا على القدرة الحرارية المعلنة.
تحويل مزدوج أم تفاعلي خطي لخوادم الـ GPU؟
التحويل المزدوج فقط. الوحدات التفاعلية الخطية تمرّر التيار الرئيسي مباشرة في التشغيل العادي وتتحوّل إلى العاكس فقط عند الخطأ، أي يرى الحمل تشويش الشبكة وفجوة تحويل من 4 إلى 8 ميلي ثانية. منصّات التدريب تعدّ ذلك انخفاضاً كهربائياً وتتلف نقاط التحقّق الجارية. ادفع فارق التكلفة لصالح طوبولوجيا تحويل مزدوج حقيقية.
كم يجب أن يصمد UPS قبل تسليم الحمل للمولّد؟
استهدف 10 إلى 15 دقيقة عند الحمل الكامل. هذه المدة كافية لبدء المولّد الديزل، تثبيته، وتسليمه الحمل. خلال هذه النافذة تقوم طبقة التنسيق بحفظ حالة المُحسِّن، ونقاط أوزان النموذج، وإيقاف الـ GPU بأمان. ملاحقة أزمنة 30 دقيقة فأكثر استثمار خاطئ، الأفضل تمويل مولّد مُختبر بوقود يكفي 24 ساعة.
متى يكون التكرار N+1 لـ UPS مبرّراً فعلاً؟
أي خزانة تخدم جهة تنظيمية أو دفاعية أو مصرفية. تكلفة وحدة UPS احتياطية ضئيلة مقارنة بفقد جلسة تدريب أو توقّف خدمة استدلال في مهمة سيادية. للخزانات التطويرية وغير الإنتاجية، تكفي وحدة تحويل مزدوج واحدة مع مسار صيانة جانبي. القرار سياسة لا عتاد.