شهادة العتاد الذي يوفّره العميل لنشر الذكاء الاصطناعي السيادي
ليست كل جهة سيادية تنتظر شحنة جهاز جاهز من حصن. فبعض الجهات تملك أصلاً خوادم مسرّعات اشترتها ضمن اتفاقية إطارية، وبعضها مقيّد بقائمة موردين معتمدة لمشتريات مصنّفة، وبعضها وقّع عقداً متعدد السنوات مع HPE أو Dell قبل دورتي ميزانية، والأصول قائمة في غرف الخوادم. لهذه الجهات نوفّر برنامج BYOC: أنت تأتي بالعتاد، ونحن نعتمده ونؤمّنه ونشغّل منظومة الذكاء الاصطناعي فوقه. تشرح هذه المقالة كيف يعمل هذا الاعتماد وما الذي يجتاز بوّابتنا.
١. لماذا تأتي بعض الجهات السيادية بعتادها؟
الصورة الذهنية الشائعة عن النشر الموضعي هي شاحنة مورّد تنزل صندوقاً مغلقاً. الواقع في عُمان والخليج أكثر تعقيداً، وثمة ثلاثة أنماط تقود طلبات BYOC لدى حصن:
- المخزون القائم. اشترت جهة وزارية أو مصرف سيادي صناديق DGX أو HGX لمشروع سابق (حوسبة عالية الأداء، تصيير، تجارب تدريب نماذج)، وتجلس البطاقات بنسبة استخدام ٢٠٪ إلى ٤٠٪. إعادة استخدامها أرخص من تقاعدها.
- اتفاقيات إطارية. معظم الجهات الحكومية في عُمان تشتري الحوسبة عبر إطار متعدد السنوات مع مورّد رئيسي أو اثنين. الشراء خارج الإطار يستلزم استثناءً من مجلس المناقصات. إعادة استخدام العتاد القائم ضمن الإطار يتفادى ذلك الاستثناء.
- مشتريات مصنّفة. لا تقبل جهات الدفاع والأمن الداخلي إلا عتاداً من قائمة موردين معتمدة سلفاً، غالباً مع تتبّع منشأ على مستوى الرقم التسلسلي. قد لا يكون رمز جهاز حصن في تلك القائمة، بينما عتادها المعتمد كذلك.
السؤال هنا ليس "ماذا نشتري" بل "هل ما نملكه يصلح لتشغيل منظومة ذكاء اصطناعي سيادية بجودة الإنتاج"، وهذا ما يجيب عنه اعتماد BYOC. أما النقاش الأعمق حول اختيار العتاد فهو في مقالنا الأساس عن H100, H200, RTX 6000 and Mac Studio AI hardware comparison.
٢. مصفوفة الاعتماد
نعتمد وفق ستة محاور. لا تجتاز العقدة إلا حين تكون كل المحاور خضراء، ووجود محور واحد أحمر يمنع التوقيع على الإنتاج.
- المعالج. Intel Xeon من جيل Sapphire/Emerald/Granite Rapids، أو AMD EPYC من جيل Genoa/Bergamo/Turin. الحد الأدنى ٣٢ نواة فعلية لكل مقبس للاستدلال، و٦٤ للتدريب. الأجيال الأقدم تفشل في متطلبات مسار AVX-512 BF16 الذي يستلزمه تجزيء vLLM المتوازي.
- المسرّع. NVIDIA H100/H200/B200/GH200/L40S/RTX 6000 Ada أو RTX Pro 6000 Blackwell. AMD MI300X مدعوم بحالة محدّدة عبر vLLM-ROCm. البطاقات الاستهلاكية مرفوضة للإنتاج. يجب أن يَرِد النظام في دليل الأنظمة المعتمدة من NVIDIA، أو يحمل تقرير اعتماد حراري وكهربائي صريحاً من المُصنّع.
- بطاقة الشبكة. ٢٥ GbE حداً أدنى للعقدة الواحدة، و١٠٠ GbE أو NDR InfiniBand للعقد المتعددة. يُفضّل NVIDIA ConnectX-6/7/8 أو BlueField-3. أرضية برمجية: MFT 4.30 أو أحدث.
- التخزين. NVMe فقط لذاكرة النموذج وأوزانه، ٤ TB كحد أدنى لكل عقدة بصيغة U.2 أو E1.S. التخزين الكائني (MinIO/Ceph) على بِركة أقراص منفصلة.
- BIOS والبرامج الثابتة. تفعيل SR-IOV وIOMMU وAbove 4G Decoding، مع تعطيل PCIe ACS أو تجاوزه لكل منفذ كي يعمل GPUDirect P2P. BIOS ضمن آخر اثني عشر شهراً، وBMC مرقّع ومعزول عن الإنترنت.
- نظام التشغيل والمحرّكات. Ubuntu 24.04 LTS أو RHEL 9.x، مع تعريف NVIDIA 565+ وCUDA 12.6+، وNVIDIA Container Toolkit، ومُختبر مقابل متطلبات بطاقات النماذج على Hugging Face Hub للنموذج المخصّص (Gemma، Qwen، أو Falcon Arabic).
٣. المرجعيات التي تدعمها حصن
نحتفظ بأربع مرجعيات تصميم يُقاس عتاد العميل عليها. إن طابق المخزون إحداها فالاعتماد سريع. وإلا وثّقنا الانحراف وقرّرنا.
- HPE. ProLiant DL380a Gen11/Gen12 بأربع أو ثماني H100/H200 SXM، وProLiant Compute XD685 لقياس HGX، وCray XD670 لطبقة التدريب. iLO BMC معزول على شبكة إدارة منفصلة.
- Dell. PowerEdge XE9680 بثماني SXM، وXE8640 بأربع، وR760xa بأربع PCIe. PowerStore للتخزين الكائني في المواقع المختلطة.
- Supermicro. 421GE-TNHR2 بثماني H100/H200 SXM، وAS-8125GS-TNHR بثماني MI300X، وSYS-521GE-TNRT بأربع PCIe. هذه أكثر هياكل BYOC شيوعاً في مناقصات الخليج بسبب السعر ومدد التسليم.
- الطرف والعزل التام. مرجعية Hosn Kernel (مسرّع L40S أو RTX Pro 6000، برج متوسط، دون iLO/iDRAC، مع قفل USB) للمواقع التي لا تستوعب رفّاً كاملاً أو لا تسمح به.
للمزيد عن الفروق بين هذه العائلات في السعر والتسليم والضمان داخل الخليج، اقرأ Dell, HPE and Supermicro AI servers in the GCC. ولزاوية الإجراءات في الجهات الحكومية العُمانية، اقرأ hardware procurement for Omani government.
٤. قائمة اختبار القبول
بعد التحقق من المصفوفة والتطابق المرجعي على الورق، نُجري اختبار القبول الفعلي على الصندوق. يعمل الاختبار دون إشراف بعد الانطلاق، ويُنتج تقريراً موقّعاً بصيغة PDF يُحفظ ضمن ملف المناقصة لدى الجهة.
- الإقلاع والجرد. إقلاع بارد إلى تسجيل الدخول في أقل من أربع دقائق، مطابقة dmidecode/lspci لقائمة المكوّنات، ووصول BMC من شبكة الإدارة فقط.
- المحرّكات. يعرض nvidia-smi جميع المسرّعات بتفعيل ECC ودون أخطاء Xid طوال نصف ساعة من الخمول، وعبور NCCL all-reduce على العقد متعددة المسرّعات.
- قياس vLLM. تحميل بناء مرجعي من Gemma 4 27B Instruct أو Qwen 3.6 32B، وتشغيل اختبار سعة بألف مطالبة على سياق 2k/8k/32k، وقياس الإنتاجية وزمن الاستجابة عند p50/p95/p99. تبقى النتيجة ضمن ٨٪ من العقدة المرجعية لنفس فئة المسرّع.
- إنتاجية الشبكة. iperf3 بين كل زوج من العقد بنسبة ٩٠٪ أو أكثر من معدل الخط، وib_write_bw وib_send_lat ضمن مواصفات المُصنّع لـInfiniBand، وnccl-tests all-reduce عند ٨٠٪ أو أكثر من الحدّ النظري.
- فارق منظومة التقييم. تشغيل تقييمنا الداخلي (مجموعة مجمّدة من ArabicMMLU وAlGhafa وALUE، مع ٢٠٠ مطالبة خاصة بالجهة) على صندوق العميل وعلى مرجعنا. أي تراجع يتجاوز نصف نقطة مطلقة يُعيد الاختبار يدوياً، ويُعدّ الفجوة المستمرة فشلاً.
- الأمن ودورة الحياة. مفاتيح تشفير الأقراص بيد العميل، وBMC مرقّع ومعزول، وإثبات سلسلة الإمداد (قياس إقلاع موقّع عبر TPM)، وخطة تراجع مكتوبة إلى البرامج الثابتة الأصلية.
الخاتمة
برنامج BYOC ليس مساراً تخفيضياً، بل خيار تشكيل للمشتريات. الجهات السيادية التي تملك حوسبة حديثة أو تلتزم باتفاقيات إطارية لا ينبغي معاقبتها على ذلك. إن كان لديك قائمة مخزون ومرجع من مجلس المناقصات، وتريد أن تعرف هل تصلح صناديقك لحمل نشر حصن، راسلنا على [email protected] أو +968 9889 9100 لجلسة تعريفية مدّتها ساعة. سنخبرك كتابياً بما يجتاز وما لا يجتاز.
أسئلة شائعة
ما المقصود بـ BYOC في نشر حصن؟
BYOC أي إحضار العتاد الخاص بك يعني أن العميل يوفّر الخوادم وتتولى حصن اعتمادها وتأمينها وتشغيل منظومة الذكاء الاصطناعي عليها. شائع لدى الجهات التي تملك اتفاقيات مشتريات إطارية أو عتاداً مصنّفاً موجوداً مسبقاً، أو تلتزم بقوائم موردين وطنية محددة.
ما عائلات الخوادم التي تعتمدها حصن؟
نعتمد وفق قوائم NVIDIA-Certified Systems وقوائم خوادم Hugging Face المعتمدة، مع مرجعيات على HPE ProLiant DL380a Gen11/Gen12 وDell PowerEdge XE9680 وR760xa وSupermicro 421GE-TNHR2 وفئة AS-8125GS. تُراجَع العائلات الأخرى بناءً على الطلب.
ماذا يحدث إذا لم يجتز عتاد العميل الاعتماد؟
نوثّق الفجوة (مثل قِدَم برمجية الشبكة أو طوبولوجيا PCIe غير المدعومة في BIOS أو خروج حرارة المسرّع عن المواصفات) ونقترح إما مسار ترقية للبرامج الثابتة أو المكوّن، أو الرجوع إلى عقدة مرجعية من حصن. لا نخفض حجم النموذج خفية لتقبّل عتاد قاصر.
كم يستغرق اختبار القبول؟
من ثلاثة إلى خمسة أيام عمل لاعتماد عقدة واحدة، ويزيد لعناقيد متعددة العقد بنسيج InfiniBand أو RoCE. يُعدّ فحص فارق منظومة التقييم مقابل الخط الأساسي لدينا الخطوة الحاكمة ويعمل بدون إشراف ليلاً.