اختيار عتاد استدلال الذكاء الاصطناعي: مقارنة بين H100 وH200 وRTX 6000 Ada وماك ستوديو M3 Ultra

يطرح موظف مشتريات في إحدى الوزارات العُمانية سؤالًا بسيطًا. الفريق التقني يطلب H100. القسم المالي يفضّل ماك ستوديو. الأمن يريد ما يقع داخل المبنى تحت ضمان محلي. أما المُكامِل فاقترح RTX 6000 Ada. ولا أحد منهم على خطأ، ولا أحد منهم على صواب مطلق. القرار يتوقف على عدد المستخدمين، والنماذج التي ستعمل، والطاقة والتبريد المتوفّرين، وعلى ما إذا كان عبء العمل يشبه مكتب رئيس ديوان وزير أو مديرية تضمّ ألف موظف. يستعرض هذا الدليل الخيارات الأربعة الجادّة المتاحة لنشر الذكاء الاصطناعي السيادي داخل المؤسسة في 2026، ويرسم منطق القرار الذي يربط كل خيار بعبء العمل المناسب له.

القرار الرباعي الذي يواجهه المشتري السيادي فعليًا

تعرض أغلب عروض المورّدين هذا القرار كخيار ثنائي: بطاقة مركز بيانات، أو لا شيء. لكن الواقع رباعي، لأن منظومة النماذج المفتوحة (Gemma 4، Qwen 3.6، DeepSeek R1، Falcon Arabic) صارت تصلح اليوم على عتاد محطة عمل واحدة، كما تصلح على عدة رفوف. الخيارات الأربعة المهمّة للمشتري السيادي هي:

  • NVIDIA H100 80 GB، حصان عمل مركز البيانات في جيل Hopper، يأتي في خوادم SXM ثمانية البطاقات أو ببطاقة PCIe.
  • NVIDIA H200 141 GB، نفس حوسبة Hopper مقترنة بذاكرة HBM3e بعرض نطاق نحو 4.8 TB/s، أي ترقية الذاكرة لـ H100.
  • NVIDIA RTX 6000 Ada 48 GB (وخَلَفها RTX Pro 6000 Blackwell)، بطاقة PCIe بفتحتين تأتي في خوادم برجية.
  • ماك ستوديو بمعالج M3 Ultra، ذاكرة موحّدة تصل إلى 512 GB بسرعة نحو 819 GB/s، باستهلاك دون 400 واط من قابس حائط عادي.

لكلّ خيار شريحة محدّدة من فضاء أعباء العمل يفوز بها. ووضع الخيار الخاطئ أمام العبء الخاطئ هو أكثر أخطاء الشراء شيوعًا في الخليج، وغالبًا ما يميل إلى الإفراط في الإنفاق: صندوق سيادي يشتري نظامًا بحجم Rack ليخدم ستة محلّلين، أو وزارة تشتري ماك ستوديو لخدمة مئتي مستخدم.

خلف كل خيار ثلاثة أرقام: سعة الذاكرة (هل يتّسع النموذج وذاكرة KV؟)، عرض نطاق الذاكرة (ما السرعة التي تُمرَّر بها الأوزان أثناء توليد الرموز؟)، وحدّ الطاقة (هل يستوعبه المبنى دون إعادة تأسيس كهربائي؟). الحوسبة مهمّة بدورها، لكن في استدلال نماذج اللغة من نوع المُفكِّك، يهيمن عرض النطاق والسعة على القرار.

NVIDIA H100 80 GB، حصان العمل

تُعدّ NVIDIA H100 Tensor Core GPU القطعة التي رسمت ملامح حقبة خدمة نماذج اللغة الحالية. تأتي نسخة SXM بـ 80 GB من ذاكرة HBM3 بعرض 3.35 TB/s، و989 تيرا فلوب من حوسبة FP16، وحدّ حراري 700 واط. أما نسخة PCIe فتقدّم عرض نطاق أقل (2 TB/s في إصدار 80 GB) وطاقة أقل (350 واط) في مقابل بطاقة تركّب في خادم قياسي.

ما الذي يفتحه حجم 80 GB عمليًا:

  • نموذج بحجم 70B بصيغة FP16 يتّسع على بطاقتين عبر NVLink، مع هامش لذاكرة KV. ويتّسع على بطاقة واحدة بصيغة INT4، رغم أن أغلب المؤسسات تنشر بـ FP16 أو FP8 حفاظًا على الجودة.
  • نموذج بحجم 27B يعمل بأريحية على بطاقة واحدة بـ FP16 مع نافذة سياق طويلة، ما يجعل H100 الخيار الافتراضي لتشغيل عدة نسخ نموذج خلف موزّع حمل.
  • تدريب واستدلال FP8 بدعم Hopper Transformer Engine يحقّق نحو ضعف الإنتاجية مقارنة بـ FP16 على نفس العتاد للنماذج المتوافقة.

تركّب H100 في خوادم 4U أو 8U من Supermicro وDell وHPE وغيرها، بإعدادات بطاقتين أو أربع أو ثماني، موصولة عبر NVLink وNVSwitch. وخادم H100 SXM ثماني البطاقات هو الكتلة المرجعية لفئة المؤسسة. يستهلك نحو 7 كيلوواط مستمرّة، ويتطلّب طاقة ثلاثية الطور (أو عدة دوائر بـ 208 فولت)، ويُصرّف نحو 25,000 BTU/h من الحرارة. ليس جهاز مكتب: يلزمه غرفة خوادم بتغذية مناسبة وتكييف غرف الحاسب.

في أغلب عمليات النشر السيادي بدول الخليج على مستوى وزارة أو بنك مركزي، تبقى H100 الإجابة الصحيحة عند بلوغ التزامن مئاتٍ عُليا، أو تشغيل عدة نماذج معًا، أو إجراء الضبط الدقيق على نفس العتاد، أو وجود أهداف زمن استجابة صارمة تستدعي إنتاجية FP8.

NVIDIA H200 141 GB، قفزة عرض النطاق

أُطلقت NVIDIA H200 في أواخر 2024 ودخلت طور التوريد الواسع خلال 2025 و2026، وهي بنيويًا ترقية ذاكرة لـ H100. نفس وحدات Hopper، نفس حوسبة Tensor Core، نفس بنية NVLink. ما تغيّر هو الذاكرة: 141 GB من HBM3e بعرض نحو 4.8 TB/s، مقابل 80 GB بعرض 3.35 TB/s في H100 SXM.

هذه ترقية في الاتجاه الصحيح لاستدلال نماذج اللغة. توليد الرمز محكوم بعرض النطاق: كل رمز يلزم تمرير أوزان النموذج كاملةً عبر وحدات الحوسبة مرّة. ذاكرة أسرع تعني رموزًا أسرع. وسعة 141 GB تعني أن ذاكرة KV للسياقات الطويلة تبقى داخل HBM دون انسكاب، فيظلّ زمن الاستجابة عند الذيل متوقّعًا. وتُعلن NVIDIA رسميًا عن إنتاجية أعلى بنحو 1.6× إلى 1.9× مقابل H100 في النماذج الرائدة، وهو ما تأكّد بشكل عام في القياسات المستقلّة من Lambda Labs وأطر الخدمة مثل vLLM.

ترجمة عملية للمشتري السيادي:

  • أعباء الوثائق العربية والإنجليزية ذات السياق الطويل تستفيد أكثر من غيرها. نموذج 70B يعمل بسياقات 128K رمزًا على H200 يعاني عمليات إخلاء ذاكرة أقلّ بكثير مقارنةً بنفس العبء على H100.
  • نماذج خليط الخبراء مثل Qwen 3.6 وDeepSeek R1 تستفيد لأن السعة الإضافية تحفظ عددًا أكبر من الخبراء داخل الذاكرة.
  • الطاقة والشكل لم يتغيّرا عن H100 SXM، فلا مساومة على البنية التحتية: نفس هيكل الخادم، نفس 7 كيلوواط، نفس التبريد.

القاعدة المعقولة لأيّ مشتريات سيادية جديدة في 2026: إن كنت تحدّد مستوى Rack اليوم وكان بمقدور سلسلة التوريد أن توفّر H200 بإطار زمني موثوق، فاختر H200 على H100. لا حاجة لاستبدال أساطيل H100 القائمة، لكن لا داعي لأن تدفع عمليات النشر الجديدة ضريبة عرض النطاق لذاكرة من جيل سابق.

NVIDIA RTX 6000 Ada 48 GB، إجابة محطة العمل

تنتمي NVIDIA RTX 6000 Ada Generation لفئة بطاقات محطات العمل. هي بطاقة PCIe بفتحتين، بذاكرة 48 GB GDDR6 ECC، وحدّ طاقة 300 واط، ومبرّد نَفّاث نشط. بنية Ada Lovelace تأتي بعد جيل من Hopper على جانب مركز البيانات، لكنها تضمّ الجيل الرابع من Tensor Cores ودعم FP8 ذاته الذي يُهمّ الاستدلال. وخَلَفها RTX Pro 6000 Blackwell بسعة 96 GB يمتدّ بنفس خصائص الطاقة.

لماذا تهمّ هذه البطاقة عمليات النشر السيادي:

  • تعمل في محطة عمل برجية، توضع في مكتب عادي على دائرة 20 أمبير اعتيادية. لا غرفة خوادم، ولا طاقة ثلاثية الطور، ولا تكييف صناعي.
  • تُنشر زوجيًا أو رباعيًا في هيكل محطة عمل 4U من Lambda أو HP أو Dell أو Lenovo، فترتفع الذاكرة الإجمالية إلى 96 أو 192 GB بدون مغادرة شكل محطة العمل.
  • ذاكرة 48 GB تستوعب نموذج 27B بـ FP16 مع سياق مريح، أو 70B بـ INT4 / FP8 بسياق كامل، مع هامش لذاكرة KV لعبء عمل من 20 إلى 50 مستخدمًا خلف vLLM أو Triton.
  • تشغّل نفس مكدّس CUDA الذي تشغّله بطاقات مركز البيانات. النموذج الذي يعمل على H100 يعمل على RTX 6000 Ada دون تعديل برمجي، فقط بأحجام دفعات أصغر.

المقايضة مقابل H100 هي عرض النطاق (960 GB/s في RTX 6000 Ada مقابل 3.35 TB/s في H100 SXM)، وهو ما يحدّ مباشرة من رموز/الثانية في تيّار واحد. لكن لمديرية تعمل بدردشة تفاعلية واسترجاع وأعباء وثائقية، ليست هذه هي القيود الفعلية. التزامن يأتي من تشغيل عدة نُسخ، لا من تسريع تيّار واحد.

لجهة تنظيمية أو مكتب خزينة في بنك أو مديرية وزارية أو خلية بحث دفاعي، تظلّ RTX 6000 Ada داخل برج أو هيكل 4U الخيار الأكثر دفاعًا في الشراء. تخدم العبء، تلائم المبنى، وتُمكّن المؤسسة من إقامة ذكاء اصطناعي سيادي دون انتظار أعمال كهربائية وميكانيكية جديدة.

ماك ستوديو M3 Ultra، مفاجأة الحافة السيادية

الخيار الذي تستهين به فرق المشتريات أكثر من غيره هو ماك ستوديو بشريحة M3 Ultra. الإعداد الأعلى الحالي يأتي حتى 512 GB من ذاكرة موحّدة بسرعة نحو 819 GB/s، مع 32 نواة CPU، و80 نواة GPU، و32 نواة Neural Engine. وإعدادات 192 GB و256 GB هي النقطة الذهبية لأعمال نماذج اللغة. يبقى استهلاك النظام تحت 400 واط في الأحمال المستدامة. والجهاز شبه صامت.

لماذا يهمّ ذلك في النشر السيادي على الحافة:

  • الذاكرة الموحّدة تعني انعدام نقل PCIe. يتشارك الـ CPU والـ GPU ذات بركة الذاكرة. نموذج 70B بصيغة 4-bit يحتلّ نحو 40 GB ويعمل من البداية إلى النهاية على الـ GPU المدمج بمعدلات قابلة للاستخدام. وجهاز 192 GB يحتفظ بهامش مريح للنموذج وذاكرة KV ومؤشّر استرجاع الوثائق كاملًا.
  • llama.cpp وMLX يقدّمان رموزًا فعلية في الثانية. القياسات المستقلّة من مجتمع llama.cpp ومشروع Apple MLX تضع نماذج 27B الكثيفة في نطاق 25 إلى 45 رمز/ث، ونماذج 70B المُكمَّمة في نطاق 8 إلى 14 رمز/ث على M3 Ultra. تتجاوز الدردشة التفاعلية لمستخدم واحد عتبة القراءة بأريحية.
  • حدّ الطاقة عامل حاسم في النشر الموزّع. وزارة تريد محطّة ذكاء سيادية في اثني عشر مكتبًا إقليميًا لا ترغب بتمديد اثنتي عشرة غرفة خوادم. اثنا عشر جهاز ماك ستوديو على اثني عشر مكتبًا عاديًا نمط موثوق.
  • سلسلة توريد عتاد Apple للمؤسسات تعمل في عُمان، بما فيها خدمة الضمان، وهو ما يهمّ عند عطل تشغيلي أكثر مما يتوقّع المشترون.

الحدّ الصريح: M3 Ultra جهاز فردي إلى فريق صغير. خدمة متزامنة بالدفعات لخمسين مستخدمًا على نفس الجهاز ليست ساحته. التدريب ليس ساحته. ما يفعله، يفعله بكلفة طاقة ومساحة لا تستطيع أيّ بطاقة NVIDIA منافستها، وهذه الفجوة حاسمة لمستوى محطة العمل.

الرموز/الثانية الواقعية لكل فئة

تتفاوت القياسات بحسب التكميم والإطار وحجم الدفعة وطول الموجِّه. الأرقام أدناه نطاقات محافظة من أرشيفات قياس عامّة (vLLM، llama.cpp، مجتمع MLX)، مُعايَرة لخدمة تيّار واحد تفاعلي بموجِّهات واقعية ومخرجات بطول 4K رمز.

لنموذج Gemma 4 27B (كثيف):

  • H100 SXM 80 GB بـ FP8: 110 إلى 160 رمز/ث في تيّار واحد، ومئات في الإجمالي مع التجميع.
  • H200 141 GB بـ FP8: 180 إلى 250 رمز/ث في تيّار واحد، تتناسب مع ميزة عرض النطاق.
  • RTX 6000 Ada 48 GB بـ FP8 / INT4: 45 إلى 75 رمز/ث في تيّار واحد.
  • ماك ستوديو M3 Ultra 192 GB بـ INT4 (MLX): 25 إلى 45 رمز/ث في تيّار واحد.

أمّا Qwen 3.6 الرائدة من نوع MoE وDeepSeek R1 المُقطَّر 70B، فيلزم لها H100 أو H200 فعلًا للخدمة بشكل قابل للاستخدام لأكثر من حفنة مستخدمين، لأن ذاكرة KV وأثر النموذج يدفعان البطاقات الأصغر إلى تكميم ثقيل وقصّ السياق. ومع ذلك، يخدم ماك ستوديو مستخدمًا واحدًا على متغيّر 70B المُقطَّر بـ 8 إلى 14 رمز/ث، وهو كافٍ للعمل الوثائقي اللاتزامني وعلى الحافّة للاستخدام التفاعلي.

القراءة العملية: اختر أصغر مستوى يحقّق فوق 20 رمز/ث على أكبر نموذج تخطّط المؤسسة لتشغيله، بمستوى التزامن المخطّط. ما يزيد على ذلك يشتري هامشًا، لا جودة محسوسة.

الطاقة والتبريد وتكلفة الملكية الكاملة

كلفة الـ GPU الرأسمالية مكوّن واحد فقط. الطاقة والتبريد وأعمال التهيئة وعمليات الضمان تُشكّل البقيّة. أرقام تقريبية لنشر مدته خمس سنوات في مسقط:

  • نشر Kernel بماك ستوديو M3 Ultra: جهاز واحد، قابس مكتب عادي، لا أعمال تهيئة. كلفة الطاقة لخمس سنوات بمتوسط 400 واط وبتعرفة عُمان التجارية تقع في المئات الدنيا من الريالات. الضمان محلّي.
  • نشر Tower بـ RTX 6000 Ada: هيكل محطة عمل 4U ببطاقتين إلى أربع، استهلاك 1.5 إلى 3 كيلوواط، يعمل على دائرة 20 أمبير تجارية، يستلزم تبريد خزانة خوادم متواضعًا. أعمال التهيئة بالأيّام لا الأشهر.
  • نشر Rack بـ H100 / H200: خادم 4U أو 8U، استهلاك 7 كيلوواط، يلزمه توزيع ثلاثي الطور أو 208 فولت، ووحدة CRAC أو مبرّد بين الصفوف، وغرفة خوادم صغيرة. أعمال التهيئة بالأشهر للمؤسسات التي لم تستضف حوسبة بكثافة عالية. كلفة الطاقة والتبريد لخمس سنوات تتجاوز كلفة الـ GPU الرأسمالية بسهولة.

هذا هو البُعد الذي تغفله فرق المشتريات في أغلب الأحوال. عرض Rack يبدو تنافسيًا في بند الـ GPU قد يحمل ضِعفًا خفيًّا في تجهيز الغرفة. مستويا Tower وKernel موجودان بالضبط لأن أغلب أعباء العمل المؤسسية لا تحتاج إلى مستوى Rack، ولأن المباني التي تشغلها أغلب المؤسسات ليست مهيّأة له بعد.

مصفوفة القرار حسب فئة النشر

بجمع الصورة، تبدو مصفوفة القرار التي تستخدمها حصن مع المشترين السياديين، معمَّمةً على أيّ مورّد، كالآتي:

  • حصن Kernel، ماك ستوديو M3 Ultra. من مستخدم إلى أربعة متزامنين. نموذج واحد بحجم 27B إلى 70B. مكتب أو فريق صغير. لا تجهيزات خاصّة. مناسب لرئيس ديوان وزير، أو خلية استخبارات صغيرة، أو طيّار تنظيمي، أو مكتب بحث. تتعمّق مقالة ماك ستوديو M3 Ultra للذكاء السيادي على الحافة في هذا المستوى.
  • حصن Tower، NVIDIA RTX 6000 Ada (أو RTX Pro 6000 Blackwell). من 20 إلى 50 مستخدمًا متزامنًا. نموذج أو نموذجان معًا، 27B إلى 70B مع استرجاع. بحجم قسم. يلائم مكتبًا عاديًا. مناسب لمديرية، أو وحدة تنظيمية، أو مكتب خزينة، أو خلية بحث دفاعي.
  • حصن Rack، NVIDIA H100 أو H200. مئات المستخدمين المتزامنين. نماذج متعدّدة بالتوازي. قدرة ضبط دقيق. تدفّقات حسّاسة لزمن الاستجابة. مناسب لطرح بحجم وزارة، أو بنك مركزي، أو صندوق سيادي، أو أيّ نشر يبرّر فيه العبء فعلًا الاستثمار في البنية التحتية. يستعرض مقال H100 مقابل H200: أثر عرض نطاق الذاكرة الاختيار بينهما داخل هذا المستوى.

قاعدتان للشراء تختصران المصفوفة. الأولى: اشترِ أصغر مستوى يحقّق المتطلّب مع هامش مستوى واحد، لا أكبر مستوى تتيحه الميزانية. الهامش يحمي من النموّ، والإفراط يقيّد رأس المال ويرفع الكلفة الجارية. الثانية: قِس البنية التحتية أوّلًا. عرض Rack دون بند تهيئة كهربائية وتبريد عرضٌ ناقص، لا تنافسي. يستعرض دليل تحجيم جهاز الذكاء السيادي للمستخدمين وزمن الاستجابة رياضيات التزامن التي تترجم عدد المستخدمين إلى اختيار مستوى.

إن كانت مؤسستكم تُحجّم نشرًا سياديًا للذكاء الاصطناعي داخل المؤسسة، وتودّ جلسة إحاطة لمدة ساعة تحوّل عدد المستخدمين، وتفضيلاتكم النموذجية، وقيود المبنى، إلى قائمة عتاد مختصرة قابلة للدفاع، راسلوا [email protected] أو عبر واتساب +968 9889 9100. التسعير بحسب الطلب، ويُحجَّم لكلّ متطلّب على حدة.

أسئلة شائعة

هل H200 مجرد نسخة أسرع من H100؟

لا. تحتفظ H200 بنفس وحدات الحوسبة من جيل Hopper الموجودة في H100، لكنها تأتي بـ 141 GB من ذاكرة HBM3e بعرض نطاق نحو 4.8 TB/s، مقابل 80 GB بعرض 3.35 TB/s في H100 SXM. لأن استدلال نماذج اللغة محكوم بعرض نطاق الذاكرة أثناء توليد الرموز، تعطي H200 إنتاجية أعلى بشكل واضح في الرموز/الثانية على النموذج نفسه، وتُتيح نوافذ سياق أطول لاحتفاظ ذاكرة KV داخلها. أما في التدريب والحوسبة المكثفة فالأداء متقارب جدًا. H200 ترقية ذاكرة، لا ترقية حوسبة.

هل يمكن لجهاز ماك ستوديو M3 Ultra أن يحلّ فعلًا محلّ بطاقة مركز بيانات في الاستدلال؟

لما بين مستخدم وأربعة مستخدمين متزامنين على نموذج بحجم 27B إلى 70B، نعم. يأتي M3 Ultra بذاكرة موحّدة تصل إلى 512 GB بسرعة نحو 819 GB/s، يصل إليها معالج الرسوم بدون نقل عبر PCIe. تنتج معدلات تفاعلية مناسبة لمستخدم واحد. لكنه لا يحلّ محل بطاقة مركز بيانات في خدمة عشرات المستخدمين المتزامنين أو أعباء الإنتاجية المجمّعة أو التدريب. هو الحل لمستوى محطة العمل، حيث يحسم ميزته الاستهلاك دون 400 واط والتشغيل الصامت.

ما الذي يضع RTX 6000 Ada في هذه المعادلة أصلًا؟

لأنها تملأ فجوة مهمة. بطاقات H100 وH200 من فئة SXM تحتاج هيكل خادم وطاقة خاصة وتبريدًا كثيفًا. وماك ستوديو محطة عمل لكنها محدودة بمستخدم واحد عمليًا. أما RTX 6000 Ada (وأخوها الأحدث Blackwell) فهي بطاقة PCIe بفتحتين وذاكرة 48 GB وحدّ طاقة 300 واط، تناسب محطة عمل برجية، وتُنشر فرديًا أو زوجيًا أو رباعيًا، وتخدم مديرية كاملة على نماذج 27B إلى 70B. هي الإجابة الصحيحة حين يلزمك تزامن GPU حقيقي دون تشغيل غرفة خوادم.

هل يهمّ استهلاك الطاقة داخل المؤسسات العُمانية؟

نعم، أكثر مما يتوقّع المشترون. خادم H100 ثماني البطاقات يستهلك 7 كيلوواط بشكل مستمر، ويتطلب طاقة 208 فولت أو ثلاثية الطور، ويُنتج نحو 25,000 BTU/h من الحرارة. أغلب طوابق الوزارات وفروع البنوك ليست مهيّأة لذلك. مستويا Tower وKernel يعملان في مكتب عادي وعلى دائرة 15 أمبير اعتيادية بدون تبريد خاص. اختيار مستوى يلائم البنية الكهربائية والتكييف القائم يوفّر شهورًا من أعمال التهيئة في أوّل نشر سيادي.

ما أبسط قاعدة قرار بين الخيارات الأربعة؟

احصِ المستخدمين المتزامنين واختر أصغر مستوى يحقّق الهدف مع هامش مستوى واحد. من مستخدم إلى أربعة مستخدمين على نموذج واحد: ماك ستوديو M3 Ultra (حصن Kernel). من 20 إلى 50 مستخدمًا مع استرجاع وثائق المؤسسة: RTX 6000 Ada (حصن Tower). مئات المستخدمين أو نماذج متوازية أو ضبط دقيق أو إتاحة عالية: H100 أو H200 (حصن Rack). لا تقفز إلى المستوى الأعلى إلا حين توجد حالة نمو موثوقة لسنتين.

ماذا عن استشراف المستقبل؟ هل ستُلغي Blackwell كل ذلك العام القادم؟

B200 وGB200 من NVIDIA هما الجيل التالي لمراكز البيانات، وRTX Pro 6000 Blackwell هي الجيل التالي لمحطات العمل. ستكون أسرع هامشيًا وتضيف مزايا مثل استدلال FP4. لكنها لا تغيّر بنية المستويات: محطة عمل، برج، رف. أيّ نشر يُحدَّد اليوم على H100 أو RTX 6000 Ada يستمرّ في خدمة عبء عمل المؤسسة طوال دورة الإهلاك. وعند موعد الترقية، تستوعب البنية ذاتها Blackwell أو خَلَفها دون إعادة تصميم.