مقارنة عرض النطاق للذاكرة بين H100 وH200: الأثر العملي على استدلال نماذج اللغة

يقرأ مسؤول المشتريات السيادية صفحتَي مواصفات NVIDIA جنباً إلى جنب فيرى أن H200 تبدو، على الورق، ترقيةً بنسبة ٧٦٪ في سعة الذاكرة و٤٣٪ في عرض النطاق مقارنةً بـH100. أرقام الحوسبة متطابقة تقريباً. السؤال الذي يحسم ملايين الريالات هو: هل تظهر هذه الفجوة في عرض النطاق فعلاً ضمن العمل الذي يهمّ، أي تشغيل نموذج لغة عربي لمئة أو ألف مستخدم متزامنين داخل برج Tower أو خزانة Rack داخل المؤسسة؟ الإجابة نعم، والمضاعف أكبر مما توحي به ورقة المواصفات. هذا المقال هو التعمّق في عرض النطاق ويُكمل H100 H200 memory bandwidth ومقارنة المسرّعات الموسّعة.

سعة HBM3 بـ٨٠GB مقابل HBM3e بـ١٤١GB: قصة المواصفات

تأتي الأرقام المعلنة من المُصنِّع مباشرة. تُدرج صفحة NVIDIA H200 Tensor Core GPU الرسمية ١٤١ جيجابايت من HBM3e بعرض نطاق إجمالي ٤٫٨ تيرابايت/ث، فيما تُدرج صفحة H100 SXM الأصلية ٨٠ جيجابايت من HBM3 بعرض ٣٫٣٥ تيرابايت/ث. أما الحوسبة (FP8 Tensor TFLOPS، FP16 TFLOPS، جيل NVLink) فمتطابقة وظيفياً بين البطاقتين. H200 هي شريحة Hopper ترتدي نظام ذاكرة أسرع وأكبر.

تترتّب على ذلك ثلاث نتائج.

  • عرض النطاق: ٤٫٨ مقابل ٣٫٣٥ تيرابايت/ث، بنسبة ١٫٤٣ ضعف. كل بايت تقرؤه أو تكتبه البطاقة لإنتاج رمز يتحرّك أسرع بنسبة ٤٣٪ على H200.
  • السعة: ١٤١ مقابل ٨٠ جيجابايت، بنسبة ١٫٧٦ ضعف. نموذج بحجم ٧٠B بدقة FP16 (١٤٠ جيجابايت) يتّسع على بطاقة H200 واحدة، بينما يتطلّب على H100 بطاقتين وتوازياً مصفوفياً.
  • الحوسبة: متساوية تقريباً. نحو ٩٨٩ FP16 TFLOPS و١٬٩٧٩ FP8 TFLOPS على البطاقتين. لا قفزة جيلية على جانب ضرب المصفوفات.

هذه النقطة الأخيرة هي ما يجعل قصة عرض النطاق عملية لا أكاديمية. إن ضرَبت البطاقتان بنفس السرعة، فالمكان الوحيد الذي يمكن أن تأتي منه زيادة الإنتاج بمقدار ١٫٤ إلى ١٫٩ ضعف هو نظام الذاكرة.

لماذا يُعدّ الاستدلال مقيّداً بعرض النطاق

لفكّ تشفير المُحوِّل الحديث مرحلتان. المعالجة الأولية تعالج المطالبة دفعةً واحدة وتعتمد على الحوسبة. فكّ التشفير يولّد رمزاً واحداً في كل خطوة ويعتمد على الذاكرة: كل رمز جديد يستدعي قراءة كامل أوزان النموذج وذاكرة KV المتنامية من HBM إلى سجلّات SM. لنموذج ٧٠B بدقة FP16، تستدعي كل خطوة قراءة قرابة ١٤٠ جيجابايت من بيانات الأوزان. عند ٣٫٣٥ تيرابايت/ث، يتقيّد سقف H100 بنحو ٢٤ رمزاً/ث لجلسة واحدة. عند ٤٫٨ تيرابايت/ث يرتفع السقف على H200 إلى ٣٤ رمزاً/ث.

هذه ليست ادّعاءات حصن. وثّق مجتمعا vLLM وTensorRT-LLM الحساب نفسه، وتُظهر ملاحظات قياس TensorRT-LLM الرسمية زيادة في إنتاج فكّ التشفير تصل إلى ١٫٩ ضعف على Llama-2 70B في السياقات الطويلة. تتّسع الفجوة كلما طال السياق لأن ذاكرة KV هي الأخرى مقيّدة بعرض النطاق وتنمو مع طول الجلسة. عند ٣٢K تكون النسبة نحو ١٫٦ ضعف. عند ١٢٨K تقترب من ١٫٩ ضعف.

أهمية ذلك في الأحمال السيادية أن ما نخدمه ليس روبوتات محادثة لُعَب، بل سياقات بطول ١٦K إلى ١٢٨K تشمل مدوّنات قانونية عربية، حقائب إحاطات وزارية، واستعلامات تحليلية متعدّدة الوثائق. كلّما طالت المحادثة تراكمت فائدة عرض النطاق على H200.

الزيادة العملية في الرموز لكل ثانية

لتحويل النسبة إلى أرقام يُمكن الدفاع عنها أمام مجلس إدارة:

  • نموذج عربي بحجم 27B، دقة FP16، سياق ١٦K، مستخدم واحد متدفّق. تثبت H100 عند نحو ٦٠ رمزاً/ث. تثبت H200 عند نحو ٩٠ إلى ٩٥ رمزاً/ث. كلتاهما طبيعية، لكن H200 أسرع ملحوظاً في الإجابات الطويلة.
  • نموذج 70B، دقة FP16، سياق ٣٢K، مستخدم واحد. H100 (بتوازي مصفوفي على بطاقتين) تعطي نحو ٢٢ رمزاً/ث. H200 واحدة تعطي نحو ٣٢ إلى ٣٥ رمزاً/ث. الجودة نفسها، بطاقات أقل، اقتران شبكي أخف.
  • نموذج بحجم 120B بدقة FP8. يتّسع على H200 واحدة بهامش. يتطلّب على H100 بطاقتين وتعقيد نشر إضافي.

الأرقام أعلاه أسقف واقعية لجلسة واحدة على منصّات الإنتاج (vLLM 0.9+، TensorRT-LLM، SGLang) مع تعطيل الدفعات المستمرة لعزل أثر عرض النطاق. عند تفعيل الدفعات تتسع البطاقتان أكثر، لكن تفوّق H200 يبقى ضمن نطاق ١٫٤ إلى ١٫٨ ضعف حتى تُشبع الحوسبة.

الزيادة في عدد المستخدمين المتزامنين

الأثر الأبرز لعرض النطاق يظهر في عدد الجلسات المتزامنة التي يخدمها جهاز واحد عند نفس هدف زمن الاستجابة. لبرج Tower سيادي يشغّل نموذجاً عربياً بحجم 27B مع الدفعات المستمرة:

  • بطاقة H100 واحدة، ٨٠GB. نحو ٥٠ إلى ٧٠ مستخدماً متزامناً عند P50 أوّل رمز دون ٣٠٠ ميلي ثانية وتدفّق فوق ٢٥ رمزاً/ث للمستخدم. فوق ذلك يبدأ ضغط ذاكرة KV بتكوين الطابور.
  • بطاقة H200 واحدة، ١٤١GB. نحو ٩٠ إلى ١٣٠ مستخدماً متزامناً عند نفس الأهداف. الـ٦١ جيجابايت الإضافية تسمح بمزيد من ذاكرة KV فيرتفع حجم الدفعة الذي تدعمه ميزة عرض النطاق.

أما خزانة Rack بثماني بطاقات فتتدرّج خطّياً تقريباً حتى تظهر تكاليف الشبكة والتنسيق. خزانة بثماني H100 تغطّي مؤسسة بـ٤٠٠ إلى ٥٥٠ مستخدماً، وخزانة H200 تغطّي ٧٢٠ إلى ١٬٠٠٠. أيّهما أنسب؟ القرار ضمن قسم المشتريات التالي.

ملاحظة مشتريات

الإجابة الصحيحة للجهات السيادية في عُمان ودول الخليج تتوقّف على شكل الحِمل، لا على ملاحقة الإصدار الأحدث. ثلاث قواعد عملية:

  • الأحمال التفاعلية الطويلة السياق العربية الوزارية: H200 غالباً قيمة أفضل رغم فارق السعر، لأن الزيادة في عرض النطاق تُترجَم مباشرة إلى مستخدمين متزامنين عند نفس زمن الاستجابة.
  • الأحمال الدُّفعية والليلية: أساطيل H100 تبقى دفاعاً مشروعاً. عرض النطاق أقل أهمية حين لا ينتظر إنسان.
  • عمليات النشر بنموذج واحد بحجم 70B وما فوق: سعة ١٤١GB في H200 تُلغي طبقة من تعقيد التوازي المصفوفي تستحقّ الدفع لوحدها.

تتوافر البطاقتان في تكوينَي Hosn Tower (بطاقة واحدة) وHosn Rack (متعدّد البطاقات). التسعير بحسب الطلب وفق أهداف المؤسسة في التزامن وزمن الاستجابة وطول السياق. للتواصل، البريد [email protected] أو واتساب +968 9889 9100 لتحديد لقاء مدّته ساعة نُحاكي فيه H100 وH200 جنباً إلى جنب على حِملك الفعلي لا على ورقة المواصفات.

أسئلة شائعة

هل استدلال H200 أسرع فعلاً من H100 بمقدار ١٫٦ إلى ١٫٩ ضعف؟

في مرحلة فك التشفير المقيّدة بعرض النطاق نعم. تشير NVIDIA إلى تسارع يصل إلى ١٫٩ ضعف على Llama-2 70B في السياقات الطويلة، وتُظهر اختبارات الإنتاج المستقلة على vLLM وTensorRT-LLM زيادة ثابتة بين ١٫٤ و١٫٨ ضعف في الرموز/ث على H200 مقارنة بـH100 بعد ضبط أحجام الدفعات. أما مرحلة المعالجة الأولية للمطالبات القصيرة فالفارق فيها أصغر لأن البطاقتين تستخدمان نفس نوى Hopper FP8.

هل السعة الإضافية البالغة ٦١ جيجابايت أهم من عرض النطاق؟

كلاهما مهم، لكن لكل منهما دور مختلف. سعة ١٤١ جيجابايت تتيح لـH200 واحدة استضافة نموذج بحجم 70B بدقة FP16 أو نموذج بحجم 120B بدقة FP8 دون توازٍ مصفوفي، مما يبسّط النشر. بينما يحدّد عرض النطاق ٤٫٨ تيرابايت/ث سرعة بثّ الرموز. ولنموذج عربي بحجم 27B لجهة سيادية، السعة مريحة على البطاقتين ويصبح عرض النطاق هو المتغيّر المهيمن.

هل تبرّر فروقات السعر اقتناء H200 لجهاز سيادي؟

لأحمال العمل التفاعلية فوق ١٠٠ مستخدم متزامن، نعم في الغالب. الزيادة في عرض النطاق تترجم تقريباً واحداً لواحد إلى مزيد من الجلسات المتزامنة عند نفس زمن الاستجابة لكل رمز. أما لمهام الدفعات أو التلخيص الأرشيفي أو تحليل الوثائق منخفض التزامن فيبقى أسطول H100 خياراً قابلاً للدفاع. نُسعّر الخيارَين عند الردّ على أي عطاء سيادي، ونترك القرار لأحمال العمل الفعلية لا للنشرة الإعلانية.

ماذا عن B200 وجيل Blackwell؟

يرفع Blackwell B200 عرض النطاق إلى نحو ٨ تيرابايت/ث مع ١٩٢ جيجابايت من HBM3e ويحسّن عمليات FP4. للجهات التي تشتري اليوم بآفاق نشر بين ٢٠٢٦ و٢٠٢٨، يستحق B200 التسعير إلى جانب H200. لكن بطاقات الجيل Hopper (H100 وH200) تبقى الخيار السيادي الأكثر توفّراً خلال الثمانية عشر شهراً المقبلة بسبب التوفر، ونضج المنظومة، ومُهَل الجمارك في عُمان.