هل أحتاج إلى NVLink للاستدلال أم أنّ PCIe كافٍ؟

إن كان النموذج يتّسع في ذاكرة وحدة معالجة رسومية واحدة، فإنّ PCIe كافٍ. أمّا إن لزم التوازي الموتّري عبر وحدتين أو أكثر لاستيعاب نموذج بحجم 70 مليار وسيط أو أكبر، فإنّ NVLink يصبح إلزامياً عملياً: PCIe Gen5 x16 يبلغ سقفه 64 جيجابايت/ث في الاتّجاه الواحد، بينما NVLink 4 بين وحدتي H100 يقدّم 450 جيجابايت/ث في الاتّجاه الواحد.

ما الفرق بين DGX وHGX؟

HGX هي اللوحة الأمّ المصمَّمة من إنفيديا لثماني وحدات معالجة رسومية، تُباع لمصنّعي الأجهزة الأصليين مثل سوبرمايكرو وديل ولينوفو وHPE. أمّا DGX فهو نظام إنفيديا المتكامل المبنيّ على اللوحة ذاتها مع هيكل وشبكة وبرمجيات معتمدة. الطبولوجيا الداخلية لـNVLink متطابقة في الحالتين.

هل يمكنني توسيع التوازي الموتّري عبر خوادم متعدّدة؟

التوازي الموتّري عبر العقد يستلزم إمّا نظام مفاتيح NVLink Switch System (نسيج 256 وحدة في DGX SuperPOD)، وإمّا InfiniBand فائقة السرعة (NDR 400 جيجابت/ث أو أعلى) مع GPU-direct RDMA. خلاف ذلك، الأنسب التحوّل إلى التوازي الأنبوبي بين العقد وإبقاء التوازي الموتّري داخل نطاق NVSwitch ذي الثماني وحدات.

هل يستلزم النشر مع حصن خادم DGX H100 كاملاً؟

لا. تعمل طبقة Hosn Kernel على وحدة واحدة من نوع L40S أو RTX 6000 Ada. وتستخدم طبقة Hosn Tower أربع وحدات H100 PCIe مع جسور NVLink. أمّا طبقة Hosn Rack فتستعمل نظام HGX H100 أو H200 الكامل بثماني وحدات وNVSwitch. نحدّد التوصيف بحسب عدد المستخدمين وحدّ الكُمون وحجم النموذج، لا بحسب رغبة المورّد.

طبولوجيا NVLink لنشر نماذج اللغة على وحدات معالجة رسومية متعددة، مدوّنة حصن

حين يُقسَّم نموذج بسبعين مليار وسيط على أربع وحدات معالجة رسومية، يُطلق كلّ رمز ناتج عملية تجميع شاملة (all-reduce) عبر هذه الوحدات. النسيج الذي يربط بينها، لا الوحدات نفسها، هو الذي يحدّد ما إذا كان الكُمون يُقاس بعشرات الميلي ثوانٍ أم بثوانٍ كاملة. تقنية NVLink هي النسيج الذي يجعل الاستدلال بالتوازي الموتّري ممكناً اقتصادياً داخل المنشأة. هذه خريطة عمليّة لأجيال NVLink، وأنسجة NVSwitch، وطبولوجيات DGX وHGX، وما يعنيه ذلك لخدمة نماذج اللغة السيادية في عُمان والخليج.

NVLink في مئة كلمة، ولماذا لا يكفي PCIe وحده

NVLink هو النسيج المملوك لإنفيديا لربط وحدات المعالجة الرسومية ببعضها، ظهر مع وحدة P100 عام 2016. ضاعف كلّ جيل عرض الحزمة أو زاده إلى ثلاثة أضعاف: الجيل الأول 160 جيجابايت/ث، والثاني 300، والثالث 600 على A100، والرابع 900 جيجابايت/ث إجمالياً (450 لكلّ اتجاه) على H100. توثّق صفحة NVLink لدى إنفيديا الجيل الحالي بثمانية عشر ارتباطاً لكلّ H100، يعمل كلّ منها بسرعة 50 جيجابايت/ث ثنائية الاتّجاه.

أمّا PCIe فهو ناقل مضيف، لا نسيج بين وحدات المعالجة. PCIe Gen5 x16 يقدّم 128 جيجابايت/ث إجمالاً (64 لكلّ اتّجاه). أي أبطأ بنحو سبع مرّات من NVLink 4 بين وحدتَي H100، قبل احتساب أعباء البروتوكول. والاستدلال بالتوازي الموتّري يُصدر تجميعاً شاملاً عند مخرَج كلّ طبقة (وأحياناً مرّات متعدّدة لكلّ رمز)، فتتحوّل هذه الفجوة في عرض الحزمة مباشرةً إلى زمن استجابة لكلّ رمز. لنموذج بسبعين مليار وسيط مقسّم على أربع وحدات، يقارب الفارق بين NVLink وPCIe في الإنتاجية ثلاث إلى ثماني مرّات بحسب الإطار والكَمّمة. للمزيد من المنظور الشرائي حول متى يهمّ هذا الفرق، تراجع مقالتنا الأمّ حول مقارنة عتاد استدلال الذكاء الاصطناعي.

أنظمة DGX وHGX والطبولوجيات المخصّصة بثماني وحدات

توجد ثلاث فئات تغليف لنظام بثماني وحدات معالجة رسومية مرتبطة عبر NVLink:

DGX H100/H200. الخادم المتكامل من إنفيديا. قائمة مكوّنات ثابتة: ثماني وحدات H100 SXM5 على لوحة HGX، ومعالجَا Sapphire Rapids، وذاكرة DDR5 سعتها 2 تيرابايت، وثماني بطاقات ConnectX-7، ومعالجَا BlueField-3 DPU، و30 تيرابايت تخزين NVMe. دليل مستخدم DGX H100 هو المرجع المعتمد. تشتري النظام بصنف واحد وتتولّى إنفيديا عقد الدعم.
لوحة HGX من مصنّع أصلي. سوبرمايكرو AS-8125GS، وديل XE9680، وHPE Cray XD675، ولينوفو SR685a V3، وإنسبور NF5688G7. كلّها تعتمد لوحة HGX H100 ذاتها بثماني وحدات وأربعة شرائح NVSwitch متطابقة. تكمن الفروقات في الهيكل ووحدة الإدارة BMC وفتحات البطاقات وأقراص التخزين والضمان. تعتمد إنفيديا اللوحة، ويعتمد المصنّع النظام. وبحسب صفحة منصّة HGX، طبولوجيا NVLink متطابقة بين كلّ المورّدين.
أربع وحدات PCIe مع جسور NVLink. بديل اقتصاديّ للاستدلال فقط. أربع بطاقات H100 PCIe في هيكل واحد، مرتبطة ثنائياً عبر جسور NVLink بنمط 2+2. تقدّم الجسور 600 جيجابايت/ث بين الوحدتين المقترنتين، لكنّ المرور بين الأزواج يعود إلى PCIe. مقبول لتوازٍ موتّري داخل الزوج، ومُكلِف لتقسيم رباعيّ كامل.

لمعظم النشر السيادي الذي يخدم أقلّ من 200 مستخدم متزامن، يُعدّ نظام HGX الواحد بثماني وحدات الوحدة الشرائية الصحيحة. شراء DGX هو الخيار الصواب حين تطلب الجهة مورّداً واحداً وتقبل بدفع علاوة التكامل. وشراء HGX من مصنّع أصلي يوفّر 15 إلى 30 بالمئة ويمنح المؤسّسة شريك دعم محلّياً للعتاد، وهذا يهمّ حين تكون الخزانة معزولة في مسقط.

بنية NVSwitch وحسابات عرض الحزمة

NVSwitch هو الشريحة التي تُحوّل ثماني وحدات معالجة رسومية إلى شبكة شاملة الترابط. على لوحة HGX H100 تجلس أربع شرائح من الجيل الثالث، يقدّم كلّ منها 64 منفذ NVLink 4. النتيجة: لكلّ وحدة 900 جيجابايت/ث إجمالاً، وتستطيع أيّ وحدة التخاطب مع أيّ أخرى بسرعة 450 جيجابايت/ث في كلّ اتّجاه آنياً. هذه الخاصيّة هي ما يجعل التوازي الموتّري الثمانيّ مُجدياً.

ثلاثة أرقام جديرة بالحفظ:

900 جيجابايت/ث إجمالاً لكلّ وحدة على H100 (الجيل الرابع من NVLink). يحتفظ H200 بنفس الجيل والسرعة. ويرفع Blackwell B200 الرقم إلى 1,800 جيجابايت/ث على الجيل الخامس.
450 جيجابايت/ث في كلّ اتّجاه ثنائيّ بين أيّ وحدتين داخل نطاق NVSwitch.
64 جيجابايت/ث في الاتّجاه الواحد على PCIe Gen5 x16. مسار التحكّم لا مسار البيانات.

عند تنفيذ التجميع الشامل على طبقة موتّرية متوازية، فإنّ ما يهمّ هو عرض الحزمة في الانقسام (bisection bandwidth) لمجموعة الوحدات. شبكة NVSwitch الكاملة الترابط تملك انقساماً غير محدود فعلياً عند طبقة الارتباط، ويصبح العنق هو شريحة NVSwitch ذاتها، وهي مصنّفة على HGX H100 بـ13.6 تيرابايت/ث إجمالاً. ويوسّع نظام NVL Switch System المستخدم في DGX SuperPOD هذا النسيج إلى 32 عقدة (256 وحدة) عبر مفاتيح ثانوية، غير أنّ أغلب الأحمال السيادية لا تحتاج هذا النطاق.

الخدمة بالتوازي الموتّري مقابل التوازي الأنبوبي

تهيمن استراتيجيتان في خدمة نماذج اللغة، والاختيار بينهما هو في معظمه دالّة على نسيج الترابط:

التوازي الموتّري (TP) يقسم كلّ مصفوفة أوزان على وحدات متعدّدة ويُجري تجميعاً شاملاً عند مخرَج كلّ طبقة. كثيف الاتصال، شديد الحساسية للكُمون، ويستلزم عرض حزمة بمستوى NVLink. داخل نطاق NVSwitch الواحد بثماني وحدات، يكون TP=8 هو الافتراضي للنماذج بحجم 70 مليار وسيط فأكثر. يوصي دليل الخدمة الموزّعة في vLLM بإبقاء التوازي الموتّري داخل نطاق NVLink لهذا السبب بالذات.
التوازي الأنبوبي (PP) يُسند طبقات كاملة إلى وحدات كاملة ويُمرّر التنشيطات بينها. خفيف على عرض الحزمة، متسامح مع الأنسجة الأبطأ، لكنّه يضيف كُمون فقاعة الأنبوب. PP عبر عقدتَي HGX مرتبطتين بـInfiniBand سرعة 400 جيجابت/ث نمط شائع للنماذج التي تتجاوز ميزانية ذاكرة الثماني وحدات.

وصفة الخدمة التي تُعظّم الإنتاجية في معظم النشر السيادي: TP=8 داخل نطاق NVSwitch، وPP=2 أو 4 بين العقد عند الحاجة، وتوازي بيانات (نسخ مستقلّة) للتوسّع الأفقي. تصميم الشبكة بين العقد هو علم بحدّ ذاته، نتناوله في 25 و100 جيجابت إيثرنت لعناقيد الذكاء الاصطناعي. أمّا الإنتاجية المتوقّعة من كلّ طبولوجيا بأطوال إدخال وإخراج واقعية فموثّقة في معايير التزامن لنماذج اللغة لكلّ وحدة.

في حصن نُحدّد الطبولوجيا بحسب الحمل لا بحسب الكتيّب. إن كان عدد المستخدمين المتزامنين أقلّ من 50 وحجم النموذج 32 مليار وسيط أو أقلّ، فلستَ بحاجة NVSwitch. أمّا إن كنتَ تخدم نموذج استدلال بسبعين مليار وسيط لوزارة بخمسمئة مستخدم بهدف زمن أوّل رمز قدره 200 ميلي ثانية، فأنت بحاجة إليه. للتشاور حول الطبقة المناسبة لحجم العمل والغرفة والميزانية، راسلونا على [email protected] لجلسة إيجاز مدّتها ساعة.

طبولوجيا NVLink لنشر نماذج اللغة على وحدات معالجة رسومية متعدّدة

NVLink في مئة كلمة، ولماذا لا يكفي PCIe وحده

أنظمة DGX وHGX والطبولوجيات المخصّصة بثماني وحدات

بنية NVSwitch وحسابات عرض الحزمة

الخدمة بالتوازي الموتّري مقابل التوازي الأنبوبي

أسئلة شائعة

NVLink في مئة كلمة، ولماذا لا يكفي PCIe وحده

أنظمة DGX وHGX والطبولوجيات المخصّصة بثماني وحدات

بنية NVSwitch وحسابات عرض الحزمة

الخدمة بالتوازي الموتّري مقابل التوازي الأنبوبي

أسئلة شائعة

مقالات ذات صلة

مقارنة عتاد استدلال الذكاء الاصطناعي: H100 وH200 وRTX 6000 وMac Studio

25 و100 جيجابت إيثرنت لعناقيد الذكاء الاصطناعي

معايير تزامن نماذج اللغة لكلّ وحدة معالجة رسومية