هل يجعل PCIe Gen5 نموذجاً يعمل على مسرّع واحد أسرع فعلاً؟

نادراً جداً في مسار توليد الرموز. بمجرّد أن تستقرّ أوزان النموذج في ذاكرة المسرّع، لا تحمل وصلة المضيف سوى رسائل تحكّم صغيرة وانسكابات متقطّعة لذاكرة KV. توثّق NVIDIA وصلة PCIe في H100 وH200 بوصفها واجهة مضيف لا نسيج استدلال. يفيد Gen5 أساساً عند تحميل النموذج وعمليات الجمع الجماعي بين عدّة مسرّعات.

متى يستحقّ الجيل الخامس الكلفة الإضافية؟

ثلاث أحمال تبرّر الترقية: استدلال متعدّد المسرّعات لنماذج الحدود يعتمد على PCIe بدلاً من NVLink، خطوط استرجاع وتضمين تقرأ بمعدّل عشرات الجيجابايت في الثانية من تخزين NVMe، وضبط دقيق متواصل تهيمن فيه نقاط الحفظ ونقل البيانات. أمّا استدلال نموذج 30B إلى 70B على مسرّع واحد فيكفيه Gen4.

هل تعمل بطاقة Gen5 في خادم Gen4؟

نعم. PCIe متوافق رجعياً بالتصميم. تتفاوض بطاقة Gen5 في فتحة Gen4 على سرعة Gen4 (32 جيجابايت/ث لكل وصلة x16) وتعمل دون أيّ خلل وظيفي. في معظم أحمال الاستدلال السيادي على مسرّع واحد لا يظهر هذا الفارق عملياً، ويبرز فقط حين يتوسّع النشر إلى عدّة مسرّعات أو إلى استرجاع كثيف يعتمد على NVMe.

كيف تتعامل فرق المشتريات السيادية مع PCIe في كرّاسات الطلب؟

حدّد أوّلاً المسرّع وحمل العمل، ثمّ اطلب من المتكامل تبرير جيل PCIe بناءً على ذلك الحمل. اشترط Gen5 فقط حين تستحقّه البنية، أيّ عند الجمع بين عدّة مسرّعات عبر مسار المضيف، أو طبقات تخزين NVMe لخدمات الاسترجاع، أو دورات التدريب. فيما عدا ذلك اقبل Gen4 ووجّه الميزانية إلى ذاكرة المسرّع والمرونة. ارفض اشتراط Gen5 شاملاً غير مرتبط بنمط حركة محدّد.

مقارنة PCIe الجيل الخامس بالجيل الرابع لاستدلال الذكاء الاصطناعي: هل يصنع الفرق؟، مدوّنة حصن

تحوّل PCIe Gen5 إلى بند افتراضي في كرّاسات الذكاء الاصطناعي السيادي. كلّ متكامل يعرضه، وكلّ مزوّد يروّج له، وكثير من فرق المشتريات تعدّ غيابه سبباً للاستبعاد. الحقيقة أكثر دقّة من ذلك. في معظم أحمال الاستدلال المحلّي التي تخدم جهة تنظيمية أو وزارة أو بنكاً سيادياً، لا تشكّل وصلة PCIe المضيفة عنق زجاجة، وتقدّم منصّات الجيل الرابع أداءً مكافئاً بكلفة أقلّ. يفصل هذا الدليل بين الحالات التي يستحقّ فيها الجيل الخامس علاوته فعلاً، والحالات التي يجب فيها التشكيك في وروده ضمن العرض.

عرض حزمة PCIe في مئة كلمة

يتضاعف عرض الحزمة في كلّ جيل من PCI Express تقريباً. تثبّت مواصفات PCI-SIG الرسمية أنّ الجيل الرابع يعمل بسرعة 16 GT/s لكلّ مسار، والجيل الخامس بسرعة 32 GT/s. تعطي فتحة x16 النموذجية للمسرّع نحو 32 GB/s في كلّ اتّجاه على الجيل الرابع، وقرابة 64 GB/s على الجيل الخامس، مع عبء بروتوكول طفيف بترميز 128b/130b. أمّا تخزين NVMe فيستخدم أربعة مسارات، فيبلغ 8 GB/s على الجيل الرابع و16 GB/s على الجيل الخامس لكلّ قرص. المضاعفة حقيقية، والسؤال الفعلي هل ينقل حمل العمل ما يكفي بين المضيف والجهاز للاستفادة منها.

أين يُحدث الجيل الخامس فرقاً فعلياً

ثلاث حالات في عمليات النشر السيادي تدفع حركة كافية عبر مجمّع PCIe المضيف لتجعل الجيل الخامس بنداً يستحقّ الإنفاق.

عمليات الجمع الكلّي بين عدّة مسرّعات تمرّ عبر المضيف. حين تخدم ثمانية مسرّعات أو أكثر نموذجاً واحداً، وتفتقر المنصّة إلى نسيج NVLink كامل التشبيك، تعود حركة التدرّجات والتنشيط إلى مسار PCIe النِدّي عبر المعالج. يشرح الدليل المرافق طوبولوجيا NVLink لخدمة النماذج الكبيرة بعدّة مسرّعات أيّ المنصّات تُبقي العمليات الجماعية بعيداً عن مسار PCIe. حين تفشل في ذلك، تُقلّص مضاعفة عرض حزمة المضيف زمن الاستجابة في توليد السياقات الطويلة.
خطوط استرجاع وتضمين تتغذّى من NVMe. تقرأ بنية استرجاع ثنائية اللغة عربية وإنجليزية تحوي مليارات المتجهات وعشرات التيرابايتات من المستندات الأصلية بشكل متواصل من قرص NVMe محلّي. تحقّق أقراص Gen5 NVMe نحو 14 GB/s قراءة مستدامة وفق صحيفة بيانات Samsung PM1743 الرسمية. أمّا الجيل الرابع فيتوقّف قرب 7 GB/s. لجهة تنظيمية تشغّل استرجاعاً مكثّفاً يعني هذا فارقاً مضاعفاً في طبقة التخزين.
الضبط الدقيق المتواصل والدفعات الكبيرة. تدفع عمليات التدريب والضبط الدقيق نقاط حفظ النموذج وشظايا البيانات والتدرّجات عبر مسار المضيف بمعدّلات مستدامة. يوثّق دليل مستخدم NVIDIA DGX H100 كيف تُبقي وصلات الجيل الخامس نسيج التخزين قادراً على إطعام المسرّعات أثناء التدريب. على جهاز سيادي يجمع نافذة ضبط ليلية مع استدلال نهاري، يُسدّد الجيل الخامس استثماره.

أين يكفي الجيل الرابع

لا يشبه معظم الاستدلال السيادي الإنتاجي الحالات السابقة. شكله الواقعي مسرّع واحد أو اثنان، نموذج فئة 30B إلى 70B يُحمَّل مرّة عند الإقلاع، تزامن متواضع بعشرات إلى مئات قليلة، واسترجاع متقطّع عبر فضاء أسماء NVMe واحد. في هذا الملمح، تبقى وصلة PCIe المضيفة خاملة في الغالبية العظمى من زمن الاستدلال.

السبب بنيوي. حين تستقرّ الأوزان داخل ذاكرة HBM الخاصّة بالمسرّع، تهيمن على حلقة توليد الرموز عرضُ حزمة الذاكرة الداخلية للمسرّع، لا عرض حزمة المضيف. يقرأ كلّ رمز مولَّد كامل حالة النموذج من HBM مرّةً واحدة، ولهذا تتصدّر ذاكرة المسرّع المقارنة في مقارنة H100 وH200 وRTX 6000 وMac Studio لعتاد الذكاء الاصطناعي السيادي. أمّا ناقل المضيف فيحمل رسائل تحكّم وانسكابات متقطّعة لذاكرة KV عند ضيق الذاكرة، والتحميل الأوّلي للأوزان. لا شيء من ذلك يُشبع وصلات الجيل الرابع على جهاز ذي مسرّع واحد.

تجريبياً، تظهر اختبارات vLLM وTensorRT-LLM على RTX 6000 Ada وL40S بين هياكل الجيل الرابع والخامس فروقاً بأرقام أحادية بالنسبة المئوية على إنتاجية الرموز لنماذج 7B إلى 70B بأطوال سياق نموذجية. تتناول المقالة المرافقة المفاضلة بين تكميم الاستدلال والعتاد الرافعة الأكبر بكثير، أيّ ذاكرة المسرّع والتكميم، وهي ما ينبغي للمشتري أن يحرّكه قبل الانشغال بالجيل الخامس.

لجهاز بحجم إدارة (مسرّع إلى أربعة بمنفذ PCIe، خمسون إلى مئتا مستخدم متزامن، نموذج 30B إلى 70B)، لا تشكّل وصلات الجيل الرابع قيداً. ينبغي توجيه أيّ علاوة للجيل الخامس نحو ذاكرة مسرّع أكبر، أو جهاز ثانٍ للمرونة، أو سعة NVMe أوسع.

ملاحظة شراء للمشترين السياديين

تعامل مع جيل PCIe بوصفه مواصفة محكومة بحمل العمل لا قيمة افتراضية. ثلاث قواعد تُبقي الحوار مع المتكامل صادقاً.

طابِق الوصلة مع نمط الحركة الفعلي. استدلال على مسرّع واحد مع استرجاع خفيف، يكفي الجيل الرابع. خدمة نماذج حدود بثمانية مسرّعات عبر PCIe النِدّي، أو تخزين NVMe متعدّد الطبقات للاسترجاع، أو دورات تدريب، يبرّر الجيل الخامس. اطلب من المتكامل تحديد الحالة قبل تسعير المنصّة.
لا تدع لوحاً أمّاً Gen5 يخفي مسرّعاً أو قرص NVMe من الجيل الرابع. لا قيمة لخادم بلوحة جيل خامس إذا كانت البطاقات في فتحاته من الجيل الرابع. افحص رمز المسرّع، ورمز قرص NVMe، وتوزيع المسارات. تعرض كثير من التهيئات خوادم جيل خامس مع تخزين جيل رابع لخفض السعر.
خطّط للتوافق الرجعي. تعمل بطاقات الجيل الخامس بأمان في فتحات الجيل الرابع، والعكس صحيح. هذا يعني أنّ المؤسّسة السيادية تستطيع تقسيط الترقيات: تُبقي خادم جيل رابع خلال دورة تجديد كاملة، وتُركّب مسرّعات جيل خامس فقط حين يستوجب الحمل ذلك. المكسب على دورة الحياة حقيقي.

إن كانت مؤسستك تحدّد حجم جهاز ذكاء اصطناعي سيادي محلّي، وتوازن بين أجيال PCIe وحمل العمل الفعلي، فالخطوة التالية لقاء فنّي بساعة واحدة بأرقام ملموسة لحالتك. راسلنا عبر [email protected] أو واتساب +968 9889 9100. نأتي إليك في مسقط أو في أيّ مدينة خليجية، نستعرض خيارات المنصّات وأنماط الحركة وخطّة قابلة للتنفيذ ضمن جدولك الزمني. التسعير بحسب الطلب، يُفصَّل على المتطلّب الدقيق.

عرض حزمة PCIe في مئة كلمة

أين يُحدث الجيل الخامس فرقاً فعلياً

أين يكفي الجيل الرابع

ملاحظة شراء للمشترين السياديين

أسئلة شائعة

مقالات ذات صلة

H100 وH200 وRTX 6000 وMac Studio للذكاء الاصطناعي السيادي

طوبولوجيا NVLink لخدمة النماذج الكبيرة بعدّة مسرّعات

المفاضلة بين تكميم الاستدلال والعتاد