كم مستخدمًا متزامنًا تخدم بطاقة H100 واحدة على نموذج عربي بحجم 7B؟

على Gemma 4 7B بكمّ Q4 مع التجميع المستمر في vLLM وميزانية سياق 16K لكل جلسة، تتحمّل بطاقة H100 80GB واحدة قرابة 80 إلى 120 مستخدمًا متزامنًا نشطًا، بزمن أوّل رمز P50 دون 100 ميلي ثانية. السقف تحدّده ذاكرة KV لا الحساب.

هل تخدم H200 فعلاً عددًا أكبر من المستخدمين أم أنّها فقط أسرع؟

كلاهما. تتيح ذاكرة HBM3e سعة 141GB في H200 هامشًا أكبر بكثير لـ KV، فيرتفع التزامن بمعامل يقارب 1.7 إلى 2.0 لنفس النموذج وطول السياق، مع انخفاض زمن الرمز بنسبة 20 إلى 30 بالمئة بفضل عرض النطاق 4.8 TB/s.

هل RTX 6000 Ada مناسبة للتزامن المؤسسي؟

نعم لنماذج 7B إلى 13B بكمّ Q4 أو Q5. توقّع 30 إلى 50 مستخدمًا متزامنًا على بطاقة 48GB واحدة بزمن أوّل رمز بين 110 و150 ميلي ثانية. فوق هذا الحجم، تصبح H100 أو H200 الوحدة الأفضل للشراء.

متى يبلغ التزامن نقطة التشبّع على بطاقة معيّنة؟

غالبًا عند ذاكرة KV لا عند الحساب. كلّما كبر حجم الدُّفعة، تبلغ إنتاجية فكّ الترميز هضبة بمجرّد أن يستهلك مجموع KV ذاكرة HBM المتاحة. الحلول المعتادة هي التوازي التنسوري، أو سياق أقصر، أو إخراج KV إلى مستويات أبطأ.

مقاييس التزامن لنماذج اللغة وفق صنف وحدة المعالجة الرسومية، مدوّنة حصن

نادرًا ما يهتمّ مسؤول المشتريات السيادي بكون البطاقة الرسومية تُنجز 989 أو 1,979 تيرافلوب من العمليات. ما يهمّه هو كم محلّلًا في الوزارة يستطيع طرح سؤال على نفس النموذج العربي بحجم 7B صباح الأحد التاسعة دون انتظار مؤشر التحميل. هذا الرقم، أي عدد المستخدمين المتزامنين النشِطين لكلّ بطاقة عند زمن أوّل رمز مقبول، هو المقياس الوحيد الذي يحسم شراء برج حصن واحد أو أربعة. تربط هذه المقالة أرقامًا واقعية بأربعة أصناف من البطاقات (H100 وH200 وRTX 6000 Ada وM3 Ultra) وهي تُشغّل Gemma 4 7B بكمّ Q4، وتُبيّن أين تصطدم بجدار التزامن. وهي مكمّلة لمقالة الركيزة حجم جهاز الذكاء الاصطناعي السيادي بحسب المستخدمين والكمون.

التزامن = المستخدمون × الرموز قيد التوليد ÷ البطاقة

الحساب الذي يحكم كلّ نشر لخدمة نماذج اللغة، قبل أيّ معيار أداء، بسيط. كلّ جلسة نشطة تستهلك موردين شحيحين على البطاقة: شريحة من عرض النطاق (لقراءة الأوزان وذاكرة KV لكلّ رمز يُولَّد)، وشريحة من سعة HBM (لاحتواء ذاكرة KV المتنامية). مجموع الإنتاجية على البطاقة يساوي عرض النطاق مقسومًا على قراءة الأوزان لكلّ رمز. أمّا عدد المستخدمين المتزامنين فيساوي مجموع الإنتاجية مقسومًا على معدّل الرموز لكلّ مستخدم الذي يفرضه العمل.

للروبوت المحادثي العربي السيادي، الطلب الواقعي لكلّ مستخدم هو 20 إلى 30 رمز إخراج في الثانية (أسرع من سرعة القراءة) عند زمن أوّل رمز P50 دون 100 ميلي ثانية. هذا الرقم الأخير هو ما يقبله نائب الوزير قبل أن يشكو من بطء النظام. أيّ معدّل أعلى لكلّ مستخدم هو إفراط، وأيّ تزامن أدنى هو إهدار للبطاقة.

التجميع المستمرّ في vLLM هو الرافعة التي تحوّل عرض النطاق الخام إلى تزامن. فبدلاً من انتظار انتهاء دفعة كاملة قبل بدء أخرى (التجميع الساكن)، يسمح vLLM للطلبات الجديدة بالانضمام إلى حلقة فكّ الترميز عند كلّ خطوة. وتوثّق ملاحظات إصدار vLLM 0.6.0 ارتفاعًا في الإنتاجية بمعامل 2.7 مقارنة بالنسخ السابقة، نتيجة تحسينات المجدول وإدارة KV فقط. هذا الهامش هو ما يتيح لبطاقة H100 واحدة أن تخدم عشرات المستخدمين بنفس زمن أوّل رمز الذي يراه مستخدم وحيد.

التزامن على بطاقة واحدة: H100 وH200 وRTX 6000 Ada وM3 Ultra

تفترض الأرقام أدناه نموذج Gemma 4 7B بكمّ Q4_K_M (نحو 4.5 جيجابايت من الأوزان)، وميزانية سياق 16K لكلّ جلسة، وvLLM مع PagedAttention، وهدف زمن أوّل رمز P50 عند 100 ميلي ثانية. هذه أرقام قابلة للتكرار من أدبيات قياس الأداء العامّة، لا ادّعاءات تسويقيّة. وتتطابق مجاميع المعايير المستقلّة لـ vLLM مع أرقام H100؛ إذ يُظهر معيار تزامن البطاقات الرسوميّة من AIMultiple قرابة 75 مستخدمًا نشطًا على كلّ H100 مع هامش أمان 50 بالمئة في الاستخدام.

H100 80GB SXM. 80 إلى 120 مستخدمًا متزامنًا نشطًا بزمن أوّل رمز P50 60 إلى 90 ميلي ثانية. يبقى معدّل إخراج المستخدم فوق 25 رمزًا في الثانية. تتوفّر للبطاقة قرابة 60 جيجابايت من هامش KV بعد الأوزان والتشغيل.
H200 141GB SXM. 160 إلى 220 مستخدمًا متزامنًا نشطًا بزمن أوّل رمز P50 50 إلى 75 ميلي ثانية. تضاعف ذاكرة HBM3e بسعة 141GB حوض KV، ويُبقي عرض النطاق 4.8 TB/s إنتاجية فكّ الترميز عالية حتى عند الدفعات الكبيرة. أي قرابة 1.8 ضعف H100 على النموذج نفسه.
RTX 6000 Ada 48GB. 30 إلى 50 مستخدمًا متزامنًا بزمن أوّل رمز P50 110 إلى 150 ميلي ثانية. متّصلة عبر PCIe دون NVLink، مناسبة لأبراج حصن في فروع أو مختبرات بحث، لكنّها ليست وحدة الشراء لنشر بحجم وطني.
Apple M3 Ultra 192GB ذاكرة موحّدة. 8 إلى 15 مستخدمًا متزامنًا بزمن أوّل رمز P50 180 إلى 280 ميلي ثانية. الذاكرة الموحّدة سخيّة في السعة، لكنّ عرض النطاق (نحو 800 جيجابايت/ث) وغياب منظومة CUDA يُبقيانها في طبقة المطوّر أو الحاسوب المعزول، لا طبقة الخدمة.

نسبة H100 إلى H200 التي تقارب 1.8 هي أهمّ ما يستفيده المشتري السيادي. شراء H200 ليس شراء بطاقة أسرع فحسب، بل شراء نحو ضِعف عدد المقاعد في الهيكل نفسه. على رفّ حصن بثماني بطاقات، هذا هو الفرق بين 800 و1,600 مستخدم وزاري متزامن على جهاز واحد.

زيادة التزامن متعدّد البطاقات عبر التوازي التنسوري

حين يتجاوز النموذج سعة HBM لبطاقة واحدة (نموذج 70B بدقّة FP16 يحتلّ 140GB)، يقسّم التوازي التنسوري مصفوفات الأوزان على عدّة بطاقات. توثّق صفحة H100 Tensor Core GPU من NVIDIA سرعة NVLink عند 900 جيجابايت/ث، وهو ما يجعل الخدمة متعدّدة البطاقات عمليّة. الزيادة دون الخطّيّة لكنّها مفيدة.

بطاقتا H100 على نموذج 70B. قرابة 60 إلى 90 مستخدمًا متزامنًا عند نفس هدف زمن أوّل رمز 100 ميلي ثانية. يخفض التوازي التنسوري حِمل الأوزان لكلّ بطاقة إلى النصف، فيتوفّر هامش لمزيد من الجلسات، مع ضريبة صغيرة لكلّ رمز بسبب قفزات NVLink.
أربع بطاقات H100 على نموذج 70B. قرابة 140 إلى 200 مستخدم متزامن. يهبط معامل التوسّع إلى 1.7 لكلّ مضاعفة بدلاً من 2، بسبب تكاليف المزامنة في NVLink عند كلّ خطوة فكّ ترميز.
ثماني بطاقات H200 NVL على نموذج 70B بسياق 32K. قرابة 350 إلى 500 مستخدم متزامن. هذه هي وحدة النشر السيادي. وتُبلِّغ مجتمعات vLLM وTensorRT-LLM باستمرار عن خدمة 4,000 إلى 4,800 رمز في الثانية عند 100 طلب متزامن في هذه التهيئة على نماذج بفئة GPT-OSS-120B.

القاعدة العمليّة للمشتريات: إن كان عدد المستخدمين هو القيد، فضاعف البطاقات داخل الرفّ نفسه. وإن كان حجم النموذج هو القيد، فاعلم أنّ نماذج أصغر على بطاقات أكثر تخدم مستخدمين أكثر من نموذج 70B على بطاقات أقلّ.

أين يتشبّع التزامن: ذاكرة KV قبل الحساب

كلّ جدار تزامن في الإنتاج تقريبًا هو جدار KV، لا جدار حساب. ذاكرة KV لنموذج 70B بسياق 128K لكلّ جلسة تبلغ نحو 40 جيجابايت. ثمانية مستخدمين بسياق كامل على H100 واحدة يطلبون 320 جيجابايت من KV (مع الأوزان)، أي 4 أضعاف البطاقة. ويوثّق تحليل Spheron لإخراج KV إلى NVMe أنّ هذا الحدّ تحديدًا (8 مستخدمين) جعل عمليات نشر H100 الداخليّة تبدو "صغيرة" قبل أن تصبح ذاكرة KV ثلاثيّة الطبقات (HBM وDRAM وNVMe) معياريّة في vLLM. وأجهزة حصن تُسلَّم بهذه المنظومة جاهزة. وتستفيد الأعباء العربيّة طويلة السياق من التقنيات المعروضة في تحسين ذاكرة KV للسياق العربي الطويل.

أمّا جانب الحساب فنادرًا ما يصل إلى التشبّع. وحدات FP8 التنسوريّة في معماريّة Hopper تفوق ما يستطيع عرض النطاق إطعامها. تشرح دراسة الأثر العملي لعرض نطاق ذاكرة H100 وH200 لماذا تحدِّد إنتاجيّة فكّ الترميز السقف لا إنتاجيّة GEMM. خطّط للسعة على أساس HBM لا TFLOPS، واحجز 20 إلى 30 بالمئة من KV هامشًا حتى يثمر تخزين البادئات فعلاً. ومنصّة "مُعين" الوطنية للذكاء الاصطناعي المشترك في عُمان تعالج مفاضلات حجمٍ مختلفة على المستوى الوطني، أمّا تحجيم الجهاز المؤسّسي فيتبع الحساب لكلّ بطاقة الموضّح أعلاه.

راسلونا على [email protected] لحجز جلسة إيجاز ساعتها واحدة حول تحجيم جهاز حصن لعدد المستخدمين ونافذة السياق العربي التي تحتاجها مؤسّستكم فعلاً. أحضروا شكل العبء (المحلّلون المتزامنون، متوسّط السياق، ذُرى الاستخدام)، ونحن نترجمه إلى صنف بطاقة وعدد هياكل قابلَين للدفاع.

التزامن = المستخدمون × الرموز قيد التوليد ÷ البطاقة

التزامن على بطاقة واحدة: H100 وH200 وRTX 6000 Ada وM3 Ultra

زيادة التزامن متعدّد البطاقات عبر التوازي التنسوري

أين يتشبّع التزامن: ذاكرة KV قبل الحساب

أسئلة شائعة

مقالات ذات صلة

حجم جهاز الذكاء الاصطناعي السيادي بحسب المستخدمين والكمون

أثر عرض نطاق ذاكرة H100 وH200 العملي

تحسين ذاكرة KV للسياق العربي الطويل