تحجيم جهاز الذكاء الاصطناعي السيادي: المستخدمون المتزامنون وزمن الاستجابة والإنتاجية
يوقّع مشترٍ سيادي على «جهاز ذكاء اصطناعي لمئتي مستخدم»، ثم ينهار النظام يوم تصل إحاطة مجلس الوزراء، لأن وثيقة المشتريات لم تفصل بين الحسابات المسجّلة والجلسات النشطة في الذروة، ولم تحدّد هدف زمن الاستجابة P99، ولم تحسب كيف يضخّم سياق 256K ذاكرة KV لكل طلب. هذا الدليل يحوّل الحوار من «ما حجم الصندوق» إلى الأرقام الثلاثة أو الأربعة التي يجب أن يُحجَّم عليها الجهاز السيادي فعلًا، وهو رفيق التحجيم لـدليل الذكاء الاصطناعي داخل المؤسسات السيادية.
الأرقام الثلاثة التي يجب أن يطلبها كل مشترٍ سيادي
تتلاشى معظم الخلافات حول التحجيم بمجرد كتابة ثلاثة أرقام. اطلبها من أي مورّد، واطلبها من المستخدمين عندك قبل صياغة كرّاس الشروط.
- ذروة الطلبات النشطة المتزامنة. ليست حسابات المستخدمين، ولا المقاعد المسجّلة، ولا «كل موظفي الدائرة». بل عدد الطلبات الجارية في أزحم نافذة خمس عشرة دقيقة من أزحم يوم في الشهر. وزارة فيها ٨٠٠ موظف قد تبلغ ذروتها عند ٦٠ طلبًا نشطًا متزامنًا، ومكتب خزانة فيه ١٢ شخصًا قد تبلغ ذروته عند ١٢. حجِّم على الذروة.
- زمن الرمز الأول الوسيط P50. الزمن الوسيط، بالميلي ثانية، من ضغط المستخدم زر الإدخال إلى ظهور أول رمز يُبثّ على الشاشة. هذا ما يحدّد الإحساس باستجابة النظام. أقل من ٢٠٠ ميلي ثانية يبدو فوريًا. فوق ٥٠٠ يبدو بطيئًا. فوق ١٫٥ ثانية يبدو معطّلًا.
- زمن النهاية إلى النهاية P99. الزمن، بالثواني، الذي يستغرقه أسوأ طلب من بين كل مئة طلب من البداية إلى النهاية. P99 هو ما يحدّد بقاء الجهاز قابلًا للاستخدام تحت الحمل. P50 يكذب، P99 يقول الحقيقة.
وثمة رقم رابع مفيد: عدد الرموز في الثانية لكل مستخدم أثناء البثّ المستقرّ. النموذج الذي يبثّ بمعدّل ٤٠ رمزًا في الثانية يبدو سلسًا للمحادثة، وعند ١٥ يبدأ المستخدمون إعادة القراءة، ودون ١٠ يبدؤون التنقّل لأنشطة أخرى. سرعة البثّ محورٌ منفصل عن زمن الرمز الأول، والجهاز المضبوط جيدًا يحسّن الاثنين.
إذا لم يستطع مورّد تقديم هذه الأرقام الأربعة لحملك بالذات، فالعرض ليس دراسة تحجيم، بل قائمة تمنّيات.
فخّ ذاكرة KV
أكثر أخطاء التحجيم شيوعًا في الأجهزة السيادية هو معاملة ذاكرة المعالج الرسومي على أنها «أوزان النموذج زائد قليل من الفائض». في عالم السياقات الطويلة، ذاكرة KV، لا الأوزان، هي المهيمنة.
كل طبقة محوّل تخزّن مفاتيح وقيم كل رمز سابق في التسلسل حتى لا يُعاد حساب الانتباه عند توليد الرمز التالي. حجم هذه الذاكرة، بالبايت، هو تقريبًا:
2 × عدد_الطبقات × الحجم_المخفي × طول_السياق × بايتات_لكل_عنصر × عدد_الجلسات_النشطة
أدخل أرقامًا واقعية: نموذج بحجم 27B بـ ٦٤ طبقة وحجم مخفي ٥١٢٠ وسياق 256K بدقّة FP16، يحتاج نحو 33.5 جيجابايت من ذاكرة KV لجلسة واحدة محمَّلة بالكامل. شغِّل عشر جلسات وتحصل على 335 جيجابايت، أكثر من ذاكرة أي معالج رسومي على السوق، بما في ذلك H200 بسعته 141 جيجابايت. أوزان النموذج نفسه 54 جيجابايت بـ FP16. الذاكرة ست أضعاف النموذج.
هذا هو «الفخّ» الذي يقع فيه المشتري حين يأخذ مواصفة سياق 256K اللامعة بظاهرها. النموذج يستطيع تقنيًا قراءة 256K رمز، لكن الجهاز لا يستطيع خدمة مئة مستخدم يفعلون ذلك في وقت واحد دون تقسيم الذاكرة، أو ترقيمها، أو رفض الطلبات.
هناك ثلاث وسائل تخفيف، وينبغي للجهاز السيادي استخدامها جميعًا:
- PagedAttention. قدّمت ورقة فريق vLLM نموذج ذاكرة افتراضية مرقّمة بأسلوب أنظمة التشغيل لذاكرة KV. بدل قطعة متّصلة لكل جلسة، تعيش الذاكرة في كتل ثابتة الحجم تتشاركها الجلسات، مما يلغي التجزئة التي كانت الخوادم القديمة تهدر بسببها. الواقع التشغيلي يُظهر زيادة إنتاجية مرّتين إلى أربع مرّات من هذه التقنية وحدها.
- تخزين البادئة. حين تتشارك الطلبات في نظام تعليمات أو فقرات استرجاع أو وثيقة مشتركة، تُحسب ذاكرة KV للبادئة المشتركة مرّة واحدة وتُعاد. في حمل سيادي يقرأ فيه كل وزير المذكّرة المسترجعة نفسها، يقلّص هذا الحمل الفعلي على الذاكرة بمقدار رتبة قدرٍ كاملة.
- الذاكرة المُكَمَّمة. تخزين المفاتيح والقيم بدقّة INT8 أو FP8 بدل FP16 يخفّض البصمة إلى النصف أو الربع بكلفة جودة محدودة. أطر الخدمة الحديثة تكشف ذلك كخيار.
السؤال الصحيح للمشتري ليس «ما حجم النموذج؟» بل «ما بصمة ذاكرة KV المستقرّة عند مستوى التزامن المستهدف، وما النسبة المتبقية من ذاكرة المعالج الرسومي للباقي؟»
حسابات الإنتاجية: من الرموز في الثانية إلى عدد المستخدمين
كل معالج رسومي له إنتاجية ذروة قابلة للقياس على نموذج معيّن، تُعبَّر عنها برموز في الثانية على مستوى الجهاز كاملًا. تحويل هذا الرقم إلى «عدد مستخدمين مدعومين» مباشرٌ، مع تحفّظ يضرّ غير المستعدّ.
ابدأ بإنتاجية الجهاز عند حجم الدفعة المستهدف. أرقام NVIDIA H100 SXM وH200 المنشورة تعطي مرجعًا. وقياسات مستقلّة من vLLM ومشروع TGI من Hugging Face تملأ الأرقام الواقعية لنماذج بعينها. نموذج كثيف بحجم 27B على H200 واحدة مع دفعات مستمرّة يصل إلى ما بين 6,000 و9,000 رمز إجمالي في الثانية عند دفعة 64، بحسب توزيع السياق.
اقسم: إذا توقّع المستخدم بثًّا بمعدّل 30 رمزًا في الثانية، وأنتج الجهاز 8,000 رمز إجمالي، فإن الجهاز يستطيع نظريًا خدمة 8,000 / 30 = 266 مستخدم بثّ متزامن. عمليًا تُطبَّق ثلاث استقطاعات:
- كلفة الخمول والتعبئة المسبقة. المستخدمون لا يبثّون باستمرار، بل يكتبون نصًّا، وينتظرون، ويقرؤون الإجابة، ثم يكتبون من جديد. مضاعِف «جلسة نشطة» عملي 0.4 إلى 0.6 من الحدّ الأقصى النظري واقعي.
- احتياطي ذيل زمن الاستجابة. تشغيل المعالج الرسومي عند 95 ٪ من الاستفادة ينتج P99 غير مقبول لأن كل اندفاع يقع في طابور. الاحتفاظ بهامش 25 إلى 30 ٪ يبقي الذيل داخل الميزانية.
- سعة ذاكرة KV. حتى لو استطاعت قدرة الحوسبة خدمة 266 مستخدمًا، قد لا تستوعب الذاكرة سوى 80 منهم بسياق كامل. التحجيم يجب أن يجتاز السقف الأدنى من السقفين.
المشتري المنضبط يحجِّم على إنتاجية الحوسبة وسعة الذاكرة معًا، يأخذ الأقلّ، ويطبّق معامل أمان. غير المنضبط يضرب أرقام ذروة المورّد ويُفاجَأ حين يتعثّر النظام.
ميزانية زمن الاستجابة بحسب حالة الاستخدام
ليس كل حمل يحتاج زمن الاستجابة نفسه. الأجهزة السيادية تخدم عادةً مزيجًا، وممارسة التحجيم السليمة تخصّص ميزانية مختلفة لكل نوع.
- المحادثة الحوارية. الرمز الأول P50 دون 200 ميلي ثانية، P99 دون 500 ميلي ثانية. سرعة بثّ فوق 30 رمزًا في الثانية لكل مستخدم. النهاية إلى النهاية لإجابة 400 رمز دون 15 ثانية. يشعر المستخدم بزمن حقيقي.
- تحليل الوثائق. الرمز الأول دون 1.5 ثانية، النهاية إلى النهاية حتى 8 ثوانٍ لإجابة 2,000 رمز على مدخل من 50 صفحة. المستخدم يتوقّع وقفة تفكير ويتقبّلها.
- مهام الوكلاء. استخدام الأدوات متعدّد الخطوات قد يستغرق من 30 ثانية إلى دقائق إجمالًا. زمن الخطوة لا بدّ أن يبقى ضيقًا لأن الخطوات تتراكم، لكن المستخدم لا يحدّق في الشاشة منتظرًا كل رمز.
- الدفعات. تلخيص أرشيف تنظيمي ليلًا، تصنيف سنة من المراسلات، توليد متجهات لكورپوس استرجاع. الساعات مقبولة. جدوِل ذلك خارج النافذة التفاعلية.
لا تحجِّم الجهاز كاملًا على ميزانية المحادثة. المزيج بأولويّات صريحة في الطابور يخدم مستخدمين أكثر على العتاد نفسه من عقدٍ موحَّد منخفض الزمن لا يحتاجه أحد فعليًا.
وصفات تحجيم لـ 50 و200 و500 و2000 مستخدم متزامن
وصفات ملموسة، معايَرة على نماذج مفتوحة الأوزان بحجم 27B إلى 70B مع توليد مستند إلى استرجاع من مخزن وثائق المؤسسة. كل وصفة تفترض تفعيل الدفعات المستمرّة وPagedAttention وتخزين البادئة افتراضيًا.
- 50 جلسة نشطة متزامنة، نموذج 27B، سياق نموذجي 32K. عقدة واحدة بحجم محطة عمل بذاكرة مسرّع 96 إلى 128 جيجابايت تتعامل مع ذلك بسهولة. تكوين Hosn Tower (NVIDIA RTX 6000 Ada أو 6000 Blackwell واحدة، 96 إلى 128 جيجابايت معالج رسومي، مضيف عالي التردّد) هو الملاءمة الطبيعية. توقّع P50 رمز أول دون 250 ميلي ثانية و35 رمزًا في الثانية لكل مستخدم. راجع مقارنة H100 وH200 وRTX 6000 وMac Studio لمفاضلات المسرّعات.
- 200 جلسة نشطة متزامنة، نموذج 27B إلى 70B، سياق نموذجي 64K. H100 SXM 80 جيجابايت واحدة أو H200 141 جيجابايت واحدة مع دفعات مستمرّة، أو بطاقتا RTX 6000 Blackwell بالتوازي التنسوري. الفئة Rack تبدأ هنا. P50 رمز أول دون 350 ميلي ثانية ممكن. ضغط الذاكرة حقيقي، لذا تكميم الذاكرة وتشارك البادئة يكتسبان قيمتهما.
- 500 جلسة نشطة متزامنة، نموذج 70B، سياق 64K إلى 128K. Rack بارتفاع 4U فيه مسرّعان إلى أربعة H200 بالتوازي التنسوري، فيض ذاكرة مدعوم بـ NVMe، وموازن حمل واعٍ بالطابور. خطّط لـ P50 250 ميلي ثانية و25 رمزًا في الثانية لكل مستخدم تحت الحمل. أضف عقدة احتياط ساخنة إذا كان اتفاق التشغيل صارمًا.
- 2,000 جلسة نشطة متزامنة، تعدّد نماذج، سياق 128K. Rack بارتفاع 8U أو عنقود صغير: ثماني بطاقات H200 موزّعة على عقدتين فيزيائيتين، خوادم استرجاع وتمثيل متجهي مخصّصة، مسار دفعات قابل للتوسّع على بِركة مسرّعات منفصلة، وأوزان نموذج مكرّرة. هذا حجم وزارة، ويحتاج تخطيطًا للتخزين والشبكة والطاقة والتبريد يتجاوز المعالج الرسومي. راجع دليل طاقة وتبريد وعزل Rack السيادي للبنية التحتية الداعمة.
هذه وصفات لا وصفات طبية. الحمل الفعلي سيختلف، والانضباط هو كتابة الأرقام الأربعة (الذروة، P50، P99، الرموز في الثانية لكل مستخدم) على غلاف العرض، ومراجعتها بعد كل تجربة قياس.
الدفعات المستمرّة تغيّر المعادلة
الخادم بدفعات ثابتة يعالج الطلبات في دفعات محدّدة: يجمع N طلبًا، يشغّلها معًا حتى الانتهاء، ثم يقبل N التالية. ينفع هذا للأعمال غير التفاعلية، ولا ينفع لشيء سواها. ما إن يخلط المستخدمون بين طلبات قصيرة وطويلة، حتى تنتظر الدفعة الذيل الأبطأ، ويبقى المعالج خاملًا على القصيرة، وتنهار الإنتاجية الفعلية إلى جزء من الذروة.
الدفعات المستمرّة، أو الدفعات في-أثناء-التشغيل، تجدول على مستوى الرمز. في كل خطوة، يقرّر الجدول أيّ الطلبات النشطة يقدّمها وأيّ طلبات جديدة يقبلها، دون اشتراط أن تنتهي كل طلبات الدفعة معًا. شاع الأسلوب عبر شرح Anyscale للدفعات المستمرّة، وأُدمج في vLLM وText Generation Inference من Hugging Face وNVIDIA Triton Inference Server مع TensorRT-LLM، بمكاسب إنتاجية مذكورة من ضعفين إلى ثلاثة وعشرين ضعفًا مقارنة بالخدمة الساذجة.
هذا يغيّر حوار الشراء بطريقتين. الأولى: أرقام الإنتاجية في عرض المورّد لا تكون ذات معنى إلا حين تكون الدفعات المستمرّة مفعَّلة، فاطلب القياس. الثانية: العتاد نفسه مع ضبط دفعات صحيح يخدم الفئة التالية من التزامن أحيانًا دون ترقية عتاد، أي أن مهمّة التحجيم الصحيحة تبدأ بضبط البرمجيات قبل تحديد المزيد من السيليكون.
الأحمال الانفجارية مقابل المستقرّة
قد يتساوى حملان سياديان في إجمالي الرموز اليومي ويتطلّبان عتادًا مختلفًا. فريق مكتبي من 200 محلِّل ينتج منحنى حمل سلسًا طوال اليوم. مجلس وزراء من 30 وزيرًا و200 معاون يحشد الطلب في الخمس عشرة دقيقة قبل افتتاح الجلسة، ثم يهدأ ساعات. الإجمالي نفسه، والجهازان مختلفان جوهريًا.
المؤسسات الانفجارية تحتاج:
- فئة هامش فوق متوسط حملها، محجَّمة على نافذة الانفجار لا على معدّل اليوم.
- طابورًا لطيفًا بإفادة صريحة («التقدير 12 ثانية») بدل رفض قاسٍ أو توقّف صامت.
- مسارات أولوية حتى لا تجلس إحاطة تنفيذية خلف مهمّة تلخيص دفعات لمحلِّل بحوث.
- تسخين مسبق للذاكرة قبل الأحداث المجدولة. إذا قرأ المجلس النشرة نفسها يوميًا في 9:00، حمِّل ذاكرة البادئة مسبقًا في 8:55.
المؤسسات المستقرّة تستطيع العمل قرب أقصى الاستفادة، غالبًا عند 70 إلى 80 ٪ من الطاقة، دون كسر ميزانيات P99. تستفيد من ضبط الإنتاجية الخامة أكثر من الهامش.
تمارين التحجيم تصنّف كل مجموعة مستخدمين على أنها انفجارية أو مستقرّة، ثم تحجِّم لكل مجموعة مسارها بشكل منفصل، مع بِركة صغيرة مشتركة لاستيعاب الفائض بين المجموعات.
مصفوفة القرار: Kernel أم Tower أم Rack
ينتقل الجهاز السيادي من فئة إلى أخرى عند عتبات واضحة. المصفوفة أدناه ما تنتجه إحاطة تحجيم في حصن في الساعة الأولى، وتدعمها قياسات التزامن لكل معالج رسومي.
- Kernel (فئة محطة العمل). حتى نحو 4 جلسات نشطة متزامنة، مستخدم واحد أو خلية صغيرة، نموذج 27B، سياق 32K. مناسب لمدير مكتب وزير، أو خلية استخباراتية، أو تجربة. Apple M3 Ultra Mac Studio بـ 256 جيجابايت ذاكرة موحَّدة هو البناء المرجعي. البثّ شخصي وفوري. ليس الإجابة حين تنضمّ مديرية كاملة.
- Tower (فئة الإدارة). من 5 إلى نحو 200 جلسة نشطة متزامنة، نموذج 27B إلى 70B، سياق 64K. RTX 6000 Ada أو Blackwell واحدة، أو H100 80 جيجابايت واحدة، مع دفعات مستمرّة وPagedAttention. مناسب لمديرية، أو مكتب تنظيم، أو فريق خزانة. معظم الأحمال السيادية العُمانية تقع هنا.
- Rack (فئة المؤسسة). من 200 إلى عدة آلاف جلسة نشطة متزامنة، تعدّد نماذج، قدرة ضبط دقيق، تكرار. مسرّعان إلى ثمانية H100 أو H200، عقد استرجاع وتمثيل متجهي مخصّصة، احتياط ساخن، شبكة معزولة كاملة. مناسب لوزارة، أو بنك مركزي، أو صندوق سيادي.
- فوق Rack. منصّات وطنية، خدمة سكان دولة كاملة، ضبط دقيق للغة والسياسات على نطاق واسع. هذا ميدان «معين»، منصّة الذكاء الاصطناعي الوطنية المشتركة في عُمان، وهو مسألة مشتريات مختلفة عن جهاز مؤسسة واحدة.
الفئة الصحيحة هي أصغر فئة تغطّي ذروة الحمل مع فئة هامش واحدة. شراء Rack لحمل بحجم Tower خطأ مشتريات لا ترقية أمنية. وشراء Tower لحمل بحجم Rack هو كارثة الذيل التي يريد كل فريق سيادي تجنّبها.
حوار التحجيم الصادق يستغرق نحو ساعة. يبدأ بالأرقام الأربعة، يمرّ بحساب ذاكرة KV، يستقرّ على فئة، ويُنتج عرضًا قابلًا للدفاع عنه أمام مجلس إدارة. راسلنا على [email protected] أو على واتساب +968 9889 9100 لحجز إحاطة لمدة ساعة. سنترك لك الأرقام الأربعة مكتوبة سواء اشتريت أم لم تشترِ.
أسئلة شائعة
ما أهم رقم عند تحجيم جهاز الذكاء الاصطناعي السيادي؟
ذروة الطلبات النشطة المتزامنة، لا إجمالي حسابات المستخدمين. ألفا مستخدم مسجّل مع عشرين منهم يكتبون فعلًا في لحظة واحدة جهازٌ مختلف عن ألفي مستخدم يدخلون جميعًا في وقت واحد. حجِّم على نافذة الذروة لا على قائمة المستخدمين.
كم تحتاج ذاكرة KV من ذاكرة المعالج الرسومي فعليًا؟
لنموذج بحجم 27B عند سياق 256K، قد تتجاوز ذاكرة KV لجلسة واحدة محمَّلة بالكامل 30 جيجابايت. اضرب ذلك في عدد الجلسات النشطة وستجد أن الذاكرة، لا أوزان النموذج، هي العامل المهيمن. تقنيات PagedAttention وتخزين البادئة تخفّف الأثر، لكن صيغة 2 × عدد الطبقات × الحجم المخفي × طول السياق × بايتات لكل عنصر لكل جلسة تظل المرجع.
ما هدف زمن الاستجابة الواقعي للمحادثة مقابل تحليل الوثائق؟
المحادثة تحتاج زمن الرمز الأول دون 300 ميلي ثانية وبثًّا فوق 30 رمزًا في الثانية لكل مستخدم ليبدو طبيعيًا. تحليل الوثائق يتحمّل من 3 إلى 8 ثوانٍ من البداية إلى النهاية لأن المستخدم يتوقع وقفة تفكير. أعمال الدُفعات (التلخيص الليلي، تصنيف أرشيف) تتحمّل دقائق إلى ساعات وتُجدوَل خارج نافذة الاستخدام التفاعلي.
هل تغيّر الدفعات المستمرة المعادلة؟
نعم، وبشكل جوهري. خادم بدفعات ثابتة محجَّم لخمسين مستخدمًا قد ينهار عند ستين. الجهاز نفسه مع تفعيل الدفعات المستمرة يتحمّل من 150 إلى 250 لأن دورات المعالج المهدورة على الحشو والخانات الخاملة تُستعاد. أطر الخدمة الحديثة (vLLM، TGI، TensorRT-LLM) تدعمها جميعًا. ينبغي للمشتري أن يطلبها كمعيار أساسي لا كميزة إضافية.
كيف تغيّر الأحداث الانفجارية حجم الجهاز؟
إحاطة لمجلس وزراء تدفع 200 شخص إلى النظام في خمس عشرة دقيقة لها بصمة تحجيم تختلف عن فريق مكتبي من 200 محلِّل يعمل بانتظام طوال اليوم. الأحمال الانفجارية تحتاج هامشًا وانضباطًا في الطابور. الأحمال المستقرّة تستطيع العمل قرب أقصى الاستفادة. نحجِّم المؤسسات الانفجارية فئة فوق متوسط حملها، ونشترط طابورًا لطيفًا لا رفضًا قاسيًا.
متى تنتقل المؤسسة من Tower إلى Rack؟
حين تتجاوز ذروة التزامن نحو 200 جلسة نشطة على نموذج بحجم 27B إلى 70B، أو حين تحتاج المؤسسة لتشغيل أكثر من نموذج كبير معًا، أو حين يصبح الضبط الدقيق حملًا منتظمًا، أو حين يصبح التكرار وتوافر الخدمة العالي شرطًا تشغيليًا. دون هذه العتبات، Tower هو الخيار الأكثر انضباطًا.