التكميم في الاستدلال مقابل صنف العتاد: أين تنفق الميزانية
تنتهي المشتريات السيادية دائماً عند المفترق ذاته. بند ميزانية حوسبة الاستدلال ثابت، وعلى المعمار أن يختار: الإنفاق على مسرّع قمّة وتشغيل أوزان مكمَّمة بخفّة، أو الإنفاق على عتاد أرخص مع الاتكاء على تكميم عدواني ليتّسع النموذج. القرار الخاطئ يحرق الإنفاق الرأسمالي في اتجاه، أو يحرق الجودة في الاتجاه المقابل. تستعرض هذه المقالة المفاضلة عبر ثلاثة سيناريوهات ملموسة، وتُبيّن لماذا مقياس الحيرة (perplexity) أداة قياس مضلِّلة، وتنتهي بمصفوفة قرار مرتبطة بالمقالة المرجعية للمجموعة عن مقارنة H100 وH200 وRTX 6000 Ada وMac Studio.
المفاضلة بين الإنفاق الرأسمالي والجودة في إطار واحد
يُقلّل التكميم عدد البتّات التي يستخدمها كلّ وزن في النموذج. إنّ FP16 هي دقّة التدريب والمرجع الحديثة؛ بينما تُمثِّل FP8 وINT8 وQ5 وQ4 ضغوطاً تتزايد عدوانيتها. كلّ خطوة نزولاً تنصِّف الذاكرة تقريباً، ولأنّ استدلال نماذج اللغة مقيَّد بنطاق ذاكرة المعالج، فإنّ الأوزان الأصغر تُولِّد أيضاً رموزاً أسرع. الكلفة الخفيّة هي الجودة: كلّ خطوة نزولاً تكلِّف قدراً صغيراً من الدقّة، أحياناً غير محسوس، وأحياناً جوهرياً تعاقدياً.
صنف العتاد يعمل في الاتجاه المعاكس. يمتلك معالج قمّة مثل H200 ذاكرة VRAM أكبر، وذاكرة HBM3e أسرع، ووحدات نواة مُخصَّصة لـFP8. يُشغِّل النموذج ذاته بمستوى تكميم ذاته أسرع من RTX 6000 Ada، وبمستويات تكميم لا يستوعبها Mac Studio أصلاً. سؤال المشتري هو: هل يُنفق الدولار الحدّي على السيليكون أم على الدقّة؟
الصياغة الأمينة: التكميم هو المقبض الأرخص لكنّه يحمل أرضية للجودة. والعتاد هو المقبض الأغلى لكنّه يرفع سقف الممكن. الإجابة الصحيحة تتوقّف على عبء العمل القائم في الرفّ.
ثلاثة سيناريوهات تقلب الإجابة
الميزانية ذاتها تُنتج إعدادات مثالية مختلفة جذرياً بحسب حالة الاستخدام. ثلاثة سيناريوهات ملموسة تُبيّن لماذا تفشل قاعدة إبهام واحدة.
- نموذج Gemma 4 بتكميم Q4 على M3 Ultra مقابل FP16 على H100. يُشغِّل جهاز Mac Studio M3 Ultra بذاكرة موحَّدة سعة 192 GB نموذج Gemma 4 بحجم 27B مكمَّماً Q4 بسلاسة لفريق صغير، باستهلاك دون 200 W، بلا رفّ ولا تبريد ولا تكاليف مركز بيانات. النموذج ذاته بدقّة FP16 يحتاج H100 80 GB ورفّاً ووحدة توزيع طاقة وتبريداً. لفريق سيادي من عشرة موظّفين يُجري محادثات وتلخيصاً، يُحقّق مسار Mac Studio جودة ضمن نطاق ضوضاء ALUE قياساً بمسار H100، بربّما عُشر التكلفة الإجمالية. لا يستحقّ H100 ثمنه إلا إذا دخل التزامن أو السياق الطويل أو خدمة متعدّدة المستأجرين على المسرح.
- نموذج 70B بدقّة FP8 على H100 مقابل FP16 على H200. يتّسع نموذج 70B بدقّة FP8 داخل بطاقة H100 80 GB واحدة، ويعمل أسرع من النموذج ذاته بدقّة FP16 على H200 141 GB، لأنّ FP8 يضاعف الإنتاجية الفعلية لوحدات الموتّرات على معمارية Hopper. وفارق الجودة صغير في معظم مهام الاستدلال، كما يوثّق دليل NVIDIA لـTransformer Engine FP8. لا يتقدّم H200 بوضوح إلا في نوافذ السياق التي تتجاوز 64k رمز، حيث يحتاج مخبأ KV كلّ غيغابايت إضافي. للمحادثة والاسترجاع قصير السياق، يفوز FP8 على H100 في كلفة الرمز المفيد.
- المعالج المركزي مع Q4 في الحافة مقابل RTX 6000 Ada. محطّة عمل حديثة بمعالج Xeon أو EPYC وذاكرة DDR5 سعة 256 GB، تُشغّل نموذجاً مكمَّماً Q4 تحت llama.cpp، تُنتج تقريباً من 10 إلى 20 رمزاً في الثانية على نموذج 27B. أمّا RTX 6000 Ada فتُنتج من 50 إلى 80 على العبء ذاته بجودة مماثلة أو أفضل. لعقدة حافة بمحلّل واحد ومنخفضة الحجم، يكون مسار المعالج المركزي مقبولاً. لأيّ خدمة مشتركة، يكون مسار وحدة المعالجة الرسومية هو الصواب. نقطة التقاطع هي التزامن، لا السرعة المجرّدة.
لا تثق بمقياس الحيرة، قِس فارق ALUE
تُبلِّغ معظم أبحاث التكميم عن مقياس الحيرة على WikiText أو C4 أو متون أخرى مُهيمَن عليها بالإنجليزية. مقياس الحيرة يطوي توزيع المخرج بأكمله إلى رقم واحد، وهو أمر مريح ومضلِّل في آن. قد يحافظ نموذج عربي مكمَّم على فجوة حيرة لا تتجاوز نصف نقطة عن FP16، ومع ذلك يخسر ثلاث نقاط في العربية الفصحى ونقطتين في التعرّف على الكيانات وأرضاً ملموسة في توليد التشكيل النادر. يُخفي المتوسّط هذا التراجع لأنّ كتلة رموز التدريب اعتيادية.
الاختبار الصحيح في المشتريات هو فارق على معايير عربية، مقترناً بتقييم مؤسسي مبنيّ من متن المشتري نفسه. ونغطّي المشهد الكامل في مقالة شقيقة عن التكميم بصيغة GGUF للعربية. القاعدة الجوهرية: أيّ مستوى تكميم يخسر أكثر من ثلاث نقاط ALUE أو أكثر من خمس نقاط على التقييم المؤسسي لا يجوز تشغيله في الإنتاج. وكثيراً ما يتباعد الفارقان العربي والإنجليزي بمعامل اثنين إلى ثلاثة، مع تحمّل العربية للضربة الأكبر، كما يوثِّق العمل الموسَّع لعام 2024 حول جودة التكميم على المقياس الكبير (arXiv:2402.16775).
مصفوفة القرار بحسب حالة الاستخدام
تُترجم المصفوفة المبسَّطة أدناه شكل عبء العمل إلى توصية مُركَّبة من مستوى تكميم وعتاد. وهي القاعدة ذاتها التي نستخدمها في جلسات التحديد.
- محادثة وتلخيص لفريق واحد. Q4 أو Q5 على Mac Studio أو RTX 6000 Ada أو H100 مفردة. الجودة لا تُميَّز عن FP16 في الاستخدام الفعلي.
- استرجاع معزّز فوق متن مؤسسي مع تزامن متوسّط. FP8 70B على H100، أو Q5 70B على RTX 6000 Ada ببطاقة ثانية. يُنفَق الدولار الحدّي على الذاكرة، لا على الدقّة.
- استدلال طويل السياق وتوليد بدرجة تعاقدية. FP16 أو Q6 70B على H200 أو H100 مزدوجة. عدوانية التكميم هنا اقتصاد كاذب.
- عقدة حافة معزولة لمحلّل واحد. Q4 على المعالج المركزي مع llama.cpp، أو وحدة معالجة رسومية مفردة لمحطّة العمل. التهوية والمزامنة العكسية إلى الجهاز المركزي تهمّان أكثر من حجم الذاكرة.
- جهاز سيادي متعدّد المستأجرين بأكثر من عشرين مستخدماً متوازياً. FP8 على عنقود H100 أو H200، لا معالج مركزي ولا Q4 عدواني. يتدهور التزامن أسرع من جودة المستخدم الفرد، ويسترد الرفّ تكلفته في أشهر.
لقياس الجهاز خلف أيٍّ من هذه الإعدادات، انظر مقالتنا المرافقة عن قياس جهاز الذكاء الاصطناعي السيادي بحسب المستخدمين والكمون.
متى نُرقّي العتاد ومتى نُرقّي التكميم
أبسط قاعدة قرار: إذا ظهر عنق الزجاجة على تقييم مكتوب، رقِّ مستوى التكميم. وإذا ظهر على اختبار حِمل، رقِّ العتاد. التكميم يصلح جودة المُطالبة المفردة. والعتاد يصلح الإنتاجية والكمون تحت التزامن وحجم السياق. المشترون الذين يُحاولون إصلاح مشكلة تزامن بترقية من Q4 إلى Q6 سيرفعون الجودة بكسر نقطة ويُشاهدون الرموز في الثانية تنخفض، وهو حلّ للمسألة الخاطئة. والذين يُحاولون إصلاح مشكلة جودة بإضافة بطاقة ثانية سيكتشفون أنّ بطاقتين تُشغّلان Q4 ما زالتا تُنتجان مخرجات Q4.
تسلسل عملي لنشر سيادي جديد: ثبِّت النموذج بدقّة FP16 على ما يحتمله الرفّ، ونفِّذ التقييم المؤسسي للحصول على حقيقة مرجعية، ثم انزل في التكميم خطوة بخطوة (FP8، Q6، Q5، Q4) وتوقّف مستوى واحداً فوق الموضع الذي يكسر فيه التقييم العقد. تلك الأرضية هي مستوى تكميم الإنتاج. ويأتي قياس العتاد بعدها بحسب أهداف التزامن والكمون والسياق، باستقلال عن مسألة الجودة.
للمشتري السيادي الذي يرغب بتوصية موزونة على عبء عمل وميزانية حقيقيّين، راسل [email protected] لجلسة إيجاز مدّتها ساعة. نأتي ومعنا برامج التقييم، ونماذج العتاد، وقاعدة قرار بدرجة تعاقدية. الهاتف للتواصل المباشر: +968 9889 9100.
أسئلة شائعة
أيّهما أفضل: شراء معالج أرخص مع تكميم عدواني، أم الدفع لمعالج قمّة مع تكميم خفيف؟
لا توجد إجابة واحدة. للمحادثة والتلخيص ومعظم أعباء الاسترجاع، يُنتج مسرّع متوسط الفئة بأوزان Q5 أو FP8 جودة ضمن نطاق ضوضاء ALUE قياساً بمعالج قمّة بدقّة FP16، وبكسر من التكلفة الرأسمالية. أمّا للسياقات الطويلة والاستدلال التعاقدي وتوليد الوثائق متعدّدة اللغات، فإنّ معالج القمّة مع تكميم خفيف يفوز لأنّ دقّة السياق الطويل تتدهور أسرع من دقّة المحادثة تحت التكميم العدواني.
لماذا يُعدّ مقياس الحيرة (perplexity) ضعيفاً لاختيار مستوى التكميم؟
يُحسب مقياس الحيرة على توزيعات الاحتمال على مستوى الرمز، وغالباً على متون إنجليزية مثل WikiText وC4. قد يحافظ نموذج عربي مكمَّم على فجوة حيرة بنصف نقطة عن FP16، لكنّه يخسر ثلاث أو أربع نقاط ALUE في العربية الفصحى أو التعرّف على الكيانات أو التشكيل النادر. يجب أن تُلزم المشتريات السيادية بفارق ALUE وبتقييم مؤسسي داخلي، لا بمقياس الحيرة.
متى يجدر بالمشتري السيادي ترقية العتاد بدلاً من ترقية مستوى التكميم؟
تُرقَّى العتاد عندما تكون حالة الاستخدام مقيَّدة بالتزامن أو بالكمون تحت الحمل أو بحجم نافذة السياق. إذا كان عنق الزجاجة هو الرموز في الثانية تحت عشرين طلباً متوازياً، فإنّ زيادة ذاكرة VRAM وسرعة الذاكرة تنفع أكثر من إعادة التكميم. ويُرقَّى مستوى التكميم عندما تكون جودة المستخدم الفرد على تقييم مكتوب هي العامل المحدِّد، والإنتاجية كافية أصلاً.
هل استدلال FP8 آمن للأعباء السيادية في الإنتاج؟
أصبح FP8 ممارسة قياسية على مسرّعات Hopper وBlackwell، ويتصرّف قريباً من FP16 في معظم مهام الاستدلال والمحادثة عند المعايرة الصحيحة. وتُظهر تقارير NVIDIA الفنّية فوارق دقّة من رقم واحد على المعايير الشائعة. للأعباء العربية وثنائية اللغة، نفّذ تقييماً مؤسسياً قبل توقيع العقد؛ إذ يكون فارق العربية أحياناً أكبر من الفارق الإنجليزي المُعلن.