هل تكفي بطاقة RTX 6000 Ada واحدة لنموذج بحجم 70B؟

نعم، عند التكميم بأربع بِتّات. يستوعب نموذج بفئة 70B بصيغة Q4_K_M أو AWQ INT4 ذاكرة سعتها 48GB مع هامش معقول لذاكرة المفاتيح والقيم في سياقات متوسطة الطول. تشير القياسات المعلنة إلى نحو 13 إلى 18 رمزًا في الثانية على نموذج Llama 3 70B Q4 ببطاقة واحدة، وهو معدّل تفاعلي للحوار. أما FP16 لنموذج 70B فيتطلّب التوازي عبر بطاقتين أو الانتقال إلى مسرّع من فئة H100.

لماذا تهمّ ذاكرة ECC في الاستدلال وليس فقط في التدريب؟

تعمل خوادم الاستدلال بالذاكرة في درجات حرارة مرتفعة لساعات متواصلة. قد يتسبّب انقلاب بِتّة واحدة في موتر الأوزان بإفساد الإجابة دون أن يتعطّل النظام، فيخرج الناتج خاطئًا بصمت. في الأعباء السيادية التي لا تحتمل الفشل الصامت كالآراء القانونية والتحليلات المالية ومسوّدات الوزير، تحوّل ذاكرة ECC هذه الحالات النادرة إلى أحداث مسجّلة يمكن للنظام التعافي منها. بطاقات الألعاب الاستهلاكية لا تتضمّن ECC، لذا لا تصلح للنشر المؤسّسي.

ما متطلبات الطاقة والتبريد؟

تستهلك بطاقة RTX 6000 Ada نحو 300 واط كاستهلاك إجمالي للوحة عبر موصّل واحد بسعة 16-pin، بشريحة مزدوجة. تكفيها وحدة تغذية محطّة عمل بقدرة 1000 واط ومروحتا تهوية في هيكل برجي تقليدي. مقارنةً بمسرّع H100 SXM البالغ 700 واط، تستهلك Ada أقلّ من النصف وتناسب أيّ مكتب يستضيف بالفعل محطّة تصميم هندسي.

متى نتجاوز طبقة البرج ونشتري H100؟

ثلاثة محفّزات. أوّلًا، عدد المستخدمين المتزامنين فوق خمسين على نموذج بحجم 70B. ثانيًا، تشغيل أكثر من نموذج كبير في الوقت نفسه، مثل Gemma 4 31B إلى جانب نموذج استدلال 70B. ثالثًا، إجراء ضبط دقيق على بيانات مصنّفة. تحت هذه العتبات يبقى البرج هو الجواب الصحيح، وفوقها تبدأ طبقة الرفّ بمسرّعات H100 أو H200 بتعويض كلفتها.

بطاقة RTX 6000 Ada بسعة ٤٨ جيجابايت لنشر برج الذكاء الاصطناعي السيادي، مدوّنة حصن

أغلب المشترين السياديين في عُمان لا يحتاجون عنقودًا من مسرّعات H100 داخل مركز بيانات. ما يحتاجونه هو وحدة معالجة رسومية واحدة، تجلس تحت مكتب أو في غرفة خوادم صغيرة، تستطيع تقديم نموذج مفتوح الأوزان من فئة 27B إلى 70B لعشرين أو خمسين مستخدمًا داخل محيط الجهة. هذه هي طبقة البرج، والبطاقة التي تُعرّفها في عام ٢٠٢٦ هي NVIDIA RTX 6000 Ada بسعة ٤٨ جيجابايت من ذاكرة ECC. يشرح هذا المقال لماذا هي الإجابة الصحيحة في هذا الحجم، وما هي الأرقام الفعلية، ومتى تتوقّف عن الكفاية.

لماذا تُعدّ بطاقة محطّة عمل الجواب الأنسب لطبقة البرج

للمشتري في طبقة البرج هيئة محدّدة. مديرية داخل وزارة، وحدة رقابية في مشرف مالي، طاولة خزينة في بنك، فريق بحثي في صندوق سيادي. يريدون نظامًا حقيقيًا داخل محيطهم، لا قسمًا مستأجرًا في السحابة، لكنّهم لا يبرّرون شراء هيكل رفّ بحجم 4U ووحدتي تغذية وغرفة خوادم مخصّصة. يريدون شيئًا يدخل في خزانة مكتبية، يعمل بوحدة تغذية واحدة بقدرة 1000 واط، ويستطيع فريق تقنية المعلومات الحالي دعمه.

تقع بطاقة RTX 6000 Ada في موضعها الطبيعي ضمن هذا الإطار. تستخدم نفس سيليكون Ada Lovelace الموجود في بطاقة RTX 4090 الاستهلاكية، لكن مع ثلاثة فروقات تهمّ النشر المؤسّسي: تتضاعف الذاكرة على البطاقة إلى ٤٨ جيجابايت، تُفعَّل ذاكرة ECC، والبطاقة معتمدة ومدعومة ومضمونة كمنتج احترافي. هذه الفروقات الثلاثة تحوّل بطاقة ألعاب إلى أصل يوقّع عليه فريق تقنية معلومات سيادي.

لمقارنة هذه البطاقة مع H100 وH200 وApple Silicon في الطبقات الأعلى والأدنى، اطّلع على دليل حصن المرجعي حول مقارنة عتاد استدلال الذكاء الاصطناعي.

مواصفات RTX 6000 Ada التي تهمّ

الأرقام الواردة في صحيفة بيانات NVIDIA الرسمية هي نقطة الانطلاق الصحيحة:

ذاكرة وحدة المعالجة: ٤٨ جيجابايت GDDR6 مع ECC، ناقل 384-bit، وعرض حزمة 960 GB/s. تكفي لاستضافة نموذج 70B بأربع بِتّات، أو نموذج 31B بـFP16، أو نموذجين بفئة 13B في آنٍ واحد مع هامش لذاكرة المفاتيح والقيم.
الحوسبة: 18,176 نواة CUDA، و568 نواة Tensor من الجيل الرابع، وأداء FP32 يبلغ 91.1 TFLOPS، وأداء FP8 Tensor المتفرّق 1,457 TFLOPS. تكفي للتوليد التفاعلي بـFP16 على النماذج المتوسّطة، وللتقديم بدفعات بأربع بِتّات على مقياس البرج.
الطاقة وعامل الشكل: 300 واط كاستهلاك إجمالي للوحة عبر موصّل 16-pin واحد، شريحة مزدوجة، بطول كامل PCIe 4.0 x16. تنزل في أيّ هيكل محطّة عمل لائق وتعمل بوحدة تغذية 1000 واط مع هامش.
الإدخال والإخراج: أربعة منافذ DisplayPort 1.4a، ترميز وفكّ ترميز AV1، دون NVLink. تعمل بطاقتان كمسرّعَين منفصلَين لا كمجمع ذاكرة موحّد، وهذا أمر مهم في قرار الترقية إلى H100.

يستحق بند ECC ملاحظة مستقلّة. تعمل خوادم الاستدلال بحرارة عالية لساعات وأحيانًا أيّام. بدون ECC، يُنتج خطأ ليّن واحد في موتر الأوزان رمزًا خاطئًا لا يستطيع المشغّل اكتشافه ولا إعادة إنتاجه. أكّدت الأبحاث حول ذاكرة ECC أنّ معدّلات الأخطاء ترتفع مع كبر الذاكرة وارتفاع درجة التشغيل. في الأعباء السيادية، حيث كلفة الخطأ الصامت تكون سمعية وأحيانًا قانونية، فإنّ ECC ليست خيارًا.

السرعة الفعلية بالرموز/ثانية على Gemma 4 وQwen 3.6

تتقارب القياسات المعلنة من مختبرات مستقلّة في نطاق ضيّق، وتتطابق معها أرقام حصن الداخلية على بنى البرج المرجعية. مع بطاقة RTX 6000 Ada واحدة وأحجام دفعات معقولة:

Gemma 4 27B MoE بأربع بِتّات: ٥٥ إلى ٧٠ رمزًا في الثانية لكلّ تيار، ما يعادل خمسة وعشرين إلى ثلاثين مستخدمًا متزامنًا بزمن استجابة مقبول.
Qwen 3.6 32B كثيف بأربع بِتّات: ٣٥ إلى ٤٥ رمزًا في الثانية لكلّ تيار، نحو عشرين مستخدمًا متزامنًا.
فئة Llama 3 70B بأربع بِتّات (Q4_K_M / AWQ): ١٣ إلى ١٨ رمزًا في الثانية على بطاقة واحدة وفق قياسات مجتمعية لاستدلال النماذج اللغوية، وهي تفاعلية لمستخدم إلى أربعة مستخدمين متزامنين على عمل جدّي.
Gemma 4 4B بـFP16: أكثر من ١١٠ رموز في الثانية لكلّ تيار، وخمسون مستخدمًا متزامنًا بسهولة في المهام قصيرة السياق.

النمط واضح. عند التكميم الرباعي تكون سعة ٤٨ جيجابايت هي الفارق بين «يحمّل» و«لا يحمّل» للفئة 70B. لا تستطيع RTX 4090 بسعة ٢٤ جيجابايت استضافة هذه النماذج إطلاقًا دون التفريغ إلى ذاكرة النظام، ما يهدم الإنتاجية. وعند FP16 تستضيف الـ٤٨ جيجابايت ذاتها متغيّرات 27B و31B من Gemma 4 وQwen 3.6 بجودة كاملة.

للجهة التي تعمل على وثائق عربية كثيفة، التركيبة العملية هي Falcon Arabic 34B بـFP16 للمسار العربي، إلى جانب Gemma 4 27B بأربع بِتّات للتلخيص الإنجليزي، كلاهما مقيمان على البطاقة نفسها مع توجيه الطلبات. يتعامل البرج مع ذلك بسهولة.

متى تنتقل إلى H100

البرج هو الجواب الصحيح لمجموعة حقيقية لكنّها محدودة من الحالات. ثلاثة محفّزات تنقل المشتري إلى طبقة الرفّ بمسرّعات H100 أو H200:

تزامُن أكثر من خمسين مستخدمًا على نموذج من فئة 70B. يحدّ عرض حزمة Ada البالغ 960 GB/s من الإنتاجية في الطرف العالي. ترفع H100 SXM بعرض حزمة 3.35 TB/s هذا السقف بنحو ٣٫٥ أضعاف للنموذج نفسه.
استضافة عدّة نماذج كبيرة في الوقت ذاته. تحتاج وزارة تريد Gemma 4 31B FP16 وQwen 3.6 32B FP16 ونموذج استدلال 70B ساخنًا في آنٍ واحد إلى أكثر من ٤٨ جيجابايت. تحلّ بطاقتا H100 80GB مع NVLink، أو واحدة من H200 بسعة ١٤١ جيجابايت، هذه الحالة بنظافة.
الضبط الدقيق الجدّي على بيانات مصنّفة. يصبح SFT الكامل أو تشغيل QLoRA طويل على نماذج فئة 70B غير عملي على Ada واحدة. تقتطع نوى FP8 Tensor في H100 والذاكرة الأكبر زمن جدار التدريب بمعامل ٤ إلى ٦.

تحت هذه العتبات يتفوّق البرج في الكلفة والطاقة والأثر المكاني وقابلية الخدمة. وفوقها تكون الجهة قد استحقّت طبقة الرفّ. اختيار الطبقة الصحيحة هو قرار التوريد الأهمّ، ويتبعه عامل الشكل، كما يتناوله الدليل المرجعي حول قرارات هيكل 2U/4U والبرج.

إذا كانت جهتكم تُحجّم نشرًا في طبقة البرج وتودّ تشغيل الأرقام على متطلباتكم تحديدًا في التزامن ومزيج النماذج، راسلونا على [email protected] لجلسة إحاطة لساعة واحدة. نأتي إليكم في مسقط أو في أيّ مكان في دول الخليج ونستعرض البنية والقياسات ومسار التوريد.

لماذا تُعدّ بطاقة محطّة عمل الجواب الأنسب لطبقة البرج

مواصفات RTX 6000 Ada التي تهمّ

السرعة الفعلية بالرموز/ثانية على Gemma 4 وQwen 3.6

متى تنتقل إلى H100

أسئلة شائعة

مقالات ذات صلة

مقارنة عتاد استدلال الذكاء الاصطناعي: H100 وH200 وRTX 6000 Ada وMac Studio

قرارات عامل الشكل للنشر السيادي: 2U و4U والبرج

مفاضلة التكميم والعتاد في الاستدلال