مقارنة 100GbE و25GbE في الشبكة الخلفية لعنقود الذكاء الاصطناعي

تضع كثير من كرّاسات الشروط للأنظمة السيادية للذكاء الاصطناعي 100GbE افتراضياً على الشبكة الخلفية. أحياناً يكون ذلك صحيحاً تماماً، وأحياناً يضاعف ميزانية المبدّلات لحمل عمل يكتفي بـ25GbE. الجواب الصادق يعتمد على ما إذا كانت وحدات GPU على عقد فيزيائية مختلفة تتحدّث داخل العملية نفسها، ومدى الحاجة إلى نسيج بدون فقد. يعرض هذا الدليل أربعة أسئلة تحدّد فعلياً اختيار النسيج قبل توقيع أيّ عرض من المزوّد.

1. أين يستهلك الإيثرنت في عنقود الذكاء الاصطناعي

يحوي العنقود ثلاث طبقات حركة تتنافس على بطاقات الشبكة نفسها:

  • الحركة الجماعية بين العقد: التدريب الموزّع والاستدلال متعدّد العقد يتبادلان موترات عبر all-reduce وall-gather وreduce-scatter في مكتبة NCCL. هذه الحركة متفجّرة وحسّاسة لزمن الاستجابة، وهي الأكثر إرهاقاً للنسيج.
  • حركة التخزين: أوزان النماذج، فهارس RAG، شظايا التدريب، ونقاط الحفظ تتدفّق بين عقد GPU وطبقة التخزين. نقطة حفظ نموذج 70B تبلغ مئات الجيجابايت، وحفظها على 25GbE يستغرق دقائق، وعلى 100GbE ثوانٍ.
  • الدخول والإدارة: طلبات المستخدمين، استدعاءات API، نقل السجلّات، المراقبة، وSSH للمشغّل. نادراً ما تتجاوز بضعة جيجابت حتى في الذروة.

الطبقة الأولى هي التي تدفع 25GbE إلى حدّها. مكتبة NCCL هي ما تستخدمه أغلب الأنظمة، وعلى وصلة من فئة 100GbE مع RoCE في مخطّط شبكي بدون مبدّل تبلغ عادةً نحو 60 إلى 65 بالمئة من السرعة الاسمية، أي قرابة 10 GB/s على عقدتين و7 إلى 8 GB/s على ثلاث. هذا هو السقف الواقعي الذي ينبغي للمشترين التخطيط بناءً عليه، لا الرقم الإعلاني في كرّاسة المبدّل.

2. متى تكفي 25GbE

لطائفة واسعة من أحمال الذكاء الاصطناعي السيادي، 25GbE ليست كافية فحسب، بل هي الخيار الصحيح.

  • الخدمة على عقدة واحدة: برج حصن أو نواة حصن يشغّل Gemma 4 أو Qwen 3.6 كمساعد محادثة مؤسسي يُبقي حركة GPU داخل الهيكل عبر NVLink أو PCIe. منفذ الإيثرنت يحمل فقط تدفّق الرموز، استعلامات RAG، وحركة الإدارة. حتى مع بضع مئات من المستخدمين المتزامنين نادراً ما يتجاوز الإنتاج المستدام 5 إلى 10 جيجابت/ثانية.
  • مزارع استدلال بتزامن متوسّط: عقدتان أو ثلاث مستقلّة تخدم إدارات منفصلة، كلٌّ تتعامل مع مستخدميها، لا تتشارك موترات. تتشارك التخزين وموازِنات الحمل الأمامية. 25GbE لكلّ عقدة مع وصلة 100GbE واحدة إلى العمود الفقري كافية تماماً.
  • RAG على NFS محلي: فهرس عربي إنجليزي ثنائي اللغة بحجم 50 إلى 200 GB يقع على NFS محلي وتستعلمه عقدة استدلال واحدة يندرج بسهولة ضمن 25GbE. عمليات استرجاع المتجهات صغيرة، ومجموعة العمل الساخنة لمخزن المتجهات تعيش في الذاكرة.
  • أحمال التدقيق والتحليلات: تلخيص دفعات من المراسلات، أو معالجة وثائق سرّية، أو بحث برلماني، حيث أهداف زمن الاستجابة بالثواني لا الميلي ثانية.

في كلّ هذه الحالات، 25GbE مع ضبط نظيف بدون فقد يُبقي النسيج بسيطاً، وميزانية المبدّل منخفضة، وعبء المشغّل صغيراً.

3. متى تستحقّ 100GbE ثمنها

اللحظة التي تبدأ فيها وحدات GPU على عقد مختلفة بالمشاركة في الممرّ الأمامي أو الخلفي نفسه، تنقلب المعادلة. التوازي الموتري متعدّد العقد يقسم طبقة وزن واحدة بين الآلات. التوازي الأنبوبي يقسم مراحل النموذج بين الآلات. كلاهما يتطلّب تبادلات متزامنة منخفضة الزمن وعالية النطاق في كلّ خطوة.

  • الضبط الموزّع: LoRA على عقدة واحدة جيّد على 25GbE. الضبط الكامل لنموذج بـ70B معامل عبر أربع أو ثماني عقد، مع تطاير تدرّجات FP8 أو BF16، يُشبع 25GbE خلال أوّل تكرارات.
  • الخدمة الموترية متعدّدة العقد: تشغيل نموذج لا يلائم ذاكرة GPU لعقدة واحدة، مثل نموذج مكمّم من فئة +200B مقسوم على عقدتي H100، هو الحالة الكلاسيكية لـ100GbE مع RoCE v2.
  • RAG ضخم جداً: فهارس بحجم الأرشيف الوطني تمتدّ عبر عقد تخزين متعدّدة مع تجزئة عابرة للعقد تستفيد من 100GbE على طبقة التخزين حتى لو كان الاستدلال نفسه على عقدة واحدة.
  • نقاط حفظ متكرّرة: جلسات التدريب التي تحفظ كلّ بضع دقائق تحتاج طبقة تخزين تُفرّغ بثوان لا دقائق لتجنّب توقّف GPU.

دليل الركيزة sovereign AI rack power cooling airgap يغطّي كيف ينعكس اختيار النسيج على حجم وحدات توزيع الطاقة، ومجاري الكابلات، وتصميم محيط العزل الفيزيائي. اختيار الشبكة نادراً ما يبقى اختيار شبكة فقط.

4. RDMA وRoCE v2 وInfiniBand باختصار

متى التزم المشتري بـ100GbE للعمليات الجماعية، يصبح السؤال التالي: ماذا يعمل فوقها؟

  • TCP العادي: يعمل، لكنه يحرق المعالج ويضيف زمن استجابة. مقبول للتخزين والدخول، لا للعمليات الجماعية.
  • RoCE v2، أي RDMA فوق إيثرنت متقارب. الخيار السائد لعناقيد الذكاء الاصطناعي على إيثرنت. يحتاج إيثرنت بدون فقد عبر PFC وECN مضبوطَين لكلّ فئة، وإلا تتعطّل أزواج طوابير RDMA. مبدّلات Cisco وArista وMellanox/NVIDIA تدعمه. ورقة Meta على نطاق التشغيل توثّق كيف يقوم RoCE بدور الأساس لنسيج التدريب الموزّع لديها، وتنطبق العقيدة نفسها على خزانة سيادية واحدة.
  • InfiniBand: نسيج موازٍ غير إيثرنتي. زمن استجابة أدنى قليلاً، وعرض نطاق أعلى قليلاً في 2026، لكنه شبكة فيزيائية ثانية بكابلاتها ومبدّلاتها ومهارات تشغيلها. للمؤسسات العُمانية التي توحّد على إيثرنت، نادراً ما تبرّر التكلفة التشغيلية اعتماده خارج عناقيد التدريب الكبيرة جداً.

الخطّ الأساسي الموصى به لأغلب نشرات حصن: 25GbE لكلّ عقدة مع عمود فقري 100GbE للاستدلال داخل خزانة واحدة، و100GbE لكلّ عقدة مع RoCE v2 بدون فقد لأيّ حمل يعبر حدود العقد. تسعير العنقود والمبدّلات وضبط النسيج بحسب الطلب.

إن كنت بصدد تحديد حجم عنقود سيادي وتريد رأياً ثانياً قبل تجميد كرّاسة الشروط، راسلنا على [email protected] لجلسة إحاطة لمدّة ساعة. سنستعرض مزيج الأحمال، وانعكاسات النسيج، وطرازات المبدّلات وبطاقات الشبكة المناسبة لقواعد العزل لديكم.

المراجع: ملاحظات إصدار NVIDIA NCCL 2.27، ورقة RDMA over Ethernet for Distributed AI Training at Meta Scale (SIGCOMM 2024)، عرض مواصفة RDMA over Converged Ethernet.

أسئلة شائعة

هل تكفي 25GbE لجهاز استدلال أحادي العقدة؟

نعم. عقدة حصن واحدة تشغّل Gemma 4 أو Qwen 3.6 للاستدلال نادراً ما تُشبع 25GbE في الواجهة. تدفّق الرموز، استعلامات RAG على NFS محلي، وبضع مئات من المستخدمين المتزامنين تبقى ضمن 5 إلى 10 جيجابت/ثانية. تترك 25GbE هامشاً مريحاً وتُبقي تكلفة المبدّل والكابلات منخفضة.

متى يحتاج العنقود فعلياً إلى 100GbE؟

عندما تتبادل وحدات GPU على عقد فيزيائية مختلفة موترات داخل العملية نفسها. يشمل ذلك التوازي الموتري والأنبوبي متعدّد العقد، والضبط الموزّع، وفهارس RAG الكبيرة جداً عبر العقد. حين تعبر عملية all-reduce حدود العقدة تصبح 25GbE عنق الزجاجة وتغدو 100GbE مع RoCE v2 الحدّ الأدنى المناسب.

RoCE v2 أم InfiniBand للعنقود السيادي؟

RoCE v2 على إيثرنت غالباً الخيار السيادي الأنسب. يعمل على مبدّلات مراكز البيانات القياسية، يدعمه كل المزوّدين الكبار، ويتكامل بسلاسة مع شبكة الجهة العُمانية. InfiniBand أسرع نظرياً للتدريب الكبير جداً، لكنه يضيف نسيجاً موازياً وكوادر متخصّصة نادرة محلياً. للاستدلال والتدريب داخل خزانة واحدة، يتفوّق RoCE v2 من حيث التشغيل.

هل تتطلّب 100GbE إيثرنت بدون فقد؟

لكي يحقّق RoCE v2 إمكانياته نعم. يحتاج النسيج إلى Priority Flow Control وECN مضبوطَين لكلّ فئة أولوية، وإلا تتعطّل أزواج طوابير RDMA وتتباطأ NCCL تحت الحمل. وصلة 100GbE عادية بدون ضبط بدون-فقد تتفوّق على 25GbE في الإنتاجية الخام لكنها لا تقدّم زمن استجابة RDMA المطلوب للتدريب الموزّع.