أجهزة الحوسبة الرسومية الطرفية للفروع والمكاتب الميدانية
للمؤسسة العُمانية السيادية ذات المقرّ في مسقط ذيل من الفروع غالبًا: ستون فرعًا للبنك في الولايات، وثلاثة مكاتب ميدانية للجهة الرقابية في صلالة وصحار وصور، ومركز دفاعي يفقد الاتصال كل عطلة نهاية أسبوع. قاعة البيانات في المقرّ هي النصف السهل من تصميم الذكاء الاصطناعي. النصف الأصعب هو وضع ذكاء اصطناعي قدير ومُحوكَم داخل كل فرع دون إعادة المطالبات الحساسة إلى المركز. هذه المقالة دليل مشترٍ لفئة صغيرة من أجهزة GPU الطرفية التي تلائم الفرع، رفيقة المقالة الموسّعة حول تحجيم أجهزة الذكاء الاصطناعي السيادية.
واقع الفرع: من 5 إلى 20 مستخدمًا، دون فريق مركز بيانات
القيود في الفرع لا تُشبه قاعة البيانات في المقرّ، وهي التي تحدّد القائمة المختصرة كاملةً. الغلاف الواقعي عبر فروع المؤسسات المالية والرقابية والميدانية في عُمان يبدو كالآتي:
- المستخدمون المتزامنون: من 5 إلى 20 جلسة نشطة، تصل أحيانًا إلى 30 في مركز إقليمي مزدحم. أغلب اليوم يبقى الجهاز خاملًا.
- الطاقة: دائرة جدارية واحدة 16 أمبير أحادية الطور، يتقاسمها مع طابعة ووحدة طاقة لا تنقطع. وصلة 32 أمبير ثلاثية الطور خارج النطاق.
- التبريد: مكيّف منفصل مثبت على الجدار، لا وحدة CRAC. إخراج حرارة مستدام يتجاوز 700 واط يحرق الغرفة.
- الصوتيات: الغرفة الخلفية تتشارك جدارًا مع مكاتب الموظفين. خادم GPU بمراوح متعدّدة مسموع عبر القاعة.
- الأثر المكاني: نصف خزانة على الأكثر، وغالبًا رفّ في خزانة خدمات مُقفلة.
- التشغيل: موظف تقنية معلومات متعدد المهام، دون مهندس خزانات في الموقع، ودون أيدٍ بديلة في الثالثة فجرًا. أي شيء يستلزم ترقية تعريف CUDA فصليًا لن يحدث.
داخل هذا الغلاف، القائمة المختصرة لأجهزة الذكاء الاصطناعي الموثوقة صغيرة. نرى ثلاث منصات في 2026.
خيارات الجهاز الطرفي: Jetson AGX Orin وMac Studio وStrix Halo
كل من هذه المنصات يدخل ضمن غلاف سلك طاقة واحد ومنخفض الضوضاء ونصف خزانة، ويشغّل نماذج عربية فئة 7B بأريحية. تختلف في الذاكرة وذروة الحساب وسهولة توريد قطع الغيار للمؤسسة العُمانية.
NVIDIA Jetson AGX Orin (الطبقة الأصغر)
تقدّم وحدة Jetson AGX Orin بسعة 64 جيجابايت حتى 275 TOPS متفرّقة بدقة INT8، ضمن ملف طاقة قابل للضبط من 15 إلى 60 واطًا، مع ذاكرة موحّدة 64 جيجابايت من نوع LPDDR5 يتقاسمها معالج Arm ذو 12 نواة وGPU مُدمج من Ampere، وفق مواصفات NVIDIA المنشورة لـ Jetson AGX Orin. في علبة صناعية بدون مراوح من Advantech أو ADLINK أو ما شابه، يعيش على رفّ، ويسحب أقل من 80 واطًا مع الملحقات، ويشغّل Falcon Arabic 7B أو Qwen 3.6 7B بدقة INT4 لخمسة إلى عشرة مستخدمين متزامنين في الفرع. هو الخيار الصحيح لأصغر وحدات الفروع، ولأطقم العمل الميدانية المتنقلة، وللنشر المُقسّى.
Apple Mac Studio M3 Ultra (الطبقة الوسطى الصامتة)
يأتي Mac Studio M3 Ultra بحجم مكعّب 20 سم، بذروة دون 480 واطًا، مع 192 أو 256 جيجابايت من الذاكرة الموحّدة. صامت فعلًا، يندسّ في أي غرفة خلفية، ويخدم من 10 إلى 25 مستخدمًا متزامنًا على نماذج 7B بدقة FP16 أو 14B بدقة FP8. انظر التحليل الموسّع في Mac Studio M3 Ultra كجهاز طرفي سيادي. الموازنات في البرمجيات (إطار MLX يتحسّن بسرعة لكنه ليس vLLM بعد) وفي واقع التوريد إذ ليس لـ Apple قناة مؤسسية في عُمان، فقطع الغيار تأتي عبر الموزّعين.
محطة AMD Strix Halo (البديل على معمارية x86)
تأتي AMD Ryzen AI Max+ 395 (Strix Halo) بإعدادات ذاكرة موحّدة 128 جيجابايت من HP وAsus وFramework. تشغّل النماذج العربية فئة 7B بدقة INT4 أو INT8 بإنتاجية قريبة من Mac Studio، على حزمة Linux + ROCm مألوفة، وبسعر اقتناء أدنى. نُفصّلها في Strix Halo كمحطة عمل سيادية. مفيدة حين تكون المؤسسة قد توحّدت على AMD أو Linux عبر الأسطول.
بنية المزامنة: تحديثات محوّلات موقّعة، دون خروج استدلال
اختيار الصندوق هو الجزء السهل. التحدي الأصعب هو إبقاء كل صندوق فرع محدّثًا بمحوّلات مدرّبة في المقرّ، دون فتح الفرع للإنترنت العمومي إطلاقًا. النمط المعتمد لدى حصن، المُستخلص من نشرات طرفية سيادية موثّقة في إرشادات NVIDIA الصناعية ومن مؤسسات عُمانية متعدّدة، يبدو كالآتي:
- مصنع نماذج المقرّ. التخصيص وتدريب محوّلات LoRA والتقييم والاختبارات العدائية كلها تحدث في المقرّ على المكنز الكامل للمؤسسة وتحت سيطرتها.
- حزم موقّعة بإصدارات. كل إصدار ملفّ تعريف مع أوزان ومحوّلات، موقّع بمفتاح خاص للمقرّ، نظيره العمومي مُضمَّن في كل جهاز عند التزويد.
- نقل أحادي الاتجاه. تنتقل الحزم على ذاكرة USB مُشفّرة، أو عبر صمّام أحادي الاتجاه للفروع المُصنّفة، أو عبر دائرة خاصة محدودة النطاق حين تسمح السياسة. لا تصل الفروع إلى شبكة عمومية.
- تجريب ثم ترقية. يُطبّق الجهاز الحزمة في فتحة تجريبية، ويُجري اختبارًا ذاتيًا على مجموعة تقييم محجوبة، ويرتقي إلى النشط فقط عند النجاح. التحديث الفاشل لا يوقف الفرع أبدًا.
- بيانات تشغيل اختيارية. مقاييس التشغيل (زمن الاستجابة، نسبة الأخطاء، إصدار النموذج) تصل إلى المقرّ بشروط المؤسسة. محتوى المطالبات والردود لا يغادر الجهاز.
تقدّم منصة Mu'een الوطنية المشتركة للذكاء الاصطناعي مسارًا تكامليًا للمؤسسات التي تفضّل نموذجًا ثنائي اللغة مُستضافًا مركزيًا. أمّا نمط الحافة على الموقع أعلاه فهو الجواب الصحيح حين يستبعد التصنيف أو زمن الاستجابة أو الاتصال ذلك المسار.
الملف التشغيلي: ماذا يفعل مسؤول تقنية المعلومات في الفرع فعلًا
يُحكم على نجاح تصميم الجهاز الطرفي بما يفعله مسؤول تقنية المعلومات في الفرع خلال أسبوع عادي، وينبغي أن يكون ذلك شبه لا شيء. الملف التشغيلي الذي يصمد في الفروع العُمانية مبنيّ على خمس قواعد.
- منتج موحّد لكل طبقة فرع. الفروع الصغيرة كلها تتلقى جهاز Jetson ذاته؛ الفروع المتوسطة كلها تتلقى وحدة Mac Studio أو Strix Halo ذاتها. لا إعدادات خاصة.
- إقلاع وتسجيل. عند تشغيل الكهرباء يعمل الجهاز على عنوان IP معروف، ويُسجّل لدى المقرّ عبر قناة الإدارة الواردة فقط، ثم يصبح جاهزًا للخدمة.
- مؤشّر حالة واحد. الأخضر صحيح ومُحدّث. الكهرماني يعني فشل اختبار ذاتي والإصدار السابق ما زال نشطًا. الأحمر يعني تصعيد إلى المقرّ.
- لا ترقيات CUDA في الإنتاج. صورة وقت التشغيل مقفلة عند التزويد. تحديثات التعريفات وأوقات التشغيل تركب داخل الحزمة الموقّعة، لا عبر apt أو pip ارتجاليًا.
- وحدة احتياطية باردة لأسبوع. تحتفظ كل طبقة فرع بوحدة بديلة في المقرّ جاهزة للشحن بالبريد، تبادل وشحن لا تشخيص في الموقع.
الخاتمة
لم تعد أجهزة GPU الطرفية غريبة. Jetson AGX Orin في علبة بدون مراوح، أو Mac Studio M3 Ultra صامت على رفّ، أو محطة Strix Halo تحت مكتب: ثلاثتها تتجاوز غلاف الفرع الذي يستبعد بطاقات قاعات البيانات. الانضباط في مطابقة طبقة الجهاز مع العدد الواقعي للمستخدمين المتزامنين، وفي بناء بنية مزامنة بحزم موقّعة تُبقي الأسطول محدّثًا، وفي تشكيل ملف تشغيلي يستطيع موظف تقنية معلومات واحد لكل فرع التعايش معه. للحجز ساعة إفادة حول خطة نشر فروع مُفصّلة على بصمة مؤسستكم، راسلونا على [email protected].
الأسئلة الشائعة
ما أصغر جهاز GPU طرفي واقعي لفرع سيادي؟
وحدة NVIDIA Jetson AGX Orin بسعة 64 جيجابايت، سواء طقم المطوّر أو الإنتاج. تقدّم حتى 275 TOPS بدقة INT8 المتفرّقة ضمن غلاف طاقة قابل للضبط من 15 إلى 60 واطًا، وتدخل في علبة بدون مراوح بحجم موجّه شبكة، وتشغّل نماذج عربية بحجم 7B بدقة INT4 مع زمن استجابة كافٍ لخمسة إلى عشرة مستخدمين متزامنين في الفرع. للأعداد من 25 إلى 50 مستخدمًا فالخيار الأنسب هو Mac Studio M3 Ultra أو محطة عمل AMD Strix Halo.
لماذا التصاميم الصامتة أو شبه الصامتة مناسبة للفروع؟
الغرف الخلفية في الفروع مجاورة لشبابيك الصرّافين ومكاتب الموظفين، وتعتمد تبريد المكيّف المنفصل لا وحدة CRAC، وليس فيها مهندس خزانات في الموقع. خوادم GPU الصاخبة بحجم 4U ترسب اختبار الضوضاء وتتجاوز غلاف التبريد وتُشكّل نقطة فشل وحيدة عند تعطل مروحة في عطلة نهاية الأسبوع. الأجهزة الصامتة أو منخفضة المراوح (Jetson وMac Studio وStrix Halo) تصمد في تلك البيئة ويستطيع موظف تقنية معلومات متعدد المهام صيانتها.
كيف تبقى أجهزة الفروع محدّثة دون اتصال بالإنترنت؟
عبر حزم موقّعة تنتقل دون اتصال. مصنع النماذج في المركز يحزم الأوزان ومحوّلات LoRA وقوالب المطالبات وملف تعريف، ويوقّع الحزمة بمفتاح خاص للمركز، ويشحنها على ذاكرة USB مُشفّرة أو عبر صمّام أحادي الاتجاه. يتحقق الجهاز في الفرع من التوقيع باستخدام مفتاح عمومي مُضمَّن، ويطبّق الحزمة في فتحة تجريبية، ويُجري اختبارًا ذاتيًا على مجموعة تقييم محجوبة، ولا يرتقي إلى الإنتاج إلا بعد النجاح. لا يخرج أي طلب استدلال ولا قناة دخول من الإنترنت.
هل يكفي Jetson AGX Orin فعلًا لأحمال نماذج اللغة العربية؟
نعم لنماذج فئة 7B بدقة INT4 أو INT8 مع حركة فرع خفيفة. كل من Falcon Arabic 7B وQwen 3.6 7B يعملان ضمن ميزانية الذاكرة الموحّدة 64 جيجابايت مع متّسع لذاكرة المفاتيح والقيم في الجلسات التفاعلية القصيرة. الجيتسون أصغر من اللازم لنماذج فئة 70B أو لمراجعة الوثائق ثنائية اللغة بسياق طويل أو لتجميع متزامن مكثّف؛ لتلك الأحمال انتقل إلى Mac Studio M3 Ultra (192 إلى 256 جيجابايت) أو محطة Strix Halo (128 جيجابايت).