نشر فالكون العربي في الفروع: تحجيم الموارد
نادرًا ما تعمل المؤسسات السيادية العُمانية من مبنى واحد. للبنك ستون فرعًا في الولايات. للجهة الرقابية مكاتب ميدانية في صلالة وصحار وصور. للجهة الدفاعية مراكز قد تفقد الاتصال يومًا كاملًا. وضع ذكاء اصطناعي عربي بليغ في مركز البيانات بالمقرّ هو النصف السهل من التصميم؛ أمّا النصف الأصعب فهو وضع ذكاء اصطناعي عربي مُحوكَم وقدير داخل كل فرع دون إعادة الوثائق الحساسة إلى المقرّ. تعرض هذه المقالة دليل التحجيم لنشر Falcon Arabic في الحافة، وهي رفيقة المقالة الموسّعة حول Falcon Arabic LLM ودور TII في معالجة اللغة العربية السيادية.
واقع الفرع: من 5 إلى 50 مستخدمًا متزامنًا في وحدة خزانة واحدة
للفروع قيود لا توجد في المقرّ. الفرع العُماني النموذجي يحتوي خادمه ومُحوّله ووحدة الطاقة في نصف خزانة داخل غرفة خلفية، ولا يسحب أكثر من دائرة 16 أمبير أحادية الطور، وليس فيه أرضية مرفوعة ولا تبريد لائق لهيكل H100 بحجم 4U. عدد المستخدمين المتزامنين الواقعي صغير: من 5 إلى 10 صرّافين، أو 20 إلى 30 موظف ملف، أو 40 إلى 50 في فرع إقليمي مزدحم.
- غلاف الطاقة: من 600 واط إلى 1200 واط في الوضع المستقر، وذروة دون 1800 واط. أي جهاز يتطلب وصلة 32 أمبير ثلاثية الطور خارج النطاق.
- الميزانية الصوتية: الغرف الخلفية مجاورة لمكاتب الموظفين؛ بطاقات GPU الصاخبة (H100 SXM، صناديق 4U بثماني مراوح) ترسب اختبار الضوضاء الذي لم تواجهه قاعات المقرّ.
- غلاف التبريد: مكيّف منفصل، لا وحدة CRAC. السقف الواقعي لإخراج الحرارة المستدام نحو 700 واط.
- واقع الصيانة: مسؤول تقنية المعلومات في الفرع شخص واحد، غالبًا متعدد المهام. ينبغي أن يكون الجهاز وحدة واحدة تُقلع وتسجّل لدى المقرّ وتعمل.
هذا هو الصندوق الذي يجب أن يلائمه فالكون العربي، والذي لا تلائمه نماذج فئة 70B.
مقاسات فالكون العربي وخيارات التكميم للحافة
أصدرت TII فالكون العربي بسبعة مليارات معامل على معمارية Falcon 3، بنافذة سياق 32K رمزًا، ومُجزّئ مُمتدّ بـ 32,000 رمز عربي مُخصّص، وفق إعلان TII الرسمي على Hugging Face. حجم 7B هو الهبة لمشترِي الحافة: يدخل ضمن غلاف الذاكرة والطاقة الذي يستطيع الفرع استضافته فعلًا.
ثلاث طبقات تكميم تُهمّ تحجيم الفروع:
- الدقة الكاملة FP16/BF16: نحو 14 جيجابايت للأوزان. مريحة على أي بطاقة بذاكرة 24 جيجابايت أو أكثر، وتعمل بجودة كاملة، خيار طبيعي حين يتوفر متّسع.
- التكميم FP8 أو INT8: نحو 7 جيجابايت للأوزان، مع انخفاض جودة عربية لا يُذكر على نماذج فئة Falcon-3. يحرّر ميزانية ذاكرة المفاتيح والقيم لدعم مزيد من المستخدمين المتزامنين على البطاقة ذاتها.
- التكميم INT4 / Q4_K_M GGUF: نحو 4 جيجابايت للأوزان. الطبقة المناسبة لأصغر وحدات الحافة، بما فيها حواسيب Apple Silicon المحمولة في سيناريوهات المكاتب المتنقلة. اقرنها بمرور تقييم على Arabic MMLU وMadinahQA لترى المؤسسة الكلفة الفعلية على مكنزها لا أرقام المُورّد.
للتعمّق في موازنات GGUF Q4 مقابل Q5 على العربية، انظر خيارات التكميم لنماذج اللغة العربية.
تحجيم العتاد: M3 Ultra وRTX 6000 Ada وStrix Halo
ثلاث منصّات تغطي غلاف الفرع الواقعي في 2026. أرقام التسعير أدناه مستندة إلى المسح العام المنشور في تحليل BSWEN لـ RTX PRO 6000 مقابل Mac Studio وإلى المواصفات المنشورة من Apple وNVIDIA.
- Mac Studio M3 Ultra بذاكرة موحّدة 256 جيجابايت. صامت، ذروة 480 واط، يأتي في مكعّب 20 سم. يحتضن فالكون العربي 7B بدقة FP16 مع مئات الجيجابايتات لذاكرة المفاتيح والقيم ولنموذج ثانٍ. مناسب للفروع ذات 5 إلى 25 مستخدمًا متزامنًا وأعمال الوثائق ثنائية اللغة.
- RTX 6000 Ada في هيكل محطة عمل 2U. ذاكرة 48 أو 96 جيجابايت بحسب الجيل، 300 واط نمطيًا، يُشغّل فالكون العربي 7B بدقة FP8 أو INT8 بمتّسع كبير. الخيار الأنسب للفرع المزدحم بـ 30 إلى 50 مستخدمًا متزامنًا، خاصة مع تجميع الطلبات المتواصل في vLLM.
- محطة AMD Strix Halo بذاكرة موحّدة 128 جيجابايت. الوافد الأحدث في فئة الحافة. كلفة اقتناء أدنى من M3 Ultra، وذاكرة أقل قليلًا، وزمن استدلال عربي مماثل على نماذج 7B بدقة INT4. مفيد حين تعتمد المؤسسة على AMD في عموم منشآتها.
للمقارنة الكاملة بين هذه المنصّات الثلاث مع أرقام الرموز في الثانية، انظر أجهزة GPU الطرفية للفروع.
بنية المزامنة: تحديثات محوّلات موقّعة دون اتصال مباشر
السؤال الأصعب ليس كيف نُشغّل فالكون العربي في الفرع، بل كيف نُحدّثه. لا تستطيع الفروع السيادية عادةً الوصول إلى الإنترنت العمومية، وكثير منها لا تصل إلى المقرّ بشبكة دائمة. يستخدم نمط حصن حزمًا موقّعة دون اتصال:
- المقرّ كمصنع للنماذج. التخصيص وتدريب محوّلات LoRA والتقييم والاختبار العدائي كلها داخل بيئة المقرّ، على المكنز الكامل للمؤسسة، تحت سيطرتها.
- حزم مُصدارة موقّعة. كل إصدار يُحزَم كمَلَفّ تعريف وأوزان ومحوّلات، موقّع بمفتاح خاص للمقرّ يُضمَّن مفتاحه العمومي في كل جهاز فرع عند التزويد.
- نقل أحادي الاتجاه. تنتقل الحزم عبر ذاكرة USB مُشفّرة، أو صمّام بيانات للفروع المُصنّفة، أو دائرة خاصة من وزارة النقل والاتصالات وتقنية المعلومات حين تُجيز السياسة. لا يوجد مسار عودة من الفرع للمقرّ لأي حركة خارجية تعسّفية.
- التهيئة ثم التفعيل. يُطبّق جهاز الفرع الحزمة في فتحة تجريبية، ويُجري اختبارًا ذاتيًا على مجموعة تقييم محتجزة، ولا يفعّلها إلا بعد نجاح الاختبار. تحديث فاشل لا يُسقط الفرع.
- قياس عن بُعد، اختياري. تتدفق مقاييس التشغيل (الزمن ومعدلات الخطأ ورقم الإصدار) إلى المقرّ بشروط المؤسسة، دون أي محتوى مطالبات.
تُقدّم منصّة مُعين الوطنية للذكاء الاصطناعي المُشترَك في عُمان مسارًا تكامليًا للجهات التي تُفضّل نموذجًا ثنائي اللغة مُستضافًا مركزيًا؛ والنمط الطرفي المعروض أعلاه هو الجواب الصحيح حين تستبعد متطلبات التصنيف أو زمن الاستجابة أو الاتصال هذا الخيار.
الخاتمة
فالكون العربي 7B هو النادر بين النماذج العربية الذي يلائم القيود الفعلية للفرع: وحدة خزانة واحدة، دائرة 16 أمبير، مسؤول تقنية معلومات واحد، وعزل شبكي. الجهد في انضباط التحجيم (التكميم الصحيح، طبقة العتاد الصحيحة، ميزانية مستخدمين متزامنين صادقة) وفي بنية المزامنة التي تُبقي الفروع محدّثة دون فتحها للشبكة العمومية. للحصول على لقاء تعريفي بساعة لخطة نشر فرعية مفصّلة على بصمة مؤسستكم، راسلونا على [email protected] أو واتساب +968 9889 9100.
أسئلة شائعة
كم عدد المستخدمين المتزامنين الذين يخدمهم فالكون العربي 7B في فرع واحد واقعيًا؟
على بطاقة RTX 6000 Ada واحدة بسعة 48 أو 96 جيجابايت، مع تشغيل فالكون العربي 7B بدقة FP8 أو INT4 وتجميع الطلبات عبر vLLM، يمكن خدمة 30 إلى 50 جلسة متزامنة بزمن استجابة دون الثانية للرمز الأول. أما على Mac Studio M3 Ultra بذاكرة 256 جيجابايت موحّدة فيخدم النموذج نفسه 10 إلى 25 مستخدمًا متزامنًا مع زمن تحضير أطول وإنتاجية توليد كافية. السقف الفعلي عند الحافة ليس قدرة الحساب الخام، بل ميزانية ذاكرة المفاتيح والقيم حين يحتفظ عدة مستخدمين بجلسات سياق طويل في الوقت ذاته.
هل ترخيص فالكون العربي يسمح بالنشر داخل المؤسسات في عُمان؟
تُنشر عائلة Falcon-3 الأساسية بموجب ترخيص TII Falcon LLM الذي يسمح بالاستخدام التجاري داخل المؤسسة. أما فالكون العربي تحديدًا فيُتاح حاليًا عبر واجهة محادثة TII وقنوات الشركاء بصورة رئيسية. للنشر السيادي على الموقع في 2026، النمط العملي هو تشغيل أقرب نسخة مفتوحة من Falcon-3 7B مع امتداد المُجزّئ العربي المنشور، ثم إضافة تخصيص خاص بالمؤسسة. تتأكد حصن من الشروط الترخيصية مع TII قبل أي نشر سيادي للأوزان.
لماذا لا تُستدعى منظومة المركز عبر رابط خاص بدلًا من وضع الذكاء الاصطناعي في الفرع؟
لثلاثة أسباب. أولًا، تفقد بعض الفروع في الولايات النائية الاتصال لساعات؛ ويُبقي النموذج المعزول محليًا العمل قائمًا. ثانيًا، الدوائر الخاصة إلى المركز مُكلفة بالنطاق الترددي اللازم لجلسات الذكاء الاصطناعي ومراجعة الوثائق ثنائية اللغة. ثالثًا، تمنع قواعد التصنيف أحيانًا خروج بعض الوثائق من محيط الفرع. الاستدلال الطرفي يحلّ الثلاثة معًا، مقابل تشغيل وتحديث جهاز صغير في كل موقع.
كيف تُدفع تحديثات النماذج والمحوّلات إلى الفروع دون اتصال بالإنترنت؟
النمط المعتمد لدى حصن هو الحزم الموقّعة دون اتصال. يُنتج المركز حزمة مُصدارة تضم الأوزان الأساسية الجديدة ومحوّلات LoRA المخصّصة وقوالب المطالبات وملف تعريف موقّعًا بمفتاح خاص للمركز. تتحقق الفروع من التوقيع باستخدام مفتاح عمومي للمركز مُضمّن في الجهاز عند التزويد، ثم تُطبّق الحزمة في فتحة تجريبية ولا تنتقل إلى الإنتاج إلا بعد نجاح اختبار ذاتي. تنتقل الحزمة عبر صمّام أحادي الاتجاه للفروع المُصنّفة، أو ذاكرة USB مُشفّرة للفروع غير المُصنّفة، أو دائرة خاصة من وزارة النقل والاتصالات وتقنية المعلومات حين يُسمح بذلك. لا يحتاج أي فرع للوصول إلى شبكة عمومية.