الذكاء الاصطناعي لقطاع الدفاع: فرز الوثائق العربية وتدفقات الاستخبارات متعددة اللغات

تخيّل سيناريو وزارة دفاع، وهو سيناريو متكرّر في دول الخليج. مديرية استخبارات واحدة تستقبل في الأسبوع آلاف الوثائق العربية: مرافعات قضائية، محاضر برلمانية، صحافة إقليمية، أرشيفات وسائل التواصل، ملفات PDF مسرّبة، إشارات ممسوحة ضوئياً، نسخ إذاعية مفرّغة، إضافة إلى حِمل مماثل بالإنجليزية والفارسية. للفريق نحو ثلاثين محلّلاً. الحساب لا يرحم: الجزء الأكبر من الكومة لا يقرؤه أحد قبل أن تطغى عليه الكومة التالية. الفرز بالذكاء الاصطناعي هو الردّ على هذا الحساب، ولا بدّ أن يعمل بالعربية أولاً، ومتعدّد اللغات ثانياً، ومعزول الشبكة دائماً.

يستعرض هذا المقال الشكل التشغيلي لنظام فرز عربيّ الأساس لجهة دفاعية. ليس عرضاً تجارياً، بل بنية معمارية واختياراً للنماذج وانضباطاً للعزل وتكاملاً مع المحلّل ومنظومة تقييم، يحقّ لأي مشترٍ سيادي أن يتوقّعها من أي نشر جادّ في 2026. حصن واحد من تجسيدات هذا النمط، أما النمط نفسه، والمنطق وراء كل اختيار، فهو ما يهمّ في الشراء.

إشكالية تراكم المصادر العربية المفتوحة

كانت الاستخبارات من المصادر المفتوحة تخصّصاً يدوياً قابلاً للإدارة. فريق من المختصّين الإقليميين يقرأ الصحف العربية الكبرى ويرصد قنوات إذاعية معدودة ويلقّط ما يهمّ في منتج أسبوعي. لم يعد هذا النموذج صامداً أمام طوفان الحجم في العقد الأخير. قنوات تيليغرام، أرشيفات منصة X، البودكاست الإقليمي، الوثائق القضائية المسرّبة، محاضر اللجان البرلمانية، بوابات المناقصات الوزارية، ووسائل التواصل اللهجية الكثيفة، تنتج اليوم حجوماً يومية لا يستطيع أيّ فريق بشري قراءتها كاملة.

تتضاعف إشكالية الحجم بثلاث صعوبات بنيوية. الأولى تعدّد اللغات: ملفّ واحد عن طرف إقليمي يخلط الفصحى والخليجية والشامية والإنجليزية، وغالباً الفارسية أو التركية على الأطراف. الثانية تنوّع الصيغ: الملفّ نفسه يحوي PDF ممسوحاً متفاوت الجودة، وصفحات مصوّرة، وتفريغات آلية، وHTML خام، وجداول مهيكلة. الثالثة سرعة تلاشي الأهمية: وثيقة كانت حاسمة صباح الثلاثاء قد تصبح فضلة عملياتية مساء الأربعاء.

النتيجة مديرية لا تعاني من مشكلة جودة، بل من مشكلة تغطية. المحلّلون الأقوياء يقرؤون بعمق، والذيل غير المقروء خلفهم هو ما يحمل المفاجأة الاستراتيجية. الفرز بالذكاء الاصطناعي وُجد ليضغط هذا الذيل.

ما الذي يعنيه فرز الوثائق بالذكاء الاصطناعي هنا

تلوّث النقاش الدفاعي حول الذكاء الاصطناعي بأوهام الاستقلالية من جهة، وبتشكيك انعكاسي من جهة أخرى. الفرز ليس أيّاً منهما. هو وظيفة محدودة النطاق وواضحة التعريف وقابلة للتدقيق. يقوم نظام الفرز بثلاثة أمور بالترتيب:

  • الترتيب. منح كل وثيقة واردة درجة وفق أولويات الجمع المعتمَدة في الوحدة. تنتقل الوثائق من طابور مسطّح إلى طابور مرتّب. لا حذف ولا إخفاء؛ بإمكان المحلّلين دائماً إعادة الفرز.
  • التلخيص. إنتاج تلخيص قصير ومحافظ على اللغة لكل وثيقة، مع إبراز الكيانات المسماة، واستخراج الادعاءات، وروابط إلى المقاطع الأصلية التي بُني عليها التلخيص. التلخيص للمحلّل، لا للتوزيع.
  • الإبراز. تجميع الوثائق المتقاربة، وكشف التناقضات بين المصادر، والإشارة إلى الجديد قياساً على القاعدة المعرفية القائمة في المديرية.

ما لا يفعله نظام الفرز هو الحُكم. لا يصنّف الوثائق على المستوى الأمني، ولا يعلن أن حدثاً ذو شأن، ولا يكتب منتجات تخرج من الوحدة. يبقى المحلّل الجهة الوحيدة المخوّلة بأي مخرَج يغادر الوحدة. وضمن هذا الحدّ، يستطيع النظام أن يتحرّك بسرعة كبيرة.

المقارنة مع منصات استخبارات الوثائق التجارية مفيدة. فمنصة Palantir AIP Document Intelligence مثلاً تعمل أيضاً كاستخراج مرتّب على مجموعات وسائط، مع تصنيف واستخراج كيانات كخطوات أنابيب. الشكل متشابه. الفرق بالنسبة إلى مشترٍ دفاعي سيادي أن الأوزان والمدخلات وخط المعالجة تعيش داخل محيطه هو، لا على مستوى تحكّم تديره جهة بائعة.

البنية ثلاثية الطبقات

لنظام فرز بمستوى دفاعي ثلاث طبقات منطقية. كل طبقة قابلة للتدقيق والاستبدال باستقلال عن الأخريات. شراء صندوق أسود واحد يدمجها هو الخطأ الأكثر شيوعاً في الشراء.

الطبقة الأولى، الاستيعاب. اقتناء الوثائق وتوحيد الصيغ وOCR والتفريغ والتعرّف على اللغة. المدخلات تشمل PDF الممسوح وأكوام الصور والصوت والفيديو وHTML وصادرات البريد. المخرَج تمثيل داخلي موحّد: نصّ نظيف، بيانات صفحة، مصدر، وسوم لغة، وبصمة تَجزِئة لسلسلة الحفظ. صار OCR العربي على المطبوع النظيف مشكلة شبه محلولة: تبلّغ عائلة QARI متعددة الوسائط عن معدّل خطأ كلمة قريب من ١٦٪ على نصوص مشكَّلة كثيفة، وتصل النماذج العربية الأحدث إلى آحاد بالمئة على معايير قياسية. تُحوَّل المدخلات السيّئة (صور بإضاءة ضعيفة، فاكسات، حواشٍ مكتوبة بخطّ اليد) إلى مراجع بشري مع درجات ثقة، لا أن يجري تشويهها صامتاً.

الطبقة الثانية، التصنيف. تصنيف موضوعي، استخراج كيانات، تحليل مشاعر، استخراج ادعاءات، ووسم لهجة. هنا ينفق نموذج اللغة معظم رموزه. كل مهمة قالب مُدخَل خاصّ بها مع مخطّط موثّق، وكل تصنيف مرفَق بدرجة ثقة ومقطع مقتبس. تملك الوحدة تصنيفها الموضوعي، والنموذج يلائمه لا العكس. يغطّي معيار KITAB-Bench لفهم الوثائق العربية تسع عائلات مهامّ تنطبق مباشرة على هذه الطبقة، وهو مفيد لاختيار البائع وللتقييم الداخلي المستمر.

الطبقة الثالثة، الإبراز. الترتيب والتجميع وإزالة التكرار وكشف التناقضات وواجهة المحلّل. هنا يلتقي النظام بالإنسان. الواجهة طابور لا غرفة محادثة. كل عنصر يُظهر الوثيقة الأصلية والاستخراج المهيكل والتلخيص الملوّن بدرجات الثقة وأزرار الإجراء التي يحتاجها المحلّل (قراءة، تأجيل، تصعيد، أرشفة، تأشير خطأ). كل إجراء يغذّي خطّ التقييم.

تتواصل الطبقات الثلاث عبر مخطّط داخلي موثّق. استبدال محرّك OCR أو النموذج أو الواجهة يجب ألّا يستلزم لمس البقية. هذا ما يحفظ قابلية الترقية للعقد القادم لا للربع القادم.

تحديات اللغة العربية

العربية ليست إنجليزية بحروف مختلفة. أربع خصائص للنصّ العربي الواقعي تكسر الأنابيب الساذجة، ولا بدّ لنظام بمستوى دفاعي أن يعالج كل واحدة منها بصراحة.

تباعد اللهجات. تهيمن الفصحى على الكتابة الرسمية، أما وسائل التواصل والاتصالات الملتقَطة والكلام الإذاعي غير الرسمي فلهجيّ. تختلف الصيغ الخليجية والشامية والعراقية والمصرية والمغاربية على المستوى المفرداتي والصرفي والنحوي. النموذج المدرَّب أساساً على الفصحى يضعف صامتاً على المدخلات اللهجية. صُمِّم Falcon Arabic من معهد الابتكار التقني تحديداً ليغطّي الفصحى مع الخليجية والشامية واللهجات الكبرى الأخرى، وهو الخيار المفتوح الأقوى لهذه السعة في 2026.

التبديل اللغوي. الوثائق العربية الواقعية في المجالات الدفاعية تخلط روتينياً العربية بالإنجليزية أو الفارسية أو مصطلحات لاتينية تقنية في الفقرة الواحدة. المُجزّئات وأنظمة التعرّف على اللغة التي تعمل على مستوى الوثيقة تخطئ هنا. الحلّ هو التعرّف على اللغة على مستوى المقطع (فقرة، جملة، أحياناً عبارة) وتمرير المقاطع المختلطة عبر نموذج عام متعدّد اللغات إلى جانب المتخصّص العربي. يؤدّي Qwen 3.6 الذي يغطّي أكثر من مئتي لغة ولهجة هذا الدور بكفاءة.

النقحرة. تظهر الأسماء والأماكن والكيانات بصيغ لاتينية متعدّدة عبر المصادر. القائد الإيراني نفسه قد يظهر بخمس صياغات في خمسة تقارير. حلّ ذلك مشكلة مطابقة قطعية لا مشكلة نموذج. يحتفظ النظام بملفّ مرجع أسماء تملكه المؤسسة ويُطبّقه عند الاستيعاب. يُسمح للنموذج باقتراح روابط جديدة، لكن الملفّ المرجعي تحرّره أيدٍ بشرية.

جودة OCR على المصادر المتدنّية. تتفاوت الملفّات القضائية والفاكسات والمضبوطات المصوّرة وأرشيفات تاريخية تفاوتاً كبيراً. يحتفظ الأنبوب بمخرَج OCR الخام وبنسخة معاد بناؤها بالنموذج، مع حفظ الفروقات. يستطيع المحلّل دائماً أن يرى ما اعتقده OCR مقابل ما أعاد النموذج كتابته، وهذا ما يحمي من إعادات بناء طليقة لكنها خاطئة.

اختيار النماذج

لا يوجد نموذج مفتوح الأوزان واحد يغطّي كامل عبء الفرز بالجودة التي تتطلّبها مديرية دفاعية. التشكيلة الصحيحة في 2026 تشغّل ثلاثة نماذج بالتوازي وتوجّه كل مهمّة إلى الأنسب لها.

  • النواة العربية: Falcon Arabic مع Qwen 3.6. يحمل Falcon Arabic العبء الفصيح واللهجي: التلخيص، التعرّف على الكيانات المسماة، استخراج الادعاءات، ووسم اللهجة على الوثائق العربية. يغطّي Qwen 3.6 المقاطع المختلطة لغوياً ويقدّم رأياً ثانياً حين تكون ثقة Falcon منخفضة. التوجيه بينهما يحدّده التعرّف على اللغة على مستوى المقطع لا الوثيقة كاملة.
  • الإنجليزية والسياق الطويل: Gemma 4. يتولّى Gemma 4 من Google DeepMind، الصادر في أبريل 2026 برخصة Apache 2.0 ونافذة سياق ٢٥٦ ألف رمز على المتغيرات الكبرى، تلخيص الوثائق الإنجليزية وأي مهمّة تستدعي ابتلاع وثيقة طويلة كاملة دفعة واحدة. متغيّر مزيج الخبراء بحجم ٢٧ مليار يلائم العتاد الإداري بسهولة.
  • إجابة أسئلة المحلّل: DeepSeek R1. DeepSeek R1، نموذج الاستدلال برخصة MIT ومتغيّراته المقطّرة بحجمَي ٣٢ و٧٠ مليار، هو الخيار الصحيح لواجهة الأسئلة والأجوبة التفاعلية حيث يسأل المحلّل أسئلة متابعة عبر القاعدة المعرفية المتراكمة. سلوكه الاستدلالي المُهيكل هو ما تحتاجه تجربة المحلّل، حتى وإن تولّى Falcon وQwen الاستخراج الأعلى في السلسلة.

العائلات الثلاث جميعاً مفتوحة الأوزان وتعمل معزولة الشبكة بالكامل. لا تستلزم أيّاً منها نبضاً من بائع. تملك الجهة ملفّ الأوزان والمدخلات ومنظومة التقييم. يُسحب التحديث ويُوقَّع ويُختبر بإيقاع داخلي بدلاً من فرضه عن بُعد.

واقعية النشر معزول الشبكة

نظام الفرز بمستوى دفاعي معزول الشبكة لا لأن النشرة التسويقية قالت ذلك. هو معزول لأن المصادر تشمل وسائط مضبوطة ووثائق مستمدّة من الاعتراض ومنتجات تشاركها جهات شريكة، وقواعد تداولها تحظر تعرّضها لشبكة عامة. لا بدّ للبنية أن تحترم هذا الواقع في كل طبقة.

يُشحن النشر كحزمة موقّعة: نظام تشغيل، قاعدة Linux مصلَّبة، صور حاويات، أوزان نماذج، محرّكات OCR، تبعيات، ومرآة حزم غير متّصلة. تُحقَّق الحزمة قياساً على بصمة منشورة، وتُحمَّل مرة واحدة عبر صمام بيانات أحادي الاتجاه إلى الجَيب المصنَّف. منذ تلك اللحظة، لا يتصل النظام خارجياً مطلقاً. تتبع التحديثات المسار نفسه بإيقاع موثّق (شهرياً عادة لرقع الأمان وفصلياً لتحديث النماذج) وتُختبر في جَيب غير إنتاجي قبل الترقية.

التخزين مشفّر بمفاتيح على وحدة أمان عتادية تملكها الجهة. السجلات محلية وتنجو من تبدّل المشغّلين. سياسة الاحتفاظ تتوافق مع نظام التصنيف القائم. المبدأ العام للحوسبة المصلَّبة على الشبكات المصنّفة (سواء عبّرت عنه فصول من نمط SIPRNet الأمريكي أو ضوابط منشآت من نمط ICD-705) واضح: افترض أن الإنترنت العامّ غير موجود، وصمّم كل إجراء تشغيلي للعمل بدونه. الفرز بالذكاء الاصطناعي يلائم هذه الوضعية بنظافة لأن المنظومة المفتوحة الحديثة مصمّمة للعمل بلا اتصال.

دمج النظام في تدفّق عمل المحلّل

يُحكَم على نظام الفرز بما يفعله المحلّل به، لا بما ينتجه النموذج معزولاً. ثلاثة قرارات تكامل تشكّل هذه التجربة.

الأول طابور لا محادثة. الواجهة الافتراضية طابور عمل مرتّب بعناصر مهيكلة، لا حوار حرّ. للحوار الحرّ مكانه (يقع على واجهة أسئلة المحلّل، انظر DeepSeek R1 أعلاه)، أما العمل اليومي ذو الحجم الكبير فيجري في طابور يدفعه المحلّل بسرعة: قراءة، تأجيل، تصعيد، أرشفة، تأشير خطأ، بضغطة مفتاح واحدة لكل منها.

الثاني تلخيصات مُسنَدة. كل تلخيص في الطابور يحوي روابط إلى المقاطع الأصلية التي بُني عليها. يرى المحلّل النصّ العربي بجوار التلخيص مع تظليل المقطع المستشهَد به. يحرّك المؤشّر فوق جملة في التلخيص فيرى مصدرها. هذا ما يتيح للمحلّل أن يثق بالطابور بسرعة، وما يحمي من اختلاق طليق.

الثالث تغذية راجعة تطوّر النظام. كل تصحيح من المحلّل (كيان خاطئ، ادعاء فائت، لهجة سيّئة القراءة، تلخيص ضعيف) يُلتقط كإشارة مهيكلة. تغذّي هذه الإشارات الاسترجاع (أمثلة أفضل للسياق الداخلي) وضبطاً موجّهاً دورياً للنواة العربية. يتكيّف النموذج مع التصنيف والمفردات وعتبة الأهمية الخاصّة بالوحدة، بدلاً من أن يتوسّط في خطّ أساس عام.

الدمج ليس بريّاقاً. يبدو كأداة إدارة حالات مبنية بإتقان مع اختصارات لوحة مفاتيح سريعة جدّاً ونموذج في الخلف. هذا هو المقصود. النموذج يتلاشى داخل تدفّق العمل.

التقييم وفِرَق الاختبار العدائي

لا يستطيع مشترٍ دفاعي تقييم نظام كهذا بمعايير البائعين وحدها. ثلاث مسارات تقييم تجري بالتوازي منذ اليوم الأول للنشر.

المسار الأول استرجاع المعيار الذهبي. تحتفظ الوحدة بمجموعة وثائق تاريخية مجمَّدة مع جواب موثّق كتبه محلّل: الأولوية الصحيحة، الكيانات الصحيحة، التلخيص الصحيح، التجميع الصحيح. كل تغيير في النموذج أو المُدخَل يُختبر على هذه المجموعة قبل أن يقترب من الإنتاج. تُحدَّث المجموعة فصلياً بمواد جديدة كي لا تتقادم. تنفع المعايير العامة مثل KITAB-Bench لفرز البائعين، لكنها لا تستبدل أبداً مجموعة ذهبية خاصّة بالوحدة.

المسار الثاني التغذية الراجعة الحيّة من المحلّلين. كل عنصر مفروز يُعرض على المحلّل مع مسار «هذا خطأ» بضغطة واحدة. تجميع هذه الإشارات حسب الموضوع والنموذج وإصدار المُدخَل هو مقياس الصحة التشغيلية. النموذج الذي يحرز جيداً على المجموعة الذهبية ويتراجع على التغذية الحيّة هو الإنذار المبكّر بأن شيئاً تبدّل في توزيع المصادر.

المسار الثالث الاختبار العدائي. فريق داخلي صغير يُنتج مدخلات مصمّمة لكسر النظام: حقن مدخلات داخل الوثائق، خلطات لهجية لم يرها النموذج كثيراً، أسماء منقحرة مصمّمة لإرباك ملفّ المرجع، ضوضاء OCR مصطنعة لقلب تصنيف. تتغذّى النتائج في مجموعة اختبار انحدار وفي ذخيرة الضبط الموجّه. يجري هذا المسار باستمرار لا كتمرين سابق للنشر فحسب.

نظام فرز يشغّل المسارات الثلاث ويتصرّف على نتائجها سيتحسّن بمرور الوقت. نظام لا يشغّل أيّاً منها سيتعفّن بصمت. الانضباط، أكثر من اختيار النموذج، هو ما يفرّق بين نشر مفيد وقطعة في متحف الشراء.

إن كانت مديريتك الدفاعية تحدّد حجم نظام فرز عربيّ الأساس، فالخطوة التالية لقاء قصير بساعة مفصّل على متطلّبات التزامن والتصنيف والتكامل لديكم. راسلونا على [email protected] أو على واتساب +968 9889 9100. سنأتي إليكم في مسقط أو في أي مكان في الخليج، ونمشي معكم في البنية والنماذج ومنظومة التقييم وخطّة جادّة قياساً على جدولكم. السعر بحسب الطلب، يُحدَّد على متطلّبكم تحديداً.

أسئلة شائعة

هل يحلّ الذكاء الاصطناعي محلّ المحلّل البشري في الفرز؟

لا. هدف النظام هو الترتيب والتلخيص والإبراز فقط، وليس اتخاذ القرار. كل تقدير يخرج من الوحدة يحمل اسم محلّل بشري. مهمة النظام أن يقلّص الكومة غير المقروءة حتى يصرف المحلّل وقته في الحكم لا في القراءة الميكانيكية. كل نشر يحاول إقصاء المحلّل يفشل في التدقيق وفي الميدان معاً.

كيف يتعامل النظام مع اللهجات والكتابة المختلطة ونقحرة الأسماء؟

النماذج العربية المتخصصة مثل Falcon Arabic تتولى تغطية اللهجات. الكتابة المختلطة تُعالَج بتمرير الفقرة عبر النموذج العربي ونموذج متعدد اللغات معاً ثم التوفيق بين المخرجات. النقحرة تُعالَج عبر جدول مطابقة قطعي تملكه الوحدة وتدقّقه يدوياً، لا عبر مكتبة مغلقة.

هل يعمل النظام بدون أي اتصال بالإنترنت؟

نعم. تُشحن النماذج ومحركات OCR وكل التبعيات في حزمة موقّعة تُحمَّل مرة واحدة عبر صمام بيانات أحادي الاتجاه. التحديثات تتبع المسار نفسه بإيقاع موثّق. النظام لا يتصل خارجياً مطلقاً، لذا تبقى السجلات والمدخلات والتمثيلات الوسيطة داخل المحيط بحكم البنية.

ماذا عن جودة OCR العربي على المصادر الرديئة؟

أنظمة OCR العربية الحديثة متعددة الوسائط، ومنها عائلتا QARI وQalam، تصل إلى معدّلات خطأ كلمة قريبة من واحد إلى اثنين بالمئة على المطبوع النظيف وتظل قابلة للاستخدام على المسحوب الرديء. المدخلات الصعبة تُحوَّل تلقائياً إلى مراجع بشري مع درجات ثقة مرفقة كي يرى المحلّل أين كان النظام مرتاباً.

بم يختلف هذا عن استخدام Palantir Foundry للعمل ذاته؟

Foundry منصة قادرة، لكنها برمجية أجنبية بمسارات دعم وتعرّض قانوني أجنبيين. الذكاء الاصطناعي السيادي محلي النشر يبقي الأوزان ومسار المعالجة والمشغّلين داخل الجهة. يمكن أن يتعايش Foundry على المنظومات المصنّفة، أما نواة الفرز العربية فمن مصلحة الجهة أن تكون محلية ومفتوحة الأوزان.

من المسؤول حين يخطئ النموذج في التصنيف؟

سلسلة المسؤولية لا تتغيّر. المحلّل الذي يوقّع التقدير هو المسؤول. النظام يسجّل إصدار النموذج وقالب المُدخل والسياق المسترجَع وتعديلات المحلّل، فيمكن تتبّع الخطأ إلى منشئه وتصحيحه أعلى السلسلة.