أنماط التعرف الضوئي على الحروف العربية وفرز الوثائق لقطاع الدفاع

طاولة فرز دفاعية في مسقط ليست طابوراً مرتّباً من ملفات PDF نظيفة. هي تدفّق من ورق مصوَّر بالهاتف، ومرفقات فاكس، وتقارير موقف ممسوحة بجودات متباينة، ولقطات شاشة من تطبيقات المحادثة، مع مذكّرات ميدانية مكتوبة بخط اليد بين الحين والآخر. أغلبها بالعربية. وشريحة معتبرة منها تخلط نصاً عربياً مع أسماء أماكن إنجليزية، ورموز نداء بحروف لاتينية، وأرقام هندية إلى جانب أرقام غربية. التعرّف الضوئي السحابي ليس خياراً على هذه المادة. يعرض هذا المقال خيارات التعرّف العربي مفتوحة المصدر التي تصمد أمام هذا الواقع، وطبقة الفرز التي تحوّل النص المُتعرَّف عليه إلى قائمة عمل موجَّهة ومرتَّبة الأولويات.

1. تحدّي التعرّف العربي في بيئة الدفاع

تجمع وثائق الفرز الدفاعي العربية أربع خصائص يكفي كلٌّ منها لكسر منظومة تعرّف ساذجة، وتجتمع غالباً في الصفحة ذاتها:

  • تعدّد الحروف. قد يحمل ملخّص اعتراض واحد سرداً عربياً، وتعريف وحدة بالإنجليزية، ورموز معدّات لاتينية، وأرقاماً هندية وغربية في الفقرة نفسها. لا بدّ من معالجة الاتجاهات المختلطة بشكل صحيح في طبقة التعرّف لا بعدها.
  • الالتقاطات اليدوية. تُكتب المذكّرات الميدانية وملخّصات استجواب المصادر والتعليقات الهامشية بخط نسخ متّصل، وأحياناً بأشكال حروف متفرّدة تتبدّل داخل الصفحة الواحدة.
  • مسح ضوئي رديء. تصل الصفحات صوراً مائلة بالهاتف، أو رمادية من الفاكس، أو ميكروفيلم، أو نسخاً كربونية بنزّ حبر. لا بدّ لمراحل تصحيح الميل وإزالة الضوضاء والتحويل الثنائي من القيام بعمل حقيقي قبل تشغيل التعرّف.
  • خطوط النسخ المتّصلة. تتّصل الحروف العربية افتراضياً وتتغيّر أشكالها بحسب الموضع. النماذج المدرَّبة على حروف لاتينية تقطع الحروف داخل الرابط، حتى النماذج المضبوطة على عربية الويب الحديثة تتراجع على خطوط النسخ القديمة الشائعة في الوثائق الوزارية.

الفرز هو ما تطلبه الجهة فعلياً من النظام: ليس نصاً خاماً، بل قائمة موجَّهة ومرتَّبة من الوثائق موسومة بنوعها وكياناتها وأولويّتها والمحلّل المسؤول عنها. التعرّف هو الأرضية. الفرز هو القيمة.

2. خيارات التعرّف مفتوحة المصدر للنشر المحلي

تغطّي ثلاثة محرّكات مفتوحة المصدر بين بعضها البعض توزيع وثائق الفرز الدفاعي، والمنظومة الفعّالة تستعمل الثلاثة:

  • Tesseract 5 مع نموذج LSTM العربي. هو حصان العمل لنصوص العربية المطبوعة النظيفة. أظهرت دراسة ضبطٍ على عيّنات خطوط عربية خفضاً في نسبة خطأ الحرف يصل إلى 61 بالمئة مقارنةً بالنموذج المعياري، فيما تشير دراسة مرجعية إلى متوسّط خطأ حرف بحدود 14 بالمئة ودقّة إجمالية قرب 88 بالمئة على المطبوع. Tesseract سريع، ودود مع المعالج المركزي، وسهل الإعادة محلياً.
  • Surya. أدوات تحويلية حديثة تشمل التعرّف وتحليل التخطيط وترتيب القراءة وتعرّف الجداول في أكثر من 90 لغة بينها العربية. تُسجِّل المراجعات المقارنة دقّة إجمالية قرب 97 بالمئة على مزيج متعدّد اللغات، وقرب 87 بالمئة على المكتوب باليد. هو المرحلة الثانية الصحيحة حين تتراجع ثقة Tesseract على صفحة بعينها.
  • TrOCR. نموذج تحويلي طرف إلى طرف يستخدم مرمِّزاً بصرياً تحويلياً ومفكِّك نصّ مدرَّب مسبقاً. حقّق TrOCR أحدث النتائج على مرجعيّات المطبوع وIAM اليدوي. مع ضبط عربي مخصّص يصبح المرشّح الطبيعي للمذكّرات الميدانية اليدوية وللمرفقات اليدوية التاريخية.

منطق التوزيع آلي. يُسمّي تحليل التخطيط كل منطقة. تُمرَّر المناطق المطبوعة إلى Tesseract أوّلاً، ثم إلى Surya عند تدنّي الثقة. تُمرَّر المناطق اليدوية إلى TrOCR. تُمرَّر الجداول إلى مُعرِّف الجداول في Surya. كل ذلك داخل الجهاز المحلي.

3. طبقة الفرز فوق التعرّف

النصّ المُتعرَّف عليه دون فرز ركام رموز. تُحوِّل طبقة الفرز ذلك الركام إلى قائمة قرارات، وتتألّف من ثلاثة مكوّنات:

  1. تصنيف الوثائق. مصنِّف عربي مضبوط يُسمّي كل وثيقة بنوعها: ملخّص اعتراض، أمر موقّع، تقرير موقف، مذكّرة مصدر، قصاصة من مصدر مفتوح، فاتورة موَرِّد، إحالة قضائية. تقود التسمية كل قواعد التوجيه التالية.
  2. التعرّف على الكيانات المسمّاة. نموذج عربي مضبوط على المراسلات الدفاعية يستخرج الأشخاص، الوحدات والتشكيلات، المواقع حتى مستوى الولاية والقرية، أنواع المنظومات والمعدّات، التواريخ هجرية وميلادية، أرقام الملفات، والمبالغ المالية. النموذج ذاته يتعامل مع المقاطع اللاتينية المضمَّنة (أسماء إنجليزية، رموز نداء) دون قلب الاتجاه.
  3. استخلاص الأحداث الكيانية. نموذج لغوي عربي أكبر يعمل محلياً، يقرأ النص النظيف ومقاطع الكيانات ويُخرج رباعيّات منظَّمة: فاعل، فعل، مفعول، مكان، زمان، ثقة المصدر. هذه الرباعيّات هي ما يستهلكه المحلّل فعلياً، وتُجمع في رسم بياني يبقى عبر الوثائق.

كل قرار فرز يحمل درجة ثقة. تُحال الوثائق منخفضة الثقة إلى قائمة تحقّق بشري مع صورة الصفحة الأصلية، وطبقة التعرّف، والتسميات المقترحة. تُمرَّر الوثائق عالية الثقة مباشرة إلى المحلّل المسؤول عن الموضوع. هذه الطبقة تُبرّر العزل عن الشبكة، وهي ما يجعل فرز وثائق الدفاع العربية بالذكاء الاصطناعي برنامجاً مقنعاً لا تجربة مخبرية.

4. نمط البنية

للنشر المحلي الفعّال أربع طبقات تنطبق على جهاز حصن:

  • طبقة الإدخال. تتغذّى من الماسحات وحافظات الإدخال ونقاط رفع المشغِّل. تعالج الميل والضوضاء، وتقسّم الحزم المتعدّدة الصفحات اعتماداً على الترويسة، وتكتب صورة الصفحة الأصلية إلى تخزين غير قابل للتعديل مع سلسلة عهدة محصَّنة بهاش.
  • طبقة التعرّف. يُوزِّع تحليل التخطيط المناطق على Tesseract أو Surya أو TrOCR. يُطبَّع الناتج: توحيد أشكال الألف، إزالة الكشيدة، الاحتفاظ بالتشكيل في حقول الاقتباس المصنَّفة، وتحويل اختياري للأرقام الهندية إلى الغربية.
  • طبقة الفرز. يعمل التصنيف واستخراج الكيانات وتجريد الأحداث على النص النظيف. تقود درجات الثقة التوجيه. يُسجّل سجلّ تدقيق كل ناتج نموذج، وكل قرار توجيه، وكل وصول محلّل.
  • طبقة الوصول. يستعلم المحلّلون عبر بوابة داخلية تُعيد النتائج المظلَّلة داخل صورة الصفحة الأصلية. تفرض الأدوار قواعد التصنيف. لا يغادر شيءٌ المحيط، ولا يصل شيءٌ إلى نموذج لم تعتمده الجهة.

5. منهجية التقييم بمدوَّنة مرفوعة عنها السرّية

لا يصحّ الوثوق بمنظومة التعرّف والفرز قبل قياسها. تبني الجهة مدوَّنة تقييم صغيرة من مادة مرفوعة عنها السرّية أو مادة اصطناعية تحاكي الإدخال الفعلي: 200 إلى 500 صفحة عبر أنواع الوثائق التي تردها الطاولة، موسومة يدوياً بحقيقة على مستوى الحرف والكيان والنوع. تُبلّغ المنظومة عن نسبة خطأ الحرف والكلمة في طبقة التعرّف، ومعيار F1 في طبقة الكيانات، ودقّة الترتيب الأول والثالث في المصنِّف، ودقّة واسترجاع الرباعيّات في استخلاص الأحداث. تعيد كل عملية استبدال نموذج تشغيل التقييم نفسه. الرقم الأهم طرف-إلى-طرف: كم مرّة تصل وثيقة جديدة إلى المحلّل الصحيح بكياناتها الموسومة بشكل صحيح. أيّ شيء دون ذلك معيار من المورِّد لا أكثر.

احجز جلسة عن طاولتكم

إن كنتم تُشغِّلون طاولة فرز دفاعية، أو خليّة تحليل أمن داخلي، أو وحدة بحث مكافحة إرهاب لا تزال توجّه الورق العربي يدوياً، فمنظومة التعرّف والفرز قابلة للبناء على نماذج مفتوحة المصدر اليوم، وقابلة للنشر محلياً. راسلونا على [email protected] لجلسة إيجاز مدّتها ساعة. أحضِروا شريحة تمثيلية من الإدخال، مع ما يلزم من تعتيم، ونعرض المنظومة على مادّتكم الفعلية لا على عرض مبيعات.

أسئلة متكرّرة

لماذا لا نستخدم خدمة تعرّف ضوئي سحابية لوثائق الدفاع؟

تتضمّن صفحات الفرز الدفاعي ملخّصات اعتراض، أوامر موقّعة، تقارير موقف، ومذكّرات مصادر. تمرير هذه الصفحات عبر واجهة سحابية يعرّضها لأنظمة قانونية أجنبية ولاحتفاظ خارج سيطرة الجهة. التعرّف المحلي يبقي كل صفحة داخل المحيط ويسجّل كل قراءة.

ما مدى دقة محرّكات التعرّف العربي مفتوحة المصدر على وثائق دفاعية حقيقية؟

على النصوص العربية المطبوعة الحديثة، تصل نماذج Tesseract 5 المضبوطة إلى نسبة خطأ على مستوى الحرف بحدود 14 بالمئة وعلى الكلمة بحدود 41 بالمئة. ترتفع نتائج Surya وTrOCR على المطبوع لكنّها لا تزال تحتاج ضبطاً على عيّنات الخطوط والخطوط اليدوية الخاصة بالجهة.

ما الذي تستخرجه طبقة الفرز ولا يستطيع التعرّف الضوئي وحده؟

التعرّف يعطي نصاً. الفرز يعطي قراراً. تصنّف الطبقة كل وثيقة (اعتراض، أمر، تقرير موقف، مذكّرة مصدر)، تستخرج الكيانات (أشخاص، وحدات، مواقع، منظومات، تواريخ)، وتستخلص رباعيّات حدثيّة (مَن فعل ماذا بمن، وأين، ومتى)، وتُسند تسمية توجيه فيرى المحلّل ما يلائم قائمته فقط.

هل تعمل المنظومة بالكامل في وضع معزول عن الإنترنت؟

نعم. تعمل محرّكات Tesseract وSurya وTrOCR ونماذج استخراج الكيانات العربية ونموذج الفرز جميعها على الجهاز المحلي دون أي اتصال خارجي. تصل تحديثات النماذج عبر حزم موقّعة تُرفع يدوياً. ينطبق ذلك سواء كان النشر داخل وزارة دفاع أو مديرية أمن داخلي أو خليّة مكافحة إرهاب.