معالجة اللغة العربية لرقمنة الأرشيف الحكومي العُماني

كل وزارة عُمانية وكل جهة رقابية وكل محكمة وكل أمانة قصر ملكي تجلس فوق عقود من الورق. مراسيم بالخط النسخي من السبعينيات. مذكّرات نسخ كربونية من الثمانينيات. ملفات أراضٍ مرسلة بالفاكس من التسعينيات. ملفات PDF ممسوحة بجودة متفاوتة من الألفية الجديدة. تحويل هذا الجدار من الورق إلى أرشيف سيادي قابل للبحث هو من أعلى مشاريع الذكاء الاصطناعي قيمةً يمكن للمؤسسة العُمانية تنفيذها، وهو بالضبط من النوع الذي يجب ألّا يغادر المبنى. هذه المقالة تشرح سلسلة OCR+NLP التي تجعل المهمة قابلة للتنفيذ، والبنية المحلية التي تحفظ سيادتها.

١. مشكلة حجم الأرشيف العُماني

الأرشيف الوزاري العُماني النموذجي يتكوّن من ثلاث طبقات متراكبة. الطبقة الأقدم، ما قبل 1980، مكتوبة غالباً بالخط النسخي اليدوي على ورق رسمي، مع أختام وزارية حمراء وحواشٍ هامشية وتواريخ هجرية فقط. الطبقة الوسطى، 1980 إلى 2005، طباعة بالآلة الكاتبة أو طابعات نقطية مبكرة، كثيراً على ورق NCR كربوني باهت بحبر متفاوت. الطبقة الأحدث ملفات PDF ممسوحة من طابعات شبكية متعدّدة الوظائف، خليط من 200 و300 نقطة لكل بوصة، دون أي طبقة نص.

ثلاث خصائص تجعل هذا الأرشيف صعب الرقمنة:

  • محتوى متعدّد الكتابة. المراسيم ثنائية اللغة تخلط نصاً عربياً بأسماء شركات إنجليزية وأرقام سجل تجاري لاتينية وتواريخ هجرية وميلادية جنباً إلى جنب.
  • جودة مسح متفاوتة. ملف واحد قد يحتوي مسحاً ملوّناً نظيفاً لرسالة غلاف، ونسخة باهتة لملحق، وصورة TIFF مأخوذة عن ميكروفيلم لمرفق أقدم.
  • كثافة الخط المتّصل والروابط. الكتابة العربية متّصلة بطبيعتها، وتتغيّر الحروف بحسب موقعها وتتراكب عبر الروابط، مما يكسر أي محرّك OCR ضُبط على الكتابات اللاتينية.

الكلفة المؤسسية لإبقاء هذا الأرشيف معتماً كلفة ملموسة. الباحث يقضي أسابيع في تتبّع مرسوم واحد. النزاعات على الأراضي تتأخّر لأن الحكم الأصلي من الثمانينيات لا يُعثَر عليه. المسؤولون الجدد يفقدون الذاكرة المؤسسية لأن مراسلات أسلافهم غير قابلة للبحث. موقف Hosn واضح: هذا تماماً ما وُجد له الذكاء الاصطناعي المحلي للمؤسسات السيادية في عُمان والخليج.

٢. سلسلة OCR ومعالجة اللغة

السلسلة العاملة تتكوّن من خمس مراحل، تعمل جميعها داخل محيط المؤسسة:

  1. الاستيعاب وتحسين الجودة. تدخل الصفحات بصيغ PDF أو TIFF أو JPEG. تُعدَّل ميلاناً، تُزال ضوضاءها، تُحوَّل الصور المختلطة إلى ثنائية، وتُقسَّم الوثائق متعدّدة الصفحات على دبّاسات الورق أو على ترويسة الجهة.
  2. تحليل التخطيط. نموذج رؤية يحدّد المناطق: ترويسة، متن، مكان توقيع، ختم، حاشية هامشية، جدول. هذا الفرق بين استخراج نص نظيف وبين خلط الأختام والحواشي بمتن النص.
  3. التعرّف الضوئي أو على الكتابة اليدوية. الصفحات المطبوعة آلياً تُوجَّه إلى Tesseract 5 مع نموذج LSTM عربي مضبوط. الصفحات اليدوية تُوجَّه إلى محرّك تحويلات مثل HATFormer أو محرّك السطر الموصوف في Invizo.
  4. التطبيع الكتابي. يُطبَّع الناتج: توحيد صور الألف، إزالة الكشيدة، الاحتفاظ بالحركات أو إزالتها بحسب المهمة، وتحويل الأرقام الهندية إلى الأرقام الغربية اختيارياً.
  5. التعرّف على الكيانات والفهرسة. نموذج NER عربي مضبوط على المراسلات الحكومية يستخرج الأشخاص والوزارات والأماكن والتواريخ وأرقام المراسيم والمبالغ. تذهب هذه إلى فهرس بحث إلى جانب النص النظيف وتمثيل متّجه للبحث الدلالي.

كل مرحلة قابلة للمراجعة وإعادة التشغيل بمفردها. عند صدور محرّك تعرّف أفضل، تعيد الجهة معالجة الصفحات الفاشلة فقط لا الأرشيف بأكمله.

٣. تحدّيات خاصّة بالعربية

التعرّف الضوئي على العربية ليس مسألة محسومة كما هو الحال للإنجليزية. أربع خصائص تقود الصعوبة:

  • الروابط المتّصلة. الحروف تتّصل افتراضاً وتتغيّر صورتها بحسب الموقع. مُجزّئ مبني للكتابات اللاتينية يقطع الحروف في منتصف الرابطة وينتج كلاماً غير مفهوم.
  • التشكيل الاختياري. الحركات القصيرة تظهر في القرآن الكريم وفي المراسلات الرسمية لكنها غائبة عادةً في المذكّرات الحديثة. على المحرّك أن يتعامل مع الحالتين، وعلى طبقة المعالجة اللاحقة ألّا تعتبر وجود التشكيل أو غيابه تغيّراً في المعنى.
  • تنوّع الخط النسخي اليدوي. الكاتب نفسه قد ينتج صور حروف مختلفة جداً عبر وثيقة طويلة. مُحرّكات تاريخية مثل HATFormer دُرِّبت على ملايين صور السطور الاصطناعية تحديداً لأن البيانات اليدوية الحقيقية شحيحة.
  • خطوط الطباعة القديمة. خطوط الآلة الكاتبة في السبعينيات والثمانينيات والخطوط الرقمية المبكّرة المشتقّة من النسخ تقع كثيراً خارج توزيع تدريب نماذج OCR المضبوطة على عربية الويب الحديثة. الأرشيفات السيادية تحتاج دائماً تقريباً إلى ضبط دقيق على عيّنة داخلية صغيرة لرفع الدقة على هذه الخطوط القديمة.

طبقة المعالجة اللاحقة تضيف تحدّياتها. نماذج NER العربية المبنية على AraBERT وعائلة ANER تتعامل مع نصوص الأخبار الحديثة جيّداً، لكنّ الأسلوب الوزاري والتواريخ الهجرية وصيغ أرقام المراسيم تحتاج ضبطاً دقيقاً على عيّنات أرشيفية مُعنوَنة. بضعة آلاف من الصفحات المعنوَنة من أرشيف الجهة نفسها ترفع F1 عادةً إلى مستوى صالح للإنتاج.

٤. بنية النشر المحلي

نشر أرشيفي سيادي يحتوي ثلاث مستويات تنطبق على جهاز Hosn:

  • مستوى الحوسبة. تحليل التخطيط وOCR وHTR وNER تعمل جميعها على عقدة GPU محلية تستضيف أيضاً نموذج اللغة العربي العام للجهة. المهامّ الدفعية تستغل الساعات الخاملة، والاستعلامات التفاعلية تستغل الطاقة الفائضة نهاراً.
  • مستوى التخزين. الصور الخام في تخزين كائنات بارد. النص النظيف وكيانات NER والتمثيلات في مخزن مفهرس بجوار الصفحات الأصلية. ملفّ توقيع موقَّع يحفظ سلسلة الحيازة من المسح الأصلي إلى الكيان المستخرج، وهو ما يجعل النتيجة قابلة للدفع بها قانونياً.
  • مستوى الوصول. يستعلم الباحثون عبر بوابة داخلية تُعيد النتائج مظلَّلةً داخل صورة الصفحة الأصلية، لا نصاً خاماً وحده. التحكّم بالأدوار يطبّق قواعد التصنيف فلا يرى الباحث ذو الصلاحية الإدارية الصفحات السرية الوزارية.

تفصيلتان تشغيليتان تهمّان. الأولى: مهمّة الفهرسة قابلة لإعادة التشغيل، فحين يُعاد تدريب محرّك التعرّف على عيّنات خطوط الجهة، تعيد السلسلة معالجة فئات الوثائق المتأثّرة فقط لا الأرشيف بأكمله. الثانية: تكتب كل مرحلة في سجلّ تدقيق بإلحاق فقط، حتى تستطيع الجهة الرقابية لاحقاً الإجابة عن من رأى أي صفحة ومتى. هذا الموقف هو ما يفصل مشروع الأرشيف عن التجربة العلمية.

احجز جلسة عمل لأرشيفك

إذا كنت تدير وزارة أو جهة رقابية أو محكمة أو أمانة قصر ملكي ما زالت تجيب على أسئلة الثمانينيات من غرفة ورق، فمشكلة OCR+NLP قابلة للحلّ بالتقنية الحالية، وقابلة للحلّ محلياً. راسلنا على [email protected] لجلسة لمدّة ساعة. أحضر شريحة تمثيلية من أرشيفك، مُنقَّحة بحسب الحاجة، ونمشي معك في السلسلة على موادّك الفعلية لا على عرض مبيعات.

أسئلة شائعة

لماذا لا نستخدم خدمة OCR سحابية للأرشيف؟

تحتوي الأرشيفات الحكومية على ملفات موظفين ومراسلات مصنّفة وسجلات أراضٍ وقرارات وزارية تخضع لقانون حماية البيانات الشخصية ولقواعد التصنيف الوزاري. إرسال هذه الصور إلى خدمة OCR سحابية يعرّضها لاختصاصات قانونية أجنبية ولحفظ خارج سيطرة الجهة. التشغيل المحلي يبقي كل صفحة داخل محيط المؤسسة.

ما مدى دقة OCR العربي مفتوح المصدر على المواد الأرشيفية الحقيقية؟

على النصوص العربية المطبوعة الحديثة والنظيفة يصل Tesseract 5 مع نموذج LSTM المضبوط إلى دقة حروف عالية. أمّا على الطباعة القديمة بالآلة الكاتبة والنسخ الكربونية الباهتة والخط النسخي اليدوي فتنخفض الدقة بشكل ملحوظ. تسدّ هذه الفجوة محرّكات قائمة على المحوّلات مثل HATFormer وInvizo، مع طابور تحقّق بشري للوثائق عالية القيمة.

ماذا تستخرج طبقة NER فعلياً من نصوص الأرشيف العُماني؟

نموذج NER عربي مضبوط على المراسلات الحكومية يستخرج الأشخاص والوزارات والمديريات والأماكن والتواريخ الهجرية والميلادية وأرقام السجل التجاري وأرقام المراسيم والمراجع والمبالغ المالية. تصبح هذه الكيانات الفهرس الذي يسمح للباحث بالإجابة على استفسارات مثل ابحث عن كل مرسوم يشير إلى ولاية معيّنة بين 1985 و2000 خلال ثوانٍ بدل أسابيع.

هل يمكن تشغيل السلسلة في وضع معزول تماماً؟

نعم. تعمل نماذج التعرّف وNER والتمثيلات وفهرس البحث جميعها على الجهاز المحلي دون أي شبكة خارجية. تصل التحديثات في حزم موقّعة دون اتصال. ينطبق الأمر نفسه سواء كان الأرشيف داخل مركز بيانات وزاري أو غرفة آمنة لجهة رقابية أو أمانة قصر ملكي.