التعرف الضوئي على الحروف العربية لبرامج رقمنة الأرشيف الوزاري

تجلس كل وزارة عُمانية فوق عقود من الورق: مراسيم وزارية، ومراسلات داخلية، ومذكرات موقّعة، وملفات مشاريع، وملفات موظفين، وعقود، ومحاضر لجان. بعضه خط نسخ حديث نظيف على ورق رسمي مطبوع بالليزر، ومعظمه مختلط: نسخ كربونية باهتة، وملاحظات يدوية على الهامش، وأختام تنزّ خلف الصفحة، وصفحات آلة كاتبة من قبل عام ٢٠٠٠ بحروف مكسورة. لا يستطيع برنامج رقمنة جاد أن يتجاهل هذه الفوضى، بل يحتاج إلى سلسلة OCR عربية مصمّمة لها، تعمل داخل الوزارة، وتُحكم لأفق خمسين عاماً. هذه المقالة هي الشكل التشغيلي لتلك السلسلة.

١. حجم الأرشيف الوزاري العُماني

تضع هيئة الوثائق والمحفوظات الوطنية الإطار القانوني لكل الوثائق الحكومية في عُمان عبر قانون الوثائق والمحفوظات ولائحته التنفيذية. ومنظومة "وصول" لإدارة الوثائق الإلكترونية بدأت تعمل لدى عدد من الوزارات، غير أن الأرشيف الورقي الذي يسبق "وصول" هو الذي يهيمن على أي خطة رقمنة.

يبيّن أرشيف وزاري نموذجي ثلاث طبقات تقريبية:

  • طبقة ما قبل ١٩٩٠. طباعة عربية على ورق شفّاف، ونسخ كربونية إنجليزية للمراسلات الخارجية، وحواشٍ وزارية بخط اليد. عدائية لـOCR: خطوط حروف ناقصة، ونزّ حبر، وأكسدة ورق، ومسافات غير منتظمة.
  • طبقة ١٩٩٠ إلى ٢٠١٠. طباعة نفّاثة ومصفوفة نقطية، ونسخ فاكس، وأول وثائق Word طُبعت ثم أُعيد حفظها. جودة مختلطة، وأبرز مخاطرها أن الأختام والتواقيع تعلو النص.
  • طبقة ما بعد ٢٠١٠. ملفات PDF رقمية المنشأ من Microsoft Word وOffice، ممسوحة بدقة أعلى، بطباعة أنظف. ودودة لـOCR، لكنها مليئة بنماذج وجداول وتواقيع مدمجة.

وحجم وزارة واحدة يصل واقعياً إلى ملايين الصفحات حين تُجمع المراسيم وملفات الموارد البشرية وأرشيف المشاريع ومحاضر اللجان. مشروع إعادة كتابة يدوي بحت لا ينتهي خلال عمر إنسان. OCR ضرورة، والسؤال هو كيف نُنجزه دون إرسال ورق عُماني سرّي إلى سحابة أجنبية.

٢. سلسلة OCR (Surya وTrOCR وTesseract)

لا يوجد محرك OCR واحد يفوز عبر الطبقات الثلاث، والمكدس العملي لعام ٢٠٢٦ يجمع ثلاثة محركات:

  1. التخطيط وترتيب القراءة: Surya. يتعامل مع ترتيب القراءة من اليمين إلى اليسار، ومع المراسيم متعددة الأعمدة، وكشف الجداول. ويذكر تقييم KITAB-Bench 2025 أن Surya يحقق نحو ٧٠٪ مقياس Jaccard على كشف التخطيط العربي، وهي نتيجة منافسة للصفحات الحديثة.
  2. الطباعة العربية الحديثة: Tesseract Arabic مع قاموس مخصص للمصطلحات الوزارية (أسماء الإدارات، والمفردات الإدارية، وأسماء الأماكن). اقتصادي، ويعمل على المعالج فقط، وكافٍ على طبقة ما بعد ٢٠١٠.
  3. اليدوي والصفحات الصعبة: نموذج TrOCR-Arabic مُحسَّن، أو نموذج رؤية لغوي محلي من عائلة Qwen-VL أو Gemma-VL يعمل على نفس جهاز GPU المعزول. ويظهر KITAB-Bench أن نماذج الرؤية اللغوية تخفض معدل الخطأ على الصفحات العربية الصعبة بنحو ٦٠٪ مقارنة بالـOCR التقليدي.

يختار الموجِّه المحرك المناسب لكل صفحة بحسب سمات التخطيط (كاشف الخط اليدوي، عدد الخطوط، درجة جودة الصورة). والصفحات التي تنخفض ثقتها تحت عتبة معيّنة تُحوَّل إلى طابور مراجعة بشري، حيث يصحّح المراجع ناطق بالعربية النص ويُغذَّى التصحيح كبيانات ضبط دقيق. وبعد ثلاثة أشهر من التشغيل، يتأقلم النموذج مع ورق الوزارة وخطوطها وأنماط أختامها.

٣. ما بعد OCR: الكيانات والتصنيف والتقطيع الدلالي

النص الناتج عن OCR الخام ليس مفيداً بعد. مرحلة ما بعد OCR هي ما يجعل الأرشيف قابلاً للبحث وللحوكمة وجاهزاً لمساعدي الذكاء الاصطناعي. ثلاث خطوات تجري على نفس الجهاز المحلي:

  • التعرف على الكيانات المسماة. يُوسم كل صفحة بنموذج كيانات عربي للأشخاص والمؤسسات والوزارات والأماكن وأرقام المراسيم والتواريخ (الهجري والميلادي) وأرقام الملفات والمبالغ. وتشكّل أدوات CAMeL Tools وAraBERT-NER نقاط انطلاق شائعة، ويمكن ضبطها على بضعة آلاف من الأمثلة الموسومة وزارياً.
  • تصنيف الوثائق. يُسند مصنّف صغير مُحسَّن لكل حزمة ممسوحة نوعاً (مرسوم، مذكرة، عقد، ملف موارد بشرية، محضر، مراسلة) ودرجة حساسية (عام، داخلي، مقيّد، سرّي). ويوجّه التصنيف الملف إلى قاعدة الاستبقاء وقائمة التحكم في الوصول الصحيحتين.
  • التقطيع الدلالي والتضمينات. يُقطَّع نص OCR عند حدود الأقسام ويُضمَّن بنموذج ثنائي اللغة (عربي وإنجليزي). تعيش المتجهات في فهرس محلي بـQdrant أو Milvus، وتغذّي مساعدي البحث المعزز بالاسترجاع لموظفي الوزارة. ونفس البنية التي تُشغّل defence AI Arabic triage في الطبقات السرّية تُشغّل البحث الوزاري في الطبقات غير المقيّدة.

وبإمكان منصة "معين"، النظام الوطني المشترك للذكاء الاصطناعي في عُمان، استيعاب الطبقات غير المقيّدة لخدمات مشتركة بين الوزارات، فيما تبقى الطبقات المقيّدة والسرّية داخل جهاز الوزارة ذاتها.

٤. الحوكمة طويلة الأمد (PDF/A-3 وبصمات السلامة)

يُحكم على برنامج الرقمنة في ٢٠٧٦ لا في ٢٠٢٦. ثلاثة خيارات حوكمية تُبقي الأرشيف حياً:

  • تغليف PDF/A-3. تُحفظ كل حزمة مرقمنة بصيغة ISO 19005-3، مع المسح الأصلي طبقةً مرئية، ونص OCR طبقةً مخفية قابلة للبحث، والبيانات المهيكلة (الكيانات، التصنيف، فئة الاستبقاء) ضمن XMP. وتسمح PDF/A-3 أيضاً بحمل TIFF الأصلي مرفقاً داخل الملف، فتتحقق قاعدة "حفظ الأصل" التي تطبّقها هيئة الوثائق.
  • بصمات SHA-256. تُبصم كل صورة صفحة وكل طبقة نص OCR وكل ملف PDF/A-3، وتُسجَّل البصمة في دفتر إلحاقي فقط. أي عبث ببايت واحد يُبطل السلسلة، ويستطيع مدقق تقني وزاري بعد عشرين عاماً أن يعيد البصم ويثبت السلامة في دقائق.
  • خطة هجرة الصيغ. كل خمس سنوات، يُتحقق من توافق الأرشيف مع أحدث ملف PDF/A وتُهاجَر الملفات إلى الأمام. وسلسلة الهجرة هي نفسها سلسلة الإدخال، فتتحوّل الهجرة إلى شيفرة مُتمرّن عليها لا إلى عمليات بطولية.

وفي كل ذلك، تظل القاعدة هي قاعدة المقالة الأم: لا يغادر النموذج ولا التضمينات ولا سجل التدقيق ولا المسوحات الأصلية الأرض العُمانية. تشغّل الوزارة الجهاز، وتحتفظ بالمفاتيح، وتستطيع إلغاء أي حساب مشغّل خلال ثوانٍ.

تواصل معنا

إن كنت تخطّط لبرنامج رقمنة وزاري، أو تحديث سجلات بمواءمة هيئة الوثائق، أو تجربة على مستوى مديرية واحدة، راسلنا على [email protected] لجلسة إحاطة لساعة. نأتي بأرقام إنتاجية لأحمال OCR عربية مماثلة، وبخطة نشر سيادية تنسجم مع قانون الوثائق والمحفوظات.

أسئلة شائعة

لماذا لا نستخدم خدمات OCR السحابية مباشرة؟

لأن الأرشيف الوزاري يضم وثائق سرّية ومقيّدة وبيانات شخصية لا يجوز خروجها من عُمان بموجب قانون حماية البيانات الشخصية وقانون الوثائق والمحفوظات. خدمات OCR السحابية ترفع كل صفحة إلى مراكز بيانات المزود، وقد تحتفظ بها لتحسين النماذج. السلسلة المحلية تبقي كل صفحة وكل تضمين وكل سجل تدقيق داخل شبكة الجهة.

أي محرك OCR هو الأنسب للوثائق الحكومية العربية؟

لا يوجد محرك واحد يكفي. السلاسل الحديثة تجمع ثلاثة محركات: Surya للتخطيط وترتيب القراءة، وTrOCR-Arabic أو نموذج رؤية لغوي للنصوص اليدوية النسخية، وTesseract Arabic كخط أساس اقتصادي للصفحات المطبوعة الحديثة. وأظهر تقييم KITAB-Bench لعام ٢٠٢٥ أن نماذج الرؤية اللغوية تتفوق في معدل الخطأ، بينما يبقى Surya قوياً في تحليل التخطيط.

هل نحتاج إلى إعادة كتابة الملفات اليدوية أم يكفي OCR؟

يصل OCR العربي اليدوي اليوم إلى دقة تتراوح بين ٨٨ و٩٤ بالمئة على خطّي النسخ والرقعة النظيفين، وهو ما يكفي لبناء فهرس قابل للبحث، لكنه لا يحل محل الأصل. النمط السليم هو التخزين المزدوج: نص قابل للبحث مع الصورة الأصلية، وطابور مراجعة بشري للوثائق العالية القيمة.

كيف نحفظ الأرشيف المرقمن على المدى الطويل؟

صيغة PDF/A-3 هي صيغة الأرشفة المعيارية. تُغلَّف كل وثيقة مرقمنة بصيغة PDF/A-3 مع وضع المسح الأصلي طبقةً مرئية، ونص OCR طبقةً مخفية قابلة للبحث، والبيانات الوصفية المهيكلة (الكيانات والتصنيفات والبصمات) ضمن XMP. وتُختم كل صفحة ببصمة SHA-256 تُسجَّل في دفتر غير قابل للكتابة لاحقاً، فيُكتشف أي تلاعب لسنوات.