أنماط الذكاء الاصطناعي لتحليل الصور والتحليل الجغرافي السيادي
يقضي محلّل الصور السيادي يومه في فيضٍ من البكسلات: مشاهد بصرية من أبراج الأقمار الصناعية التجارية، طبقات تحديد المواقع المستخلَصة من إشارات، وأرتال فيديو من طائرات الدوريّات الساحلية بدون طيار، مع فسيفساء جوّية تُلتقَط من حين لآخر لمهمّة بعينها. الحجم في تصاعد، وعدد المحلّلين ثابت، وسقف الفرز يجب أن يرتفع ليواكب الفيض. الذكاء الاصطناعي يُساعد، غير أنّ الأنماط الناجحة في مختبر تجاري ضخم لا تنتقل بسلاسة إلى بيئة دفاع سيادية. تُحدّد هذه الورقة ثلاثة أنماط للذكاء الاصطناعي للصور تصمد عند الانتقال إلى المحلي، والنماذج متعدّدة الوسائط التي تجعلها عملية، وموقف العزل وإبقاء المحلّل في المسار الذي يلزم لأي نشر سيادي جدّي. وهي مرافِقة لحالات الاستخدام في المقال الأمّ الذكاء الاصطناعي الدفاعي لفرز الوثائق العربية.
حجم العمل لدى محلّل الصور
يوم محلّل الصور ثلاثة أعمال متضافرة. الأوّل فرز الكميّة: تحديد أيّ من المشاهد المُكلَّف بها يستحق فعلاً نظرة بشرية. الثاني المقارنة: مقابلة مشهد اليوم بمشهد الأسبوع الماضي أو الشهر الماضي أو بخط الأساس المرجعي للجهة، وإبراز ما تغيّر. الثالث الصياغة: تحويل ما اختير من اكتشافات إلى منتج مكتوب (ملخّص يومي، تقرير استجابة لمهمّة تكليف، حاشية على ملف هدف) يستطيع قراءته من لا يجيد التحليل الجغرافي.
التخصّصات المجاورة تشترك في الشكل ذاته. محلّلو الإشارة الإلكترونية والاستخبارات الإشارية يفرزون حصاد الإشارات ويحدّدون مواقع المُرسلات ويصوغون ملخّصات سرديّة. ومشغّلو فيديو الطائرات بدون طيار يستعرضون ساعات من البثّ البصري والحراري بحثاً عن سلوكيات ذات أهميّة قبل اقتطاع الدقائق ذات الصلة للمراجعة. والناتج النهائي في كلّ حالة: بكسلات أقلّ، استنتاجات مكتوبة أكثر، مع قابلية تتبّع رجوعاً إلى الإطار المصدر.
ثلاثة أنماط ذكاء اصطناعي تعمل محلياً
ثلاثة أنماط تنتقل بثبات من أوراق البحث إلى الإنتاج السيادي. وهي تتكامل، لا يُلغي بعضها بعضاً.
- كشف الكائنات. يفحص نموذج متخصّص (Faster R-CNN أو DETR أو ضبط متخصّص في الاستشعار عن بُعد لفئة YOLO) كلّ مشهد بحثاً عن كيانات تهمّ الجهة: السفن بحسب فئة الطول، والطائرات على المرابض، والمركبات على مقطع طريق، ومزارع الهوائيات، وآثار البناء الجديد. والمخرَج صناديق إحاطة مع درجات ثقة. دقيق بكسلياً، واعٍ بالأطياف، وسريع بما يكفي لتشغيله على كلّ مشهد وارد.
- كشف التغيّرات. يُغذَّى زوج من المشاهد المُسجَّلة مكانياً (اليوم مقابل خط الأساس، أو أسبوعياً، أو قبل/بعد حادثة) إلى شبكة كشف تغيّرات سياميّة أو قائمة على المحوّلات، فيكون المخرَج خريطة حرارية لـ«مواضع اختلاف العالم»، مُصفّاة من ضوضاء الفصول والغلاف الجوّي. يُبرز هذا النمط البناء الجديد، ووصول السفن ومغادرتها، وتحرّكات المركبات، وتقدير الأضرار بعد حادثة، دون أن يحدّق المحلّل في مشهدَين متجاورَين ساعةً كاملة.
- صياغة التقارير السرديّة. تُغذَّى الاكتشافات وخرائط التغيّر والبيانات الوصفية إلى نموذج رؤية ولغة يُسوِّد ملخّصاً نثرياً منظّماً (الموقع، الكيانات المرصودة، الفروق عن خط الأساس، التكاليف اللاحقة المقترحة)، ثمّ يحرّر المحلّل ويوقّع ويُصدر. ولا يُنتج النموذج المنتج النهائي وحده.
يُطابق هذا الترتيب ما يبيعه اليوم كبار مزوّدي حلول التحليل الجغرافي للنشر السيادي. ويصف برنامج Maven التابع لـ NGA الطبقات الثلاث ذاتها (كشف رؤية حاسوبية، استخراج تغيّرات، عزو سرديّ) باعتبارها جزءاً من سير عمل تحليلي معتاد.
نماذج اللغة متعدّدة الوسائط لوصف الصور
طبقة الصياغة هي حيث تثبت نماذج الرؤية واللغة موقعها. النماذج مفتوحة الأوزان من عائلة Qwen2.5-VL، ثمّ سلسلة Qwen3-VL الأحدث بسياق متشابك أصلي يصل إلى ٢٥٦ ألف رمز، تعمل بأريحية داخل المحيط السيادي. تستقبل صورة (أو رزمة مشاهد مرتبطة) مع موجِّه منظَّم، وتُنتج تعليقات وقوائم كيانات موصوفة ومخرجات حقول مهيكلة يستطيع المحلّل وضعها مباشرة في مسوَّدة تقرير.
ما يغيّره النشر السيادي ليس بنية النموذج بل شكل النشر. الأوزان نفسها التي تخدمها واجهة تجارية عبر الإنترنت يمكن تكميمها إلى int4 أو int8، وتعبئتها مع زمن تشغيل vLLM أو TGI، وتشغيلها على عقدة داخلية من H100 أو H200 أو RTX 6000 Ada. جودة الوصف على صور الاستشعار عن بُعد أدنى من النماذج المتخصّصة في المهامّ الصعبة (التعرّف على كائنات دون المتر، التصنيف متعدّد الأطياف)، وقريبة من المُماثل التجاري في الوصف العام للمشهد والصياغة المهيكلة. والموقف العملي: أبقِ نماذج الكشف المتخصّصة، وأضف نموذج الرؤية واللغة في طبقة الصياغة فقط، ولا تجعل نموذج الرؤية واللغة هو سجلّ الحقيقة لما في المشهد.
واقع النشر داخل بيئة معزولة
الصور السيادية بحدّ ذاتها حسّاسة. المشاهد والاستعلامات ووتيرة انتباه المحلّل معلومة استخبارية في ذاتها. لذا يُشغَّل كلّ طبقة (كشف، تغيّرات، وصف، استرجاع) في بيئة سيادية الصبغة داخل المحيط المُصنَّف للجهة. لا اتصال بواجهة خارجية، ولا قياسات عن بُعد، ولا مسار تحديث آلي للنموذج. وأرشيف الصور يُركَّب في النطاق الأمني نفسه لعنقود الاستدلال. وتصل أوزان النموذج، شأنها شأن غيرها من الثنائيات، عبر سير الحزم الموقَّعة وضوابط الاعتماد المزدوج المشروحة في دليل بنية الشبكة المعزولة للذكاء الاصطناعي.
الانعكاسات العملية لنشر للصور: التخزين مُحجَّم لاستيعاب الأرشيف الكامل المحفوظ من المشاهد (عدة بيتابايتات للبرامج النشطة)، وأسطول وحدات المعالجة الرسومية مُحجَّم لمعالجة دفعات التغذية الواردة بالتوازي مع جلسات المحلّلين التفاعلية، وشبكة العنقود الداخلية تتحمّل حركة الاتصال الشرقية الغربية بين الأرشيف وعمّال الكشف وطبقة خدمة نموذج الرؤية واللغة بكامل سرعة الخطّ. عرض النطاق على الإنترنت غير ذي صلة. عرض النطاق الداخلي وعمليات الإدخال/الإخراج للتخزين هما كلّ شيء.
المحلّل في المسار
المسؤولية عند الجهة لا تنتقل إلى النموذج. تطفو الاكتشافات بوصفها مرشّحات بدرجات ثقة، لا حقائق. وتطفو خرائط التغيّر مناطقَ للفحص، لا إعلانات نشاط. ويُسوِّد نموذج الرؤية واللغة تقريراً، فيعيد المحلّل صياغته ويوقّع ويُصدر. وتُسجّل كلّ طبقة أيّ إصدار من النموذج أنتج أيّ اقتراح، وأيّ محلّل قَبِل أو تجاوز، وأيّ منتج نهائي عُمّم. مسارات التدقيق متينة، قابلة للاستعلام، ولا تغادر المحيط أبداً. هذا هو الموقف الذي يُتيح لجهة دفاعية أن تقول، ويدها على الملفّ، إنّ الذكاء الاصطناعي عجّل الفرز ولم يحلّ يوماً محلّ التوقيع البشري على المنتج.
لاستعراض نشر للصور والتحليل الجغرافي بالذكاء الاصطناعي خاصّ بجهتكم (اختيار نماذج الكشف، تحجيم نموذج الرؤية واللغة، خط أنابيب التخزين والاستيعاب، دمج سير عمل المحلّل)، راسلونا على [email protected] أو على +968 9889 9100. التسعير بحسب الطلب، يُحجَّم وفق حجم الصور ووتيرة المشاهد وعدد مقاعد المحلّلين.
أسئلة شائعة
هل تضاهي نماذج الرؤية واللغة السيادية المنصّات التجارية لتحليل صور الأقمار الصناعية؟
في طبقة الوصف العام وصياغة التقارير، نعم. النماذج مفتوحة الأوزان مثل Qwen2.5-VL وQwen3-VL تتعامل مع وصف المشاهد وتعداد الكيانات وصياغة الملخّصات بجودة قريبة من النماذج التجارية الرائدة. أمّا الكشف عالي الدقّة على مستوى البكسل والتحليلات متعدّدة الأطياف، فتبقى النماذج المتخصّصة المُحسَّنة هي الأفضل. النمط الصحيح هو رصّ الطبقات: نماذج كشف وكشف تغيّرات كلاسيكية تتولّى عمل البكسل، ويتولّى نموذج الرؤية واللغة صياغة تقرير المحلّل فوقها.
لماذا الإصرار على النشر المحلي للذكاء الاصطناعي للصور رغم توفّر واجهات تجارية للتحليل الجغرافي؟
الصور السيادية بحدّ ذاتها معلومات حسّاسة. إرسال مشاهد مصنّفة أو مقيّدة تجارياً وأرتال طائرات مسيّرة وطبقات خرائط أساسية إلى واجهة تجارية يُسرّب الصور ونمط الاستعلام نفسه (المناطق التي تهتمّ بها الجهة، ووتيرة هذا الاهتمام). بالنسبة لجهات الدفاع والأمن الداخلي يُعدّ هذا الأثر التشغيلي معلومة استخبارية في حدّ ذاته. النشر المحلي المعزول يُبقي البكسلات والنيّة التحليلية داخل المحيط.
هل يبقى المحلّل هو من يقود سير العمل، أم يقرّر النموذج؟
المحلّل هو من يقود. الذكاء الاصطناعي للصور في البيئة السيادية طبقة مساعدة: يُبرز اكتشافات مرشّحة، ويُسلّط الضوء على التغيّرات بين مشهدَين، ويُسوّد فقرات سرديّة. أمّا التكليف، وتصنيف الأهميّة، وأيّ منتج صادر للتعميم، فتبقى قرارات بشرية تمرّ عبر إجراءات المراجعة والإصدار المعتمدة لدى الجهة.
ما العتاد اللازم لسير عمل ذكاء اصطناعي محلي للصور؟
نموذج رؤية ولغة بحجم ٣٢ مليار معامل يعمل بسلاسة على عقدة واحدة من H100 أو H200، مع تشغيل أحمال الكشف الدفعية بجواره على العقدة نفسها. ولزيادة السعة (مئات المشاهد في الساعة وعدّة محلّلين متزامنين) تُعتمد عنقودية من عقدتين مع تخزين NVMe مشترك لأرشيف الصور. يعتمد التحجيم الدقيق على الدقّة ووتيرة المشاهد ومستوى التزامن.