أنماط الذكاء الاصطناعي للبحث في الأدبيات الجيولوجية وما تحت السطح
يجلس مشغّلو الاستكشاف والإنتاج في الخليج فوق خمسين عاماً من الورق المتعلّق بما تحت السطح. تقارير إكمال آبار من سبعينيّات القرن الماضي، تقارير حفر يوميّة طُبعت على ورق التلكس، ملاحظات طبقات حيويّة بخطّ يد علماء أحافير متقاعدين، مذكرات تفسير سيزميّ موقّعة عبر ثلاث منظومات شركات مختلفة، وعقود من الأوراق الفنّيّة الداخليّة تصف كلّ مكمن وفرصة حُفرت يوماً. يحتاج فريق الجيولوجيا إجابة عمليّة لسؤال «ماذا تعلّمنا من قبل عن هذا التكوين» في دقائق، لا في ثلاثة أيّام من البحث في الأرشيف. هذه مشكلة استرجاع معزّز بالتوليد بكلّ معنى الكلمة، وتُكمل صورتنا الأشمل في المقال الجامع فرز الوثائق العربيّة بالذكاء الاصطناعيّ في القطاع الدفاعيّ، الذي يثبّت النمط ذاته في صنف حساسيّة مختلف.
مشكلة البحث في أدبيّات ما تحت السطح
تهيمن ثلاثة أصناف على المدوّنة، وأيٌّ منها لا يخضع للبحث جيّداً في الأنظمة القائمة على شبكة المشغّل.
- تقارير الآبار وإكمالها. التفسيرات الفيزيائيّة الصخريّة، وأعمدة الصخارة، ورسوم التغليف، تُحفظ في منصّات متخصّصة (Petrel، Techlog، نسخة OpenWorks القديمة)، أمّا السرد المحيط (لماذا تُركت طبقة، أيّ مائع اختُبر، كيف بُرِّر فرع جانبيّ) فيعيش في ملفّات PDF ممسوحة لا تفهرسها المنصّة إلا باسم البئر والتاريخ.
- مذكرات التفسير السيزميّ. عقود من التفسيرات التركيبيّة والطبقيّة، وتقارير إعادة المعالجة من الموردين، وملاحظات ضبط الجودة الداخليّة. أغلبها PDF، وكثير منها يحوي أشكالاً وجداول مدمجة تحمل الخلاصة الفعليّة.
- التقارير الجيولوجيّة والأوراق الفنّيّة. دراسات تقييم الفرص الداخليّة، ومراجعات الفرص، وتحليلات ما بعد الحفر، وأوراق المؤتمرات (SPE، AAPG، IPTC)، كتبها موظّفون أو مزوّدون عبر نصف قرن. بعضها ممسوح، بعضها رقميّ النشأة، وبعضها على مشاركات إداريّة لم يُفهرسها أحد منذ 2008.
نمط الفشل المشترك هو هشاشة البحث الكلميّ. جيولوجيّ يسأل «هل وصف أحد مكافئ Khuff ذا تكهّفات في الأصل الجنوبيّ» مضطرّ لمعرفة الإملاء الخاصّ بالمشغّل لاسم التكوين، والمزوّد المرجعيّ للمكمن، والاصطلاح القديم لتسمية الملفّات. معظم المدوّنة غير مرئيّة لذلك الاستعلام رغم أنّ الإجابة موجودة فيها.
التضمين والاسترجاع القطاعيّان
لغة هندسة البترول لهجة قائمة بذاتها. عبارات مثل «pay zone»، و«kick»، و«gauge ring»، و«Khuff carbonate»، وما يلحقها من وحدات، تحمل دلالة يطمسها أو يُسيء توزيعها نموذجُ تضمين عامّ مدرَّب على نصوص الويب. التقييمات المنشورة تُبيّن الفجوة بوضوح. الجاربوح وزملاؤه، ٢٠٢٤ يصف Petroleum-Engineering-LLM بمكاسب 5 إلى 12 نقطة على الاسترجاع القطاعيّ والتعرّف على الكيانات مقارنة بالأساس العامّ، وأظهرت أعمال سابقة على PetroBERT (ريزيندي وزملاؤه، ٢٠٢٢) أثراً مماثلاً على مدوّنات استكشاف وإنتاج برازيليّة.
النمط العمليّ في النشر السياديّ داخل المحيط يتألّف من ثلاث خطوات. أوّلاً، اختيار أساس متعدّد اللغات قويّ (BGE-M3 إن كانت التغطية ثنائيّة اللغة لازمة، أو multilingual-e5-large ببصمة أصغر). ثانياً، تدريب مهايئ قطاعيّ خفيف على عيّنة من مدوّنة المشغّل، ثلاثة إلى خمسة آلاف زوج من استعلام-وثيقة معنونَة كافية لمكسب ملموس. ثالثاً، تشغيل مُعيد ترتيب من نوع cross-encoder على أعلى 50 نتيجة قبل تمريرها إلى نموذج التوليد. يبقى المسترجِع صغيراً بما يكفي ليتعايش مع نموذج التوليد على الجهاز نفسه، ويصبح إعادة تدريب المهايئ مهمّة فصليّة لا مشروعاً بحثيّاً.
عَثرتان تستحقّان الإدراج في الميزانيّة. ملفّات PDF الممسوحة من السبعينيّات والثمانينيّات تحتاج OCR فعليّاً يدرك الأشكال والجداول؛ التمريرة الساذجة تُفقد التعليقات التي تحمل التفسير الحقيقيّ. وتطبيع أسماء التكوينات يستحقّ طبقة معالجة سابقة خاصّة، إذ تظهر الوحدة ذاتها وفق ثلاثة أو أربعة اصطلاحات مختلفة عبر المدوّنة.
لماذا داخل المحيط لمشغّلي الاستكشاف والإنتاج
تحمل المدوّنة مركز احتياطيّات الشركة وأطروحتها الاستكشافيّة. وجهة بحث الشركة القادمة، والمكامن التي رفعت عنها المخاطر بهدوء، والفرص التي ركنتها ولماذا، كلّ ذلك ضمنيّ في الوثائق وفي الاستعلامات التي يطرحها الموظّفون عليها. يترتّب على ذلك ثلاث آثار.
- بيانات الاحتياطيّات استخبار تنافسيّ. تُحدّد SEC والجهات التنظيميّة الوطنيّة الإفصاح عن الاحتياطيّات بدقّة؛ أمّا الدليل الفنّيّ خلف القيد فليس للاستهلاك الخارجيّ. واجهة تضمين خارجيّة تحتفظ بمتّجهات قابلة من حيث المبدأ للعكس، وسجلّات استعلام تكشف وجهة التركيز الحاليّة.
- أطروحة الاستكشاف تُسرَّب عبر الاستعلامات. حتى إن لم تُشارَك الوثائق، فإنّ نمط الأسئلة («ماذا نعلم عن مكامن الأساس قبل الكامبري في الكتلة س») إشارة بحدّ ذاته. ولا تُصدِّر المؤسّسات السياديّة هذه الإشارة إلى نقطة طرف ثالث.
- قوانين البيانات الوطنيّة تُؤطِّر الخيار. يُقرِّب قانون حماية البيانات الشخصيّة العُمانيّ (PDPL) (المرسوم السلطانيّ ٦/٢٠٢٢) والاتجاه الخليجيّ الأوسع نحو توقّعات إقامة البيانات، الفجوةَ بين «نُفضّل النشر داخل المحيط» و«ننشر داخل المحيط». تعيش المدوّنة والفهرس والنموذج ومسار الاستعلام كلّها داخل محيط المشغّل.
منصّة معين، نظام الذكاء الاصطناعيّ المشترك الوطنيّ في عُمان، موجودة لشريحة أعباء العمل التي تكون فيها البنية المشتركة هي الإجابة الصحيحة. أدبيّات ما تحت السطح لمشغّل استكشاف وإنتاج ليست من تلك الشريحة.
رسم البنية
الشكل الذي ينجو من مراجعة أمنيّة دون التضحية بالفائدة:
- الاستيعاب. زحف لمرّة واحدة على مشاركات الوثائق، مع OCR للممسوح وتمريرة استخراج للأشكال والجداول. الناتج قطع نصّيّة عاديّة مع مراجع إلى الأشكال الأصليّة، يبقى كلّه على الجهاز.
- التقطيع والبيانات الوصفيّة. قطع دلاليّة بحجم 300 إلى 600 وحدة، بتداخل 10 إلى 20 بالمئة. بيانات وصفيّة لكلّ قطعة: اسم البئر، التكوين، الحوض، السنة، المزوّد، مستوى التصنيف، ومُعرّف نظام المصدر كي يقفز الجيولوجيّ من النتيجة إلى Petrel أو Techlog مباشرةً.
- التضمين. نموذج أساس متعدّد اللغات (BGE-M3 أوّلاً)، مع مهايئ قطاعيّ اختياريّ، ومتّجهات مُطبَّعة في قاعدة متّجهات محلّيّة (Qdrant أو pgvector على الجهاز نفسه).
- الاسترجاع وإعادة الترتيب. استرجاع ثنائيّ المُرَمِّز فوق الفهرس، مُعيد ترتيب من نوع cross-encoder على أعلى 50 نتيجة، وتصفية اختياريّة بالبيانات الوصفيّة (الأصل، الحوض، نطاق السنوات) من واجهة المشغّل.
- التوليد. نموذج طويل السياق قادر على العربيّة والإنجليزيّة (Gemma 4 256k أو Qwen 3.6) يعمل على الجهاز ذاته، يُمرَّر إليه أعلى القطع مع سؤال الجيولوجيّ، مع استشهادات تعود إلى الوثائق الأصليّة ومُعرّفات نظام المصدر.
المنظومة كاملة أصل صغير قابل للتدقيق: مجموعة موثّقة من ملفّات النموذج، فهرس واحد، ومسار استعلام واحد، كلّها داخل محيط المشغّل. هذا بالضبط نوع المكوّن الذي ينبغي أن يعمل على جهاز سياديّ لا خلف واجهة برمجيّة خارجيّة.
إن كان فريقكم يُحجِّم هذا لمشغّل خليجيّ ويودّ لقاءً تعريفيّاً لمدّة ساعة حول شكل المدوّنة، واختيار النموذج، ونمط النشر المناسب لمنظمة أصول بعينها، فالخطوة التالية بسيطة. راسلونا على [email protected] أو على +968 9889 9100. سنستعرض معاً مزيج المدوّنة، ومستويات التصنيف، وخطّة تقييم موثوقة.
أسئلة شائعة
لمَ لا تُوضع المدوّنة الجيولوجيّة على واجهة استرجاع سحابيّة؟
لأنّ المدوّنة تحمل أطروحة الاستكشاف ومركز الاحتياطيّات. متى ضُمِّن تقرير بئر أو مذكرة تفسير سيزميّة أو ملاحظة تقييم فرص عبر واجهة خارجيّة، صار لدى المزوّد متّجهات قابلة للعكس، وسجلّات استعلام، وإشارة استخدام تكشف وجهة بحث الشركة المقبلة. لمشغّل في الخليج هذا حساسيّة تنافسيّة، لا حاشية امتثال. تبقى المتّجهات ومسار الاستعلام داخل محيط المشغّل.
ما الذي يحويه فهرس الاسترجاع الجيولوجيّ فعليّاً؟
نصوص وأشكال مستخرجة من تقارير إكمال الآبار، والتقارير اليوميّة للحفر، وسجلّات الطين، وأوصاف اللبّ، وملاحظات الطبقات الحيويّة، ومذكرات التفسير السيزميّ، وعقود من الأوراق الفنّيّة الداخليّة. تبقى المنحنيات الرقميّة والمكعّبات السيزميّة في أنظمتها الأصليّة (Petrel وTechlog وOpenWorks)، ويُشير فهرس الذكاء الاصطناعيّ إلى مُعرّفات تلك الأنظمة، مع طبقة بحث نصّيّ ومرئيّ مكمّلة.
هل يتفوّق نموذج تضمين قطاعيّ على نموذج عامّ فعلاً؟
على لغة هندسة البترول الفجوة حقيقيّة لكنّها محدودة. تُظهر الأعمال المنشورة على PetroBERT وعلى تقييمات نموذج هندسة البترول (انظر arXiv 2409.02428 وأوراق IPTC 2024) مكاسب بـ 5 إلى 12 نقطة على مهامّ الاسترجاع والتعرّف على الكيانات مقارنة بالأساس العامّ. النمط العمليّ هو البدء من نموذج متعدّد اللغات قويّ (BGE-M3 أو multilingual-e5-large)، ثمّ إضافة مهايئ قطاعيّ خفيف يُدرَّب على مدوّنة المشغّل، مع إعادة تقييم فصليّة.
هل يستطيع جهاز حصن استضافة هذا لمشغّل خليجيّ؟
نعم. يكفي جهاز من فئة Tower لمدوّنة فريق أصول واحد، بملايين قليلة من القطع، مع زمن استرجاع دون 100 ميلي ثانية وتوليد على الجهاز ذاته. تُوسِّع تهيئة من فئة Rack النمط ذاته لمنظمة استكشاف وإنتاج كاملة. التسعير بحسب الطلب، يُحدَّد وفق حجم المدوّنة ومعدّل الاستعلام وبقيّة منظومة النموذج التي يرغب المشغّل بتشغيلها إلى جانب المسترجِع.