كيف يمكن أن تتسرّب المعلومات المصنّفة عبر بيانات القياس في نماذج اللغة على السحابة العامة
محلّل في جهة سيادية يلصق فقرة من مسوَّدة سياسة في مساعد محادثة تجاري ليحصل على إعادة صياغة سريعة. النصّ لن يدرّب النموذج، فقد طمأنت المواد التسويقية للمورّد الجميع بذلك. بعد ستّة أسابيع تظهر الفقرة نفسها حرفيًّا ضمن إنتاج كشفٍ قضائيّ أجنبيّ، منسوبةً ببصمة عنوان الإنترنت والطابع الزمني إلى جلسةٍ صادرة من مكتب الجهة. لم يسرّبها النموذج، بل سرّبتها بيانات القياس. هذا هو وضع الفشل الذي لم يُصمَّم تعهّد «لا ندرّب على بياناتك» يومًا لمنعه، وهو السبب في أنّ الأعمال المصنّفة والمُقيّدة سياديًّا لا تنتمي إلى نقاط نهاية نماذج اللغة على السحابة العامة، مهما بلغت قوّة صياغة صفحة الخصوصية.
ما الذي تحتويه «بيانات القياس» فعليًّا في واجهات نماذج اللغة التجارية
بيانات القياس على نقطة نهاية تجارية لنموذج لغوي سطحٌ أوسع بكثير ممّا يفترضه أغلب المشترين. ليست سطرًا واحدًا في سجلّ، بل هي مجموع كلّ بايت ترصده بنية المورّد أو تشتقّه أو تخزّنه أثناء خدمة الطلب، إضافةً إلى كلّ ما يحتاجه فريق التشغيل لإبقاء الخدمة عاملةً، ومُسعَّرةً، وخاليةً من الإساءة. قائمة موجزة، غير شاملة:
- سجلات الموجِّهات. النصّ الكامل لموجِّه المستخدم، بما في ذلك المستندات والشيفرات والأسماء والمعرّفات الملصقة، يُلتقَط في بوّابة الواجهة قبل أن يراه النموذج.
- سجلات الإجابات. النصّ الكامل لاستجابة النموذج، يُخزَّن على المسار نفسه للموجِّه لأغراض الإعادة والتنقيح وتحليل الإساءة.
- الكُمون وأعداد الرموز والبيانات الوصفية للشكل. حتى عند تنقيح الجسم، تبقى البيانات الوصفية مثل عدد رموز المدخل، وعدد رموز المخرَج، وزمن أوّل رمز، والكُمون الإجماليّ، وحجم الطلب. مع كثرة العيّنات تصير هذه البيانات بحدّ ذاتها قناةً جانبيّة.
- أكوام الأخطاء والإجابات الجزئية. الطلب الذي يستثير خطأً جانب الخادم كثيرًا ما يُحفَظ في أنظمة تتبّع الأخطاء مع المدخل المسبّب مرفقًا، على ساعة احتفاظ مختلفة عن السجلّ الأساس.
- معرّفات إصدار النموذج وقرارات التوجيه والبيانات الوصفية للمستأجر. أيّ نقطة تحقَّقَ خدّمت الطلب، وأيّ منطقة، وأيّ مفتاح، وأيّ سياسة رصد إساءة طابقت.
- درجات المصنّفات ومخرجات رصد الإساءة. تعمل مصنّفات الأمان الآنيّة على كلّ طلب. تُخزَّن مخرجاتها وغالبًا على فترة احتفاظ أطول من الموجِّه نفسه.
كلّ بند منها حاجة هندسية مشروعة للمورّد. ولا واحد منها شيء يحتمل عبءُ عملٍ مصنّف خروجَه من الحدود.
ثلاث قنوات تسرّب ملموسة
الخطر ليس مجرّدًا. ثلاث قنوات ملموسة تنقل المحتوى المصنّف من المؤسسة إلى أنظمة لا تتحكّم بها.
البيانات الوصفية على مستوى الموجِّه. حتى لو احترم المورّد اتّفاق «لا تخزين للجسم»، تظلّ البيانات الوصفية للطلب محفوظة لأغراض الفوترة وتخطيط السعة والاستجابة للحوادث. نمطٌ من طلبات سياق طويل عند الساعة الثانية فجرًا بتوقيت مسقط، على فضاء تضمين بعينه، مع إصدار نموذج بعينه، يكفي لبصمة سير عمل حسّاس حتى دون الاحتفاظ بأيّ جسم. خصومٌ بوصول إلى البيانات الوصفية الشبكية، أو البيانات الوصفية المسلّمة بإجراءات قانونية، أو تحليلات جانب المورّد، يستطيعون إعادة بناء بنية معتبرة دون قراءة موجِّه.
الاحتفاظ بمخرجات النموذج. تحتفظ واجهة OpenAI افتراضيًّا بالمدخلات والمخرجات حتى ثلاثين يومًا لرصد الإساءة وفق سياسة ضوابط البيانات الرسميّة. وقد قلّصت Anthropic فترة الاحتفاظ بسجلّات الواجهة إلى سبعة أيام بعد أن كانت ثلاثين، مع احتفاظ بالموجِّهات التي تُعلَّم بمصنّفات الأمان حتى عامين، ودرجات المصنّفات حتى سبع سنوات، بحسب مركز الخصوصية لديها. هذه نوافذ معقولة في الاستخدام التجاري، لكنّها كارثيّة على مسوَّدة مذكّرة وزاريّة، أو موجز استخباراتيّ مصنّف، أو ملفّ ماليّ مختوم قضائيًّا يُلصَق في موجِّه.
طوابير رصد الإساءة. تشغّل كلّ نقطة نهاية كبرى رصدًا آليًّا للإساءة. تؤكّد وثيقة رصد الإساءة في AWS Bedrock، أنّ مؤشّرات المصنّفات المشتقّة من المدخلات والمخرجات قد تُجمَع وتُشارَك مع مزوّدي النماذج الخارجيين، حتى وإن لم يُشارَك النصّ الخام. وتحتفظ سياسة Anthropic صراحةً بالمحتوى المُعلَّم حتى عامين لتحسين الكشف. النيّة سليمة، أمّا الأثر على عبء عمل سياديّ فهو أنّ موجِّهًا واحدًا يسلك مسارًا خاطئًا قد يبقى في خطّ مراجعة لدى مورّد أجنبيّ، متاحًا لكوادر الثقة والسلامة لديه، لسنوات.
لماذا لا يعالج تعهّد «لا ندرّب على بياناتك» الموضوع
صار تعهّد التدريب الالتزامَ الرئيس للخصوصية لدى المورّدين الكبار، وهو ذو معنى حقيقيّ. يُسقِط أسوأ السيناريوهات حيث يستخرج منافس أو خصم لاحقًا اقتباسًا حرفيًّا لنصّك الحسّاس من النموذج. يسمعه المشترون، خاصّةً في الأسواق السيادية والمنظَّمة، فيستنتجون أنّ مسألة الخصوصية حُسِمَت. لم تُحسَم.
التدريب وبيانات القياس صفقتان مختلفتان. صفقة التدريب عمّا يدخل نقطة التحقّق التالية. صفقة القياس عمّا يلامس بنية المورّد، ويُسجَّل، ويُفهرَس لمراجعة الإساءة، ويُخزَّن مؤقتًا للأداء، ويُؤرشَف لاستجابة الحوادث، ويُكشَف بإجراءات قانونيّة، ويقرأه فريق الثقة والسلامة. يستطيع المورّد بصدق أن يقول إنّه لا يدرّب على بياناتك بينما كلّ هذه الانكشافات على جانب القياس حيّة. قراءةً دقيقة لخطّ التفاصيل، هذا تحديدًا ما تصفه أغلب صفحات الخصوصية. سطح المخاطرة لعبءٍ مصنّف هو سطح القياس لا سطح التدريب، وهو محكوم بنوافذ الاحتفاظ وسياسات رصد الإساءة وبالمنظومة القانونية لبلد المورّد. للجانب القضائيّ من هذا الانكشاف انظر مقالنا الجذر حول GCC sovereign data CLOUD Act.
حتى اتّفاقات صفر احتفاظ، حيث وُجِدَت، تضيّق السطح ولا تلغيه. تظلّ البيانات تعبر شبكة المورّد، وتُعالَج على بنية مشتركة، وتسكن، ولو لحظيًّا، داخل ولاية أجنبيّة. مقبولٌ في العمل التجاريّ، غير مقبول في العمل المصنّف.
قاعدة النشر داخل المؤسسة: صفر صادر، وتحديثات بحزم موقّعة
البنية التي تحلّ هذا الإشكال مباشرة، وهي الوحيدة التي تحلّه نظيفًا: يبقى النموذج وكلّ بايت من بياناته القياسية داخل المؤسسة. لجهاز سياديّ منشور محليًّا اتّصال صادر صفر إلى الشبكات الخارجية. تنزل السجلّات على أقراصٍ تملكها المؤسسة، يقرأها مدقّقها، وتُحذَف وفق جدول احتفاظها هي. لا طابور رصد إساءة في مركز بيانات أجنبيّ، لأنّ الرصد، حين يلزم، يجري محليًّا. ولا أرشيف لدرجات المصنّفات يقرأه فريق ثقة وسلامة طرف ثالث، لأنّه ببساطة لا طرف ثالث في المسار.
تنساب التحديثات في الاتّجاه الآخر، واردةً فقط. تصل نقاط التحقّق الجديدة بحزم أوزان موقّعة، تُسلَّم على وسائط خارج النطاق ذات دلائل عبث، أو عبر صمّام ثنائيّ بيانات وارد فقط. تتحقّق المؤسسة من التوقيع مقابل بصمة منشورة، وتشغّل مجموعة قبول محليّة، ثمّ تروّج الحزمة عبر نافذة تغيير موثَّقة بمسؤولين اثنين. تأخّر التصحيح حقيقيّ ومقبول: الجيب متأخّر أيّامًا أو أسابيع عن الإصدار العامّ، لا ساعات. هذا الكُمون هو ثمن القاعدة، وهو الصفقة الصحيحة لعبء عمل سياديّ. مزيد من التفاصيل المعمارية في مقالينا حول بنية الشبكة المعزولة وإقامة بيانات الذكاء الاصطناعي على مزوّدي السحابة الكبار في عُمان.
إن كانت مؤسستك تدرس أين يجب أن يسكن عبء الذكاء الاصطناعي لديها وكانت مسألة بيانات القياس على الطاولة، فالخطوة التالية حوارٌ مغلق. راسلنا عبر [email protected] أو واتساب +968 9889 9100 لترتيب إيجاز ساعة في مسقط أو في موقعك في أيّ من دول الخليج. التسعير بحسب الطلب، يُحجَّم وفق متطلّبات التزامن والتصنيف لديك.
أسئلة شائعة
ألا يحلّ تعهّد المورّد بعدم التدريب على بياناتك مشكلة التسرّب؟
لا. التدريب وبيانات القياس صفقتان مختلفتان. يستطيع المورّد بصدق أن يقول إنّه لا يدرّب على موجِّهاتك، ومع ذلك يحتفظ بها ثلاثين يومًا، ويمرّرها عبر طوابير رصد الإساءة، ويعرّضها للأوامر القضائية، ويسجّل البيانات الوصفية كأعداد الرموز والكُمونات وأكوام الأخطاء. تعهّد التدريب ضيّق، أمّا سطح القياس فواسع.
ما هو خيار صفر احتفاظ بالبيانات، ولماذا لا يكفي للأعمال المصنّفة؟
هو اشتراك مؤسسيّ يتعهّد فيه المورّد بعدم تخزين الموجِّهات والإجابات بعد الردّ. يضيّق السطح ولا يلغيه. تظلّ البيانات تعبر شبكة المورّد، وتُعالَج آنيًّا على بنية مشتركة، وتقع تحت المنظومة القانونية لبلد المورّد، وتعتمد على ضوابطه وحده. للأعمال المصنّفة، الشرط ليس وعدًا بعدم الاحتفاظ، بل ألّا تغادر أصلًا حدود المؤسسة.
هل يستطيع المستأجر السياديّ تدقيق خطّ القياس عند مزوّد سحابيّ عامّ؟
ليس بمعنى حقيقيّ. يحصل المستأجر على تقرير SOC 2 وملحق معالجة بيانات وربّما التزامًا بمنطقة جغرافية. لا يحصل على وصول قراءة لطوابير رصد الإساءة، ولا لمخرجات المصنّفات، ولا لأنظمة الاحتفاظ، ولا لسجلّ تدقيق المشغّلين. ضوابط المورّد كافية للسرّية التجارية، وليست كافية لمادّة مصنّفة أو سيادية يحتاج فيها المدقّق إلى تتبّع البايت من الموجِّه إلى الحذف.
كيف يبدو البديل المنشور داخل المؤسسة فعليًّا؟
تنشر حصن جهازًا للاستدلال داخل منشأة المؤسسة نفسها، بلا أيّ اتّصال صادر بالشبكات الخارجية. تصل النماذج بحزم أوزان موقّعة، تُسلَّم خارج النطاق، ويُتحقّق من بصماتها قبل التحميل عبر نافذة تغيير موثَّقة. تبقى السجلات ومسارات التدقيق داخل المؤسسة وتحت ولاية مدقّقها. التسعير بحسب الطلب، ويُحجَّم وفق متطلّبات التزامن والتصنيف.