كفاءة المرمّزات في نماذج اللغة العربية

قد يحقّق نموذجان مفتوحا الأوزان النتيجة نفسها على مقياس استدلال عربيّ، ومع ذلك يكلّفان المشتري السيادي كلفتين تشغيليتين متباعدتين. الفارق يختبئ غالباً في المرمّز. فالنموذج المصمّم بأولوية إنجليزية قد يحتاج ضعفين إلى ثلاثة أضعاف عدد الرموز لترميز الفقرة العربية ذاتها مقارنة بنموذج بُنيت مفرداته مع العربية في الذهن. وهذه النسبة تظهر في ثلاث نقاط حاسمة في التوريد: كمون الطلب الواحد، وبصمة ذاكرة KV، وعدد المستخدمين المتزامنين عند ميزانية ذاكرة ثابتة. تشرح هذه المقالة كيف تُقرأ كفاءة المرمّز للعربية، وتقارن العائلات الأربع التي يُرجَّح أن يقيّمها المشتري السيادي، ثمّ تحوّل الأرقام إلى إشارة توريد قابلة للدفاع عنها.

لماذا يكون المرمّز هو دافع الكلفة الصامت في نماذج العربية

تقرأ نماذج اللغة الحديثة وتكتب النصّ على هيئة رموز فرعية لا أحرف ولا كلمات. والمرمّز قطعة مدرَّبة ومجمّدة تُحسم مرّة واحدة في التدريب المسبق، وتظلّ هي ذاتها على كلّ مسرّع يُشغَّل عليه النموذج. هذا يجعل المرمّز بنداً غير اعتيادي في خطّة التوريد: لا يُضبَط ولا يُستبدَل وقت الاستدلال ولا يتحسّن بإضافة عتاد. إمّا أن يلائم اللغة جيّداً، أو لا يلائمها.

القرار التصميمي الحاسم للعربية هو ما إذا كانت المفردات تتضمّن قطعاً فرعية عربية كافية لتغطية الصرف الفعلي، أم أنّها تسقط في الاحتياط البايتي. الاحتياط البايتي هو الباب السفلي الذي تنزلق إليه مرمّزات BPE وSentencePiece الإنجليزية حين تواجه تسلسلات UTF-8 لم تتدرّب عليها. تقع الحروف العربية في النطاق U+0600 إلى U+06FF، بايتان لكلّ حرف، والمرمّز الذي لم يَرَها سيرمّز كلّ حرف بايتين أو أسوأ. وهكذا تنتفخ جملة عربية من ثلاثين حرفاً، كان ينبغي أن تنضغط في 8 إلى 12 رمزاً، إلى أكثر من ستّين.

المقياس الذي يستخدمه الباحثون لرصد ذلك هو الخصوبة: عدد الرموز الفرعية لكلّ كلمة (أو لكلّ حرف) في النصّ المصدر. تستقرّ المرمّزات العربية الأصيلة عند 1.0 إلى 1.5 رمز للكلمة، فيما يجلس المرمّز الإنجليزي على العربية بين 2.5 و4. وقد قاست دراسة فريق Cohere الأكاديمية حول إنصاف المرمّزات بين اللغات (2023) هذا الفارق على أكثر من اثنتي عشرة لغة، وأظهرت أنّ العربية والهندية والبورمية هي الأقلّ حظاً باستمرار. العربية أقلّ كفاءة بمعامل اثنين إلى ثلاثة على المرمّزات الإنجليزية، وهذا بالضبط هو مضاعِف الكلفة الذي يدفعه المشتري السيادي على كلّ طلب عربي.

مقارنة العائلات الأربع على عدد البايتات لكلّ رمز عربي

يلخّص الجدول أدناه تصميم المفردات المعلَن وخصوبة العربية الملاحَظة عند العائلات الأربع التي يُرجَّح أن يقيّمها مشتري حصن في 2026. الأرقام مأخوذة من ملفّ تهيئة كلّ مرمّز يصدره الشركة المنتجة، إلى جانب قياسات قابلة للتكرار على عيّنة عربية مشتركة من 20 ألف حرف تخلط الفصحى الحديثة بلهجة الخليج.

عائلة النموذج حجم المفردات استراتيجية العربية أحرف عربية لكلّ رمز الخصوبة (رموز/كلمة)
Falcon Arabic (TII) ~130k مفردات عربية أصيلة، تدريب على شركة عربية كثيفة ~3.5 ~1.1
Qwen 3.6 ~152k BPE متعدّد اللغات، تمثيل عربي جيّد ~3.2 ~1.3
Gemma 4 ~256k SentencePiece، تغطية متعدّدة اللغات واسعة ~3.0 ~1.5
Llama 4 ~128k BPE بطراز Tiktoken، انحياز إنجليزي ~1.4 ~3.0

اقرأ الجدول كما يقرؤه مخطّط العتاد: على الموجَّه العربي ذاته، يصدر Llama 4 عدد رموز يقارب 2.5 ضعف ما يصدره Falcon Arabic. وتتسلّل هذه النسبة إلى كلّ كلفة لاحقة: الزمن إلى الرمز الأوّل، والزمن لكلّ رمز مُخرَج، وذاكرة KV، والحدّ الأقصى للجلسات العربية المتزامنة على جهاز ثابت. وللاطّلاع على المقارنة التوريدية الأعمق راجع مقالنا الأمّ حول نموذج Qwen 3.6 لمعالجة اللغة العربية.

مشكلة تحيّز المفردات وكيف تقرأها

تحيّز المفردات هو الإرث البنيوي لمرمّز دُرِّب على شركة تطغى عليها الإنجليزية والشِفرة. تنفق المفردات آلاف الخانات على كلمات إنجليزية شائعة وكلمات مفتاحية برمجية وعلامات لاتينية متّصلة، ولا تترك للعربية إلّا حفنة من القطع الصرفية. ويبقى النموذج محبوساً في تلك المفردات مدى الحياة، حتى لو كانت 40% من بيانات التدريب اللاحق عربية. ولذلك تكون المقاييس الرئيسة مضلِّلة أحياناً: قد يُدرَّب نموذج على بيانات عربية وفيرة ومع ذلك يرمّزها بكفاءة منخفضة، لأنّ المفردات حُسِمت قبل أن تُضاف تلك البيانات.

ما الذي يُنظَر إليه عند تقييم نموذج لعِبء عربي مكثّف:

  • حجم المفردات: مع تساوي العوامل الأخرى، تغطّي المفردات متعدّدة اللغات الكبيرة (200k فأكثر) الصرف العربي أفضل من المفردات الإنجليزية الأصغر (دون 100k).
  • تركيب المفردات: افحص ملفّ المفردات مباشرة، واحصِ عدد المداخل الواقعة في النطاق U+0600 - U+06FF. ينشر Falcon Arabic هذا علناً، ويحمل حساب TII على Hugging Face ملفّ tokenizer.json مع كلّ إصدار أوزان.
  • الخصوبة المُقاسة على شركتك: مرّر نصّك المؤسسي العربي على مرمّز كلّ مرشّح، واحسب الرموز لكلّ حرف. سكربت من خمسة أسطر على مكتبة Hugging Face Tokenizers يكفي، ولا تثق بصفحات التسويق.
  • كلفة توسيع المفردات: إن كان النموذج الأساس قويّاً ومرمّزه ضعيفاً فإنّ توسيع المفردات مع تدريب مسبق متواصل ممكن لكنّه باهظ، ويجدي عادة لنموذج واحد تنوي المؤسسة الإبقاء عليه ثلاث إلى خمس سنوات.

الأثر العملي على الكلفة والكمون وذاكرة KV

حوِّل الخصوبة إلى أرقام جهاز. خذ عبئاً عربيّاً سياديّاً نموذجيّاً: وثيقة من 1500 كلمة تدخل نظام استرجاع معزّز ثمّ يخرج ملخّصها في 400 كلمة. مع Falcon Arabic عند خصوبة 1.1 تكون الجولة نحو 2090 رمزاً، ومع Llama 4 عند خصوبة 3.0 تصير الجولة ذاتها نحو 5700 رمز، أي 2.7 ضعفاً. يرتفع الزمن إلى الرمز الأوّل طرديّاً مع حجم الموجَّه، ويرتفع الزمن لكلّ رمز مُخرَج طرديّاً مع حجم الإكمال، وتتمدّد ذاكرة KV طرديّاً مع المجموع.

عقوبة التزامن هي الأكثر ألماً وقت التوريد. ذاكرة KV هي ما يحدّ عدد المستخدمين المتزامنين على مسرّع ثابت، وتنمو وفق الرموز × الطبقات × الرؤوس × بُعد الرأس × 2 بايت (fp16). ومضاعفة الخصوبة تنصّف عدد الجلسات العربية المتزامنة، بلا استثناء. وللمشتري الذي رصد «ثلاثين مستخدماً متزامناً» لوزارة عربية، اختيار المرمّز الخاطئ يحوّلها بصمت إلى اثني عشر. قارن هذا التحليل بملاحظاتنا حول التكميم Q4 وQ5 للعربية، وحول تضمينات RAG ثنائية اللغة عربي‑إنجليزي قبل تثبيت البنية.

قاعدة التوريد التي نوصي بها لأيّ نشر سيادي عربي بسيطة: حدّد أهداف الإنتاجية بـ رموز مُخرَجة في الثانية لكلّ مستخدم بعد الترميز لا بالأحرف ولا بالكلمات، واطلب من المورّد أرقام الخصوبة على عيّنة ممثّلة من شركتك الفعلية. وتُعدّ دراسة ACL 2024 حول إنصاف المرمّزات بين اللغات مرجعاً جيّداً للمنهجية.

إن أردت تدقيقاً لخصوبة المرمّز على شركتك العربية المؤسسية، يتضمّن مقارنة جنباً إلى جنب للعائلات الأربع أعلاه على عيّنة موحّدة، فراسلنا على [email protected] لإعداد لقاء مدّته ساعة. سنعيد لك أرقاماً مُقاسة لا ادّعاءات تسويقية. التسعير بحسب الطلب.

أسئلة شائعة

ما هي خصوبة المرمّز ولماذا تهمّ في العربية؟

الخصوبة هي متوسّط عدد الرموز الفرعية التي ينتجها المرمّز عن كلّ كلمة في النصّ المصدر. في النصوص العربية، ترتفع خصوبة المرمّزات الإنجليزية الأصل إلى 2.5 إلى 4 رموز للكلمة الواحدة لأنّ الحروف العربية تتكسّر إلى قطع UTF-8 احتياطية. أمّا المرمّزات المصمّمة للعربية مثل Falcon أو Qwen فتنخفض خصوبتها إلى 1.0 إلى 1.5. كلّما قلّت الخصوبة قلّ الكمون وانخفضت بصمة ذاكرة KV وكلفة الطلب الواحد.

هل يؤثّر اختيار المرمّز على الجودة أم على الكلفة فقط؟

يؤثّر على الاثنين. المرمّز الذي يفتّت العربية إلى بايتات يجبر النموذج على تعلّم الصرف من تيّار من الرموز عديمة المعنى، فيما تحقّق النماذج المدرّبة بمفردات عربية أصيلة نتائج أعلى في مقاييس فهم العربية مثل ALUE وArabicMMLU عند الحجم نفسه.

كيف يغيّر هذا حجم ذاكرة KV وحجم العتاد؟

تتناسب ذاكرة KV طرديّاً مع عدد الرموز. إذا احتاج النموذج (أ) إلى 2400 رمز لترميز نفس النصّ الذي يرمّزه النموذج (ب) في 1000 رمز، فإنّ ذاكرة KV للنموذج (أ) أكبر بمعامل 2.4. حدّد التزامن العربي بعدد الرموز بعد الترميز، وتحقّق من خصوبة المرمّز على شركتك قبل تحديد حجم الجهاز.

هل يمكن توسيع المفردات بعد التدريب المسبق لإصلاح تجزؤ العربية؟

جزئيّاً نعم. يضيف توسيع المفردات قطعاً عربيّة فرعية ويعيد تحجيم مصفوفتي التضمين والمخرجات، ثمّ يأتي تدريب مسبق متواصل قصير لمواءمته. يستردّ ذلك معظم فجوة الخصوبة لكنّه استثمار هندسي حقيقي يجدي لنموذج أساس واحد تعتزم المؤسسة الإبقاء عليه سنوات.