بنية Apple Silicon لاستدلال نماذج اللغة: مقاييس وأرقام من الواقع
يطرح المشترون السياديون في عُمان ودول مجلس التعاون السؤال نفسه عن بنية Apple Silicon: التسويق صاخب، ومراجعات يوتيوب أكثر صخبًا، أمّا أرقام الاستدلال الحقيقية فمبعثرة بين عشرات النقاشات على GitHub ومدوّنات Medium. هذا المقال يجمع البيانات الواقعية للشرائح التي تهمّ الجهات والمنظّمين والبنوك السيادية المقيِّمة لجهاز طرفي: M3 Ultra وM4 Max، مع نماذج مفتوحة الأوزان عبر llama.cpp Metal وMLX. أمّا الدليل الإطاري للمشتريات فموجود في مقال Apple Silicon LLM benchmarks (دليل Mac Studio M3 Ultra للنشر السيادي على الطرف). وهذه المقالة هي العمود الفقري للأرقام التي يستند إليها.
بنية Apple Silicon: المحرّك العصبي ووحدة الرسومات والذاكرة الموحّدة
ثلاثة قرارات معمارية تجعل Apple Silicon صالحة للخدمة السيادية لنماذج اللغة. لا قرار منها فريد بمفرده عند Apple، لكنّها مجتمعة تصف فئة من المنصّات لم تكن قائمة في عام 2023.
الذاكرة الموحّدة. تعنون وحدة المعالجة المركزية ووحدة الرسومات والمحرّك العصبي البِركة الفيزيائية ذاتها من LPDDR5X. لا نسخ من المضيف إلى الجهاز عبر PCIe، ولا تكميم اضطراري لأنّ النموذج لا يتّسع، ولا تنقّل بين ذاكرة النظام وذاكرة الفيديو. يستوعب جهاز Mac Studio M3 Ultra بسعة 256GB نموذجًا كاملًا بحجم 70B بتكميم Q4، إضافةً إلى ذاكرة KV وعدّة سياقات متزامنة في الفضاء التخصيصي ذاته.
عرض نطاق الذاكرة. يأتي M3 Ultra بحوالي 800 GB/s، وM4 Max بحوالي 546 GB/s، فيما تشير ورقة Apple البحثية حول M5 إلى قفزة إضافية. توليد الرموز محكوم بعرض النطاق في كل النماذج الكثيفة دون 70B، فهذا الرقم يتنبّأ بمعدّل الرموز في الثانية أكثر من أيّ رسم تيرافلوبس.
المحرّك العصبي مع وحدة الرسومات. تشغّل وحدة الرسومات ذات الـ 32 نواة في M3 Ultra نوى Metal التي يطلقها llama.cpp وMLX. أمّا المحرّك العصبي فأهميّته في توليد الرموز أقلّ منها في معالجة المُدخلات والمسارات الصغيرة. تُظهر ورقة Apple البحثية حول MLX على M5 تسارعًا يصل إلى أربعة أضعاف في زمن أوّل رمز عند تفعيل المسرّعات العصبية، ما يُعيد عنق الزجاجة إلى عرض النطاق.
مقاييس llama.cpp Metal: Gemma 4 و Qwen 3.6 و DeepSeek R1
llama.cpp بخلفية Metal هو محرّك الاستدلال المرجعي على Apple Silicon. يأتي ضمن كل صورة Hosn Tower، ويشغّل كل تكميمات GGUF، ويُمثّل خط الأساس التشغيلي للنشر السيادي لأنّ المكدّس بأكمله قابل للتدقيق. ويُجمّع نقاش المجتمع في ggml-org/llama.cpp مناقشة 4167 النتائج عبر سلسلة M.
Gemma 4 27B بتكميم Q4_K_M على M3 Ultra. ما بين 30 و42 رمزًا في الثانية للتوليد على سياق 4k، مع معالجة مُدخلات في نطاق 700 إلى 900 رمز/ثانية. يكتمل ملخّص سياسي عربي بصفحة واحدة في أقلّ من اثنتي عشرة ثانية من البداية للنهاية.
Qwen 3.6 32B الكثيف بتكميم Q4_K_M على M3 Ultra. من 25 إلى 38 رمزًا في الثانية. أمّا Qwen 3.6 30B-A3B (نسخة MoE بـ 3B نشطة لكل رمز) فأسرع بفارق كبير: تتجاوز 80 رمزًا في الثانية على العتاد ذاته لأنّ ميزانية النطاق لكل رمز أصغر بكثير.
DeepSeek R1 المقطّر 32B بتكميم Q4_K_M على M3 Ultra. من 22 إلى 30 رمزًا في الثانية. أمّا DeepSeek R1 671B-A37B الكامل فيتّسع بتكميم Q4 داخل 256GB ويعمل بمعدّل 6 إلى 9 رموز في الثانية، بطيء لكنّه تفاعليّ بما يكفي لأحمال تحليلية تُقدَّم فيها جودة الاستدلال على زمن الاستجابة.
فئة M4 Max. يقدّم جهاز M4 Max بسعة 64GB أو 128GB نموذج Gemma 4 12B بمعدّل 50 إلى 65 رمزًا في الثانية، ونموذج Llama 3.3 70B بتكميم Q4 بمعدّل 8 إلى 15 رمزًا في الثانية، وهو مفيد لمحطّات عمل المحلّل الفرديّ لا للخدمة الإدارية الجماعية.
الرموز في الثانية بحسب مستوى التكميم
التكميم هو المقبض الأهمّ الذي يضبطه المشغّل السيادي. لنموذج وشريحة محدّدَين، يُقارب الانتقال من BF16 إلى Q4_K_M ثلاثة أضعاف إنتاجية التوليد، لأنّ كل رمز يقرأ ربع البايتات من الذاكرة.
- BF16 (الدقّة الكاملة). الجودة المرجعية. مطلوبة في الضبط الدقيق والتقييم المرجعي. عمليّة للنماذج دون 14B على Mac Studio بسعة 192GB فأكثر.
- Q8_0. لا يكاد يميّز عن BF16 في المقاييس العربية والإنجليزية، وأسرع منه بنحو 1.6× على النموذج ذاته.
- Q6_K. الحدّ الأدنى الموصى به في الأعمال القانونية والتنظيمية والترجمة الثنائية، إذ تُرفض فيها الانحرافات الصغيرة في اتباع التعليمات. إنتاجيته نحو 2.2× BF16.
- Q5_K_M. خيار افتراضي حصيف عندما تكون الذاكرة شحيحة وتظلّ الجودة أولوية.
- Q4_K_M. العمود الإنتاجي. إنتاجيته نحو 3× BF16 مع تأثير صغير لكن قابل للقياس على الاستدلال طويل السياق. مقبول في الصياغة العامّة والتلخيص والمحادثة.
- Q3_K_S فأقلّ. للاستكشاف فقط. يظهر تدهور الجودة على الصرف العربي بشكل مرئي.
متتبّع المقاييس llmcheck.net مرجع حيّ مفيد يُجدول الرموز في الثانية الفعلية حسب الشريحة والنموذج والتكميم.
الطاقة لكل رمز مقابل وحدة GPU منفصلة
في الفروع السيادية وملاحق الجهات والمحطّات الميدانية للمنظّمين، الطاقة والغلاف الحراري ليسا هاجسًا نظريًا. خادم H100 بفئة الرفّ يسحب من 700 إلى 1000 واط عند المقبس تحت الاستدلال المتواصل، ويتطلّب تبريدًا مخصّصًا، ونادرًا ما يتّسع داخل خزانة 12U تحوي شبكة وUPS. أمّا Mac Studio M3 Ultra تحت الحِمل ذاته فيستقرّ بين 200 و270 واطًا ويعمل بصمت داخل خزانة مكتبية.
على مقياس الرموز لكل واط في النماذج التي تتّسع لها الذاكرة (من 8B إلى 70B كثيف، وMoE حتى 120B)، تتفوّق Apple Silicon من ضِعفين إلى أربعة أضعاف على تكوينات GPU المنفصلة. وتنعكس هذه النسبة فوق عتبة الـ 70B الكثيفة، حيث تخفض حدود عرض النطاق أداء منصّات Apple دون مستويات التزامن المفيدة، ويعود الترشيح إلى مقالة H100 و H200 و RTX 6000 و Mac Studio. الإجابة الأنسب لجهة وطنية تخدم ألف موظّف هي رفّ مؤسّسي، أمّا الإجابة الأنسب لمنظّم بعشرين محلّلًا في مكتب فرعي فهي جهاز Mac Studio، وأحيانًا مع جهاز GPU طرفي للفروع للاحتياطية.
إذا كان فريقكم يوازن بين جهاز طرفي قائم على Apple وبناء رفّ في نشر سيادي عُماني، راسلونا على [email protected] لجلسة إحاطة لمدّة ساعة. نُقيّم على الشرائح التي ستشترونها فعلًا، بالنماذج التي ستشغّلونها فعلًا.
أسئلة شائعة
هل بنية Apple Silicon سريعة بما يكفي لاستدلال جاد لنماذج اللغة؟
نعم بالنسبة للنماذج الكثيفة من 8B إلى 32B ومعظم نماذج MoE حتى 120B. جهاز Mac Studio بمعالج M3 Ultra وذاكرة موحّدة 256GB يقدّم Gemma 4 27B بمعدل 25 إلى 45 رمزًا في الثانية، ويعمل Qwen 3.6 32B بسرعة مماثلة، وتعمل نسخ DeepSeek R1 المقطّرة بإيقاع المستخدم الفردي. أمّا أحمال 70B الكثيفة بتزامن مرتفع فالأنسب لها فئة H100 أو H200.
هل نستخدم llama.cpp Metal أم MLX على Mac Studio السيادي؟
الاثنان. يقدّم llama.cpp Metal أوسع كتالوج للنماذج والتكميم وأكثر سيناريوهات التشغيل استقرارًا. ويقدّم MLX، خصوصًا عبر vllm-mlx، إنتاجية أعلى بنسبة 21 إلى 87 بالمئة وخادمًا بمعالجة دفعات متواصلة يناسب النشر متعدّد المستخدمين على مستوى الإدارة. تشحن حصن الاثنين معًا ويختار المشغّل الأنسب لكل حِمل.
ما مستوى التكميم الذي يجب توحيده في النشر السيادي؟
Q4_K_M هو الخيار التشغيلي للنماذج محدودة الذاكرة. تتيح Q5_K_M وQ6_K زيادة ملموسة في جودة اتباع التعليمات والدقّة العربية مقابل خسارة طفيفة في السرعة. أمّا BF16 فيُحجز للتقييم والضبط الدقيق والنماذج الصغيرة. تعتمد معظم الجهات Q4_K_M في الإنتاج مع Q6_K بديلًا للأعمال القانونية والتنظيمية.
كيف يقارَن استهلاك Mac Studio للطاقة بصندوق GPU منفصل؟
يستهلك جهاز Mac Studio M3 Ultra تحت حِمل استدلال متواصل من 200 إلى 270 واطًا عند المقبس. أمّا بطاقة H100 PCIe الواحدة فتُقدَّر بـ 350 واطًا قبل خادم الاستضافة. وعلى مقياس الرموز لكل واط تتفوّق Apple Silicon من ضِعفين إلى أربعة أضعاف على تكوينات GPU المنفصلة في النماذج التي تتّسع لها الذاكرة، وهذا فارق حاسم لمكاتب الفروع والخزائن المكيّفة التي لا تحتمل الأحمال الحرارية للرفوف.