ستريكس هالو بسعة ١٢٨ جيجابايت: ورقة AMD في محطات عمل الذكاء الاصطناعي السيادية

على مدى عامين، كان حديث محطّات عمل الذكاء الاصطناعي السيادية في عُمان وعموم دول الخليج ثنائياً. إمّا Apple M3 Ultra Mac Studio بسعة ٢٥٦ جيجابايت ذاكرة موحّدة، وإمّا NVIDIA RTX 6000 داخل حاسوب برجي. كلاهما يعمل، وكلاهما له قصّة نشر معقولة، وكلاهما يترك فئة من المشترين دون حلّ مناسب: الوزارة التي تعتمد لينكس أوّلاً، والقابضة التي وحّدت معايير عتادها على AMD، وضابط التوريد الذي تلقّى توجيهاً صريحاً بتنويع مورّدي المسرّعات. منصّة AMD ستريكس هالو، المسوّقة باسم Ryzen AI Max+ 395 مع ١٢٨ جيجابايت LPDDR5X ذاكرة موحّدة، باتت الإجابة الثالثة الموثوقة في فئة محطات العمل.

هذا دليل الركيزة لتلك المنصّة. يستعرض البنية، وأرقام معدّل الرموز في الثانية الفعلي التي يحتاجها المشترون المؤسّسيون، وقصّة أدوات ROCm في 2026، ومقارنة مباشرة مع M3 Ultra، وانعكاسات الطاقة والتوريد، والقيود التي تستحقّ التدوين بأمانة في أيّ مذكّرة تقييم، والشخصيّات المؤسّسيّة التي تُعدّ ستريكس هالو الخيار الصحيح لها. تشحن حصن ستريكس هالو ضمن أحد بنى AMD المرجعيّة داخل إطار الذكاء الاصطناعي داخل المؤسسات السيادية، لكنّ المنصّة نفسها أكبر من أيّ بائع منفرد.

لماذا تهمّ AMD ستريكس هالو للذكاء الاصطناعي السيادي عند الحافة

تضافرت ثلاث قوى في 2025 لتجعل ستريكس هالو منتجاً بدرجة سيادية بدلاً من فضول للهواة.

الأولى صعود نماذج كثيفة بحجم 27B إلى 32B مفتوحة الأوزان تُضاهي بصورة ذات معنى أداء GPT-4 على أعباء العمل المؤسّسيّة. Gemma 4 27B، وQwen 3.6 32B، وإصدارات Mistral Large 2 الكثيفة، وLlama 3.3 70B بكمّية Q4، تتسع جميعها داخل 24 إلى 64 جيجابايت من الأوزان. مسرِّع منفرد بـ 96 إلى 120 جيجابايت من الذاكرة المتاحة كافٍ لخدمة أيّ منها لجهة بحجم إدارة. قبل عامين كان ذلك يستلزم H100 على الأقل؛ في 2026 لم يعد كذلك.

الثانية نضج ROCm. قضت منظومة الحوسبة لدى AMD معظم العقد التالي لعام 2020 تطارد CUDA، بمسارات استدلال موثوقة لكن ببعض الخشونة في الأدوات واستقرار النواة وعرض المكتبات. ROCm 7، الذي صدر في أكتوبر 2025، يأتي بدعم من الدرجة الأولى لستريكس هالو (هدف gfx1151)، مع تسريع rocWMMA لمسارات BF16 وFP16، وحاويات llama.cpp مُحزَّمة عبر Lemonade SDK. لأعباء الاستدلال، أُغلِقت الفجوة مع CUDA فعلياً.

الثالثة جيوسياسية. ضباط التوريد السياديّون في الخليج يعملون بتوجيه صريح لتجنّب الاعتماد على مورّد حوسبة وحيد. المشتري الذي يُلزم نفسه بـ NVIDIA فقط يتّخذ قراراً قد يُطلَب من الوزير القادم الدفاع عنه. تقدّم ستريكس هالو لذلك المشتري بديلاً معقولاً من AMD في فئتَي محطّات العمل والإدارات الصغيرة، دون التخلّي عن مكتبة النماذج مفتوحة الأوزان أو نموذج التشغيل المعتمد على لينكس.

البنية: Zen 5، RDNA 3.5، XDNA 2، ١٢٨ جيجابايت موحّدة

Ryzen AI Max+ 395 هو تقنياً نظام على شريحة، لا مجرّد معالج مركزي ومعالج رسوم منفصلَين. فهم هذا مهمّ لكيفية نمذجة الذاكرة وعرض الحزمة.

المعالج المركزي. ستة عشر نواة Zen 5، اثنتان وثلاثون مساراً، تردّد أساس 3.0 جيجاهرتز وتعزيز حتى 5.1 جيجاهرتز، ذاكرة L3 بسعة 64 ميجابايت. ذلك وحده معالج محطّة عمل تنافسي. للمقارنة، يضمّ Threadripper 7960X أربعاً وعشرين نواة بتردّد مماثل؛ تُضحّي ستريكس هالو بثلثي النوى مقابل وحدتَي GPU وNPU على الحزمة نفسها.

وحدة الرسوم المُدمَجة. أربعون وحدة حساب RDNA 3.5، تحمل اسم Radeon 8060S، وتنحدر معماريّاً من سلسلة Radeon 9000 المنفصلة. هذا أقرب من حيث عدد الـ shaders إلى RX 7700 XT منه إلى وحدة رسوم محمولة اعتياديّة. الأهمّ، أنّها تتحدّث ROCm وتدعم تعليمات rocWMMA، وتظهر لـ llama.cpp وvLLM وOllama كجهاز حساب من الدرجة الأولى.

وحدة المعالجة العصبيّة. وحدة XDNA 2 بمعدّل أكثر من 50 TOPS، الأعلى ضمن فئة حواسيب Copilot+ عند الإطلاق. في استدلال النماذج اللغوية، نادراً ما تكون NPU عنق الزجاجة (توليد الرموز محكوم بعرض حزمة الذاكرة)، لكن في خطوط الرؤية والصوت والحلقات الوكيلة الصغيرة، تُعدّ NPU مفيدة فعلاً وتعمل بجزء يسير من طاقة CPU أو iGPU.

الذاكرة. حتى ١٢٨ جيجابايت LPDDR5X-8000 ملحومة، على واجهة بعرض 256 بت تُقدّم 256 جيجابايت/ثانية كعرض حزمة نظري. هذه القطعة هي ما يُغيّر حسابات محطّة العمل. من أصل الـ ١٢٨ جيجابايت، على مضيف لينكس مع ضبط معاملات النواة، يمكن تخصيص حتى 120 جيجابايت لوحدة GPU كذاكرة VRAM، مع ترك 8 جيجابايت مريحة لنظام التشغيل المضيف. تحت ويندوز أو لينكس الافتراضي، السقف هو 96 جيجابايت. للنشر السيادي على لينكس بلا واجهة، الرقم الأهمّ هو 120 جيجابايت.

غلاف الطاقة. TDP قابل للتهيئة من 45 واط (للنشر المحمول) حتى 120 واط (لهياكل سطح المكتب وحاسبات Mini-PC). أعباء استدلال النماذج اللغوية الفعليّة تستقرّ عند نحو 120 إلى 140 واط من المقبس.

معدّل الرموز في الثانية الفعلي على ستريكس هالو

القياسات التركيبية يسهل بناؤها ويسهل تجاهلها. الأرقام أدناه مأخوذة من مجموعات قياسات مجتمعيّة عامّة عبر amd-strix-halo-toolboxes واختبارات مجتمع Framework للأداء، إضافة إلى المرجع التقني على llm-tracker.info، جميعها على Framework Desktop بسعة ١٢٨ جيجابايت مع ROCm 7 وبنى llama.cpp الممكَّنة لـ rocWMMA. تعكس هذه الأرقام زمن الاستجابة لمستخدم واحد، وهو المقياس الأهمّ لمحطّات العمل السيادية.

النماذج الصغيرة إلى المتوسّطة الكثيفة. Llama 3.1 8B بصيغة Q4_K_M يستقرّ بين 60 و90 رمزاً في الثانية. Gemma 4 4B يتجاوز 100 رمز في الثانية. هذه أرقام فيها هامش لمكتب صغير.

النماذج المؤسّسيّة الرئيسية (27B إلى 32B كثيفة). Gemma 4 27B وQwen 3.6 32B بصيغة Q4_K_M يستقرّان في نطاق 25 إلى 45 رمزاً في الثانية، تبعاً للمحرّك وطول التلقين. هذا تفاعلي بسلاسة: ملخّص بصفحة واحدة يكتمل في حوالي خمس عشرة ثانية، وهو دون الحدّ الذي يبدأ عنده الموظّفون بالتخلّي عن الأداة.

نماذج خليط الخبراء. Qwen 3 30B-A3B (3B معامل مفعَّل لكل رمز) يبلغ نحو 86 رمزاً في الثانية. GPT-OSS 120B يستقرّ عند نحو 53 رمزاً في الثانية. تُوظّف معماريّات MoE نقاط قوّة ستريكس هالو: بصمة أوزان كبيرة تتسع داخل ١٢٨ جيجابايت، مع تفعيل شريحة صغيرة فقط لكل رمز، وهو ما تتعامل معه ذاكرة 256 جيجابايت/ثانية بكفاءة.

النماذج الكثيفة الكبيرة (فئة 70B). Llama 3 70B بصيغة Q4_K_M يستقرّ بين 4 و6 رموز في الثانية. هذا هو السقف العملي على عقدة ستريكس هالو منفردة، ويعكس حدّ عرض حزمة الذاكرة بأمانة. لأعباء 70B الكثيفة بتزامن عالٍ، الإجابة الصحيحة هي الفئة المؤسّسيّة (رفّ H100 أو H200)، لا ستريكس هالو. لـ 70B بإيقاع مراجعة وثائق لمستخدم واحد، فهي تعمل.

التهيئة المسبقة للتلقين. كثيراً ما تُهمَل. تُسجّل وحدة RDNA 3.5 أرقاماً قويّة في التهيئة المسبقة، تتراوح غالباً بين 400 و800 رمز في الثانية لتلقين بطول اعتيادي على نموذج بحجم 27B، ما يُبقي توليد التوليفات المعزَّزة بالاسترجاع طويل السياق قابلاً للاستخدام.

نضج ROCm وllama.cpp في 2026

بالنسبة لضابط التوريد، السؤال ليس "هل تُجاري ROCm CUDA في قياس بحثي؟" بل "هل يستطيع فريق هندستي نشر هذه المنصّة وتشغيلها إنتاجياً بالأدوات الراهنة؟" إجابة 2026 هي نعم، مع تحفّظات.

ما يعمل خارج الصندوق. محرّك llama.cpp ROCm/HIP مستقرّ، وLemonade SDK يشحن بنى يوميّة لستريكس هالو، وOllama يكشف وحدة الرسوم تلقائياً، ولـ vLLM مسارات وظيفيّة لستريكس هالو، ويعمل كلٌّ من Open WebUI وLiteLLM دون تعديل. مهندس لينكس سبق له نشر استدلال CUDA سيكون منتجاً على ستريكس هالو خلال يوم واحد.

ما يحتاج ضبطاً. تخصيص قسم ذاكرة GPU في BIOS (سقف 96 جيجابايت الافتراضي مقابل سقف 120 جيجابايت المضبوط على لينكس). معاملات النواة لدعم الصفحات الكبيرة. اختيار المحرّك (Vulkan أسرع في بعض الكمّيات وROCm في غيرها). يوثّق دليل الإعداد المجتمعي هذا من النهاية إلى النهاية.

ما لا يزال لصالح NVIDIA. الأكواد البحثية المتقدّمة التي تستهدف بدائيّات CUDA مباشرة. بعض أُطر التدريب التي يتأخّر فيها دعم ROCm بإصدار رئيسي أو إصدارَين. نواة الانتباه المُحسَّنة (FlashAttention 3) التي تصل أوّلاً إلى CUDA ثمّ إلى ROCm. لمؤسّسة سياديّة تنفّذ استدلالاً وضبطاً دقيقاً خفيفاً، لا شيء من هذا يهمّ. لمختبر بحثي يدفع حدود النماذج، يهمّ.

ستريكس هالو مقابل Apple M3 Ultra في الفئة نفسها

المقارنة الأمينة هي مع M3 Ultra Mac Studio، لا مع خوادم H100. كلاهما محطّتا عمل بذاكرة موحّدة تستهدفان الشخصيّة السياديّة الحدّيّة نفسها.

عرض حزمة الذاكرة. يقدّم M3 Ultra 819 جيجابايت/ثانية مقابل 256 جيجابايت/ثانية لستريكس هالو. هذه ميزة 3.2x لصالح آبل، وتظهر في معدّل الرموز في الثانية على أكبر النماذج الكثيفة. لعبء 70B كثيف، يكون M3 Ultra أسرع بنحو ضعف عملياً. للنماذج 27B الكثيفة ونماذج MoE، تضيق الفجوة كثيراً لأنّ الحوسبة، لا عرض الحزمة، تصبح عنق الزجاجة.

إجمالي الذاكرة. يصل M3 Ultra حتى 256 جيجابايت؛ سقف ستريكس هالو هو ١٢٨ جيجابايت. للمؤسّسات التي تُشغّل عدّة نماذج متوسّطة بالتوازي أو نموذجاً واحداً ضخماً جداً، يملك M3 Ultra هامشاً أكبر.

المنظومة البرمجيّة. Metal Performance Shaders وMLX من آبل ناضجتان؛ ومنصّة Apple Silicon هي الهدف التطويري لـ Ollama وLM Studio وعدّة خطوط إصدار للنماذج مفتوحة الأوزان. ROCm ناضجة للاستدلال لكنّها أبكر في دورة الحياة. كلتا المنظومتين تعملان إنتاجياً اليوم.

السعر. Framework Desktop بسعة ١٢٨ جيجابايت أو حاسوب Mini-PC مماثل يستقرّ بين USD 2,500 وUSD 3,500 تبعاً للتهيئة. Mac Studio بسعة 256 جيجابايت يستقرّ بين USD 5,800 وUSD 6,500. لكلّ جيجابايت ذاكرة موحّدة، ستريكس هالو أرخص؛ لكلّ جيجابايت/ثانية عرض حزمة، Mac Studio أرخص. المقياس الصحيح يعتمد على عبء العمل.

نموذج التشغيل. ستريكس هالو تعمل على لينكس أصلياً، وتندمج مع تدفّقات Ansible وSSH القائمة، وتجلس بجانب برامج المؤسّسة على معماريّة x86 (عملاء Active Directory، تكاملات ERP، عملاء SIEM) على الجهاز نفسه. Mac Studio يعمل بـ macOS، وهو ممتاز للذكاء الاصطناعي لكنّه كائن غريب في معظم بيئات تقنية المعلومات الحكوميّة. لجهة سياديّة تعتمد لينكس، تكسب ستريكس هالو هذه المقارنة على أرضيّة تشغيليّة قبل أيّ قياس.

الطاقة والتكلفة وقصّة التوريد

محطّة عمل ستريكس هالو تعيش في مكتب اعتيادي. لا أرضيّة مرفوعة، ولا خطّة تبريد لصفّ من الرفوف، ولا ترقية لـ UPS المبنى. إجمالي سحب الطاقة تحت استدلال مستدام يقارب سحب محطّة عمل محمولة على حِمل كامل. هذا صديق للتوريد بثلاث طرق.

ينقل المحادثة من المرافق إلى تقنية المعلومات. وزارة قد تحتاج ثمانية عشر شهراً من الموافقات لتركيب خادم H100 بحجم 4U تستطيع تركيب محطّة عمل ستريكس هالو ضمن قواعد توريد الطرفيّات القائمة. خطوات التصنيف والتدقيق والقبول التي تحرس النشر داخل مركز البيانات لا تنطبق على جهاز بفئة سطح المكتب، حتى وإن شغّل نماذج بسعة ٧٠ مليار معامل.

يسمح بمنهج "تجريب ثمّ توسيع". اشترِ عقدة ستريكس هالو واحدة لتقييم في إدارة واحدة. شغّلها تسعين يوماً. إن تجاوز عبء العمل سعتها، توسّع بعقد إضافيّة أو ارتقِ إلى الفئة المؤسّسيّة. رأس المال الملتزَم في مرحلة التجريب بحجم سيّارة متوسّطة لمسؤول كبير، لا برنامج رأسمالي متعدّد السنوات.

ينوّع مزيج مورّدي المسرّعات. مؤسّسة تُشغّل NVIDIA في الفئة المؤسّسيّة وAMD في فئة محطّات العمل قد حصّنت نفسها بنيوياً ضدّ سلسلة توريد وحيدة. لمشترين سياديّين تحت تكليفات تنويع صريحة، ستريكس هالو هي الطريقة الأنظف لإضافة سطر AMD دون التخلّي عن تغطية النماذج أو النضج التشغيلي.

قيود تُكتَب في مصفوفة التقييم

مذكّرة توريد أمينة تُسجّل ثلاثة قيود صراحة.

توسعة المقبس الواحد. ستريكس هالو شريحة SoC واحدة. لا يوجد مكافئ لـ NVLink لربط شريحتَين داخل هيكل واحد. التوسعة فوق عقدة واحدة تتمّ عبر إيثرنت بواسطة توازي vLLM أو llama.cpp RPC، وهو يعمل لكنّه يُدخل تأخيراً شبكياً. لأعباء العمل التي تتطلّب مسرّعاً متجانساً واحداً أكبر من 120 جيجابايت، ستريكس هالو ليست الإجابة.

فجوة مكتبات ROCm مقابل CUDA. رغم تغطية الاستدلال جيداً، لا تزال بعض الأعباء (الضبط الدقيق طويل السياق، أنماط الكمّية الغريبة، مُتغيّرات الانتباه البحثيّة) تُشحَن لـ CUDA أوّلاً. فريق سيادي يطمح للوقوف عند حافة بحوث النماذج، لا عند طرف "النشر والتشغيل"، سيجد هذا الاحتكاك. حالات الاستخدام المؤسّسيّة الرئيسيّة (RAG، التلخيص، الصياغة، التصنيف) لا تجده.

سقف عرض حزمة الذاكرة. 256 جيجابايت/ثانية كافية لكلّ شيء حتى نموذج كثيف بحجم 70B بإيقاع مستخدم واحد، لكنّه السقف. الأعباء التي تحتاج معدّلاً أعلى لكلّ مستخدم على نماذج كثيفة كبيرة ستصطدم بهذا الجدار. تتجنّب معماريّات MoE (مثل Qwen 3 30B-A3B وGPT-OSS 120B) ذلك بأناقة بتفعيل جزء يسير من الأوزان لكلّ رمز؛ النشر السيادي الذي يتوقّع نموّاً ينبغي أن يخطّط حول خيارات نماذج صديقة لـ MoE.

متى تكون ستريكس هالو الخيار الصحيح

تتكرّر ثلاث شخصيّات في محادثاتنا مع المشترين.

وزارة لينكس أوّلاً. إدارة تقنية معلومات تُشغّل RHEL أو Ubuntu عبر أسطولها، تنشر بـ Ansible، تتكامل مع SIEM عبر تسجيل وكلاء، وتعتبر macOS كياناً غريباً. لهذا الفريق، تنزلق ستريكس هالو داخل الممارسة التشغيليّة القائمة دون أدوات جديدة. هي الخيار الصحيح في فئتَي محطّات العمل والإدارات الصغيرة.

قابضة بتكليف تنويع. صندوق سيادي أو شركة قابضة بتعليمات صريحة لتجنّب الاعتماد على مورّد مسرّعات وحيد. مزج عناقيد H100/H200 المؤسّسيّة مع وحدات AMD MI300X لمراكز البيانات في الفئة العليا، وستريكس هالو في فئة محطّات العمل، يُنتج مزيج مورّدين نظيفاً قابلاً للدفاع.

المشتري المُفضِّل لـ AMD. مؤسّسة بخوادم AMD EPYC قائمة، أو أُطر توريد متّسقة مع AMD، أو شراكة AMD على مستوى المجموعة. لهؤلاء، ستريكس هالو هي ببساطة جواب AMD على سؤال محطّة العمل، والاختيار يكتب نفسه.

تعالج معين، منصّة الذكاء الاصطناعي المشتركة الوطنيّة في عُمان، الطلب الحكومي العامّ على الذكاء الاصطناعي وتواصل التطوّر. غير أنّ الأعباء السياديّة التي تتطلّب بنية تحتيّة مكرّسة داخل محيط المؤسّسة هي تحديداً ما توجد منصّات مثل حصن لخدمته، وستريكس هالو إحدى لبنات البناء الموثوقة لذلك العمل في 2026.

إذا كان فريقك بصدد تحديد حجم نشر لمحطّة عمل سياديّة ويرغب في تحليل قرار AMD مقابل آبل مقابل NVIDIA على أعباء عمله الفعليّة، راسلنا على [email protected] لحجز جلسة إيجاز لمدّة ساعة. نُحضر أرقام القياسات، ولغة التوريد، وخطّة النشر، ونترك القرار بين أيديكم.

أسئلة شائعة

هل تستطيع ستريكس هالو فعلاً تشغيل نموذج بحجم 70B على جهاز واحد؟

نعم، بكمّيّة Q4. مع ١٢٨ جيجابايت ذاكرة موحّدة وإمكانية تخصيص حتى ١٢٠ جيجابايت لوحدة الرسوم على لينكس، يستوعب الجهاز ملف أوزان نموذج Llama 3 70B أو Qwen 3.6 72B بصيغة Q4_K_M ويُقدّم حوالي 4 إلى 6 رموز في الثانية لكلّ مستخدم. هذا تفاعلي بما يكفي لمراجعة الوثائق والصياغة المنظَّمة، لكنّه ليس مثالياً لمحادثات عالية التزامن. للنماذج بحجم 27B إلى 32B، توقَّع 25 إلى 45 رمزاً في الثانية حسب المُحرِّك.

هل ROCm ناضجة بما يكفي للنشر الإنتاجي في 2026؟

للاستدلال على نماذج مفتوحة الأوزان عبر llama.cpp أو vLLM أو Ollama، نعم. يأتي ROCm 7 بدعم مستقرّ لستريكس هالو (هدف gfx1151)، مع تسريع rocWMMA لمسارات BF16 وFP16، وحاويات llama.cpp يومية عبر Lemonade SDK. الفجوة مع CUDA لا تزال قائمة في الأكواد البحثيّة المتقدّمة وبعض أُطر التدريب، لكنّ تسعين بالمئة من حالات الاستخدام السياديّة، أي الاستدلال والضبط الدقيق الخفيف، مدعومة جيّداً.

كيف تُقارَن ستريكس هالو بـ Apple M3 Ultra Mac Studio في الفئة نفسها؟

يتفوّق M3 Ultra على عرض حزمة الذاكرة الخام (819 جيجابايت/ثانية مقابل 256 جيجابايت/ثانية) وعلى نضج منظومته البرمجية عبر Metal Performance Shaders وMLX. تتفوّق ستريكس هالو على السعر (Framework Desktop بسعة ١٢٨ جيجابايت يقارب نصف تكلفة Mac Studio بسعة 256 جيجابايت)، وعلى دعم لينكس الأصيل، وعلى قدرة تشغيل برامج المؤسّسات على معمارية x86 جنباً إلى جنب مع النموذج. لمؤسَّسة لينكس، الخيار الأمثل ستريكس هالو؛ لمؤسَّسة Apple-first، يبقى M3 Ultra الأفضل.

ما الاستهلاك الفعلي للطاقة تحت استدلال نموذج لغوي مستدام؟

جهاز Framework Desktop أو Mini-PC مماثل يُشغّل نموذجاً بحجم 32B تحت حِمل مستدام يسحب نحو 120 إلى 140 واط من المقبس، ضمن حدود cTDP المُعلَنة 45 إلى 120 واط للشريحة. هذا نحو عُشر استهلاك خادم H100 في وضع الخمول. لمحطّة عمل سياديّة في مكتب اعتيادي، لا حاجة لتبريد إضافي أو ترتيبات طاقة خاصّة.

أين تقع ستريكس هالو ضمن خطّ منتجات حصن؟

ستريكس هالو هي الجانب AMD من فئتَي Kernel وTower. حيث يكون Mac Studio الخيار الأنسب لمكتب يعتمد آبل وRTX 6000 الخيار الأنسب لفريق يعتمد CUDA، تكون ستريكس هالو الخيار الأنسب لجهة سياديّة تعتمد لينكس، أو مؤسّسة تُوحِّد بنيتها على AMD، أو أيّ سيناريو توريد يستلزم تنويع المورّدين بعيداً عن مورّد مسرّعات وحيد.

ما القيود الرئيسية الواجب تدوينها في مذكّرة التوريد؟

ثلاث. مقبس واحد (لا توسعة متعدّدة الوحدات داخل هيكل واحد، التوسعة تتمّ بإضافة عُقد). فجوة مكتبات ROCm مقابل CUDA (بعض الأكواد البحثية والنُّوى المُحسَّنة وأُطر التدريب الخاصّة لا تزال تُفضّل NVIDIA). عرض حزمة ذاكرة أدنى من M3 Ultra وH100 (سقف 256 جيجابايت/ثانية)، ما يحدّ من معدّل الرموز في الثانية للنماذج الكثيفة فوق 70B معامل. لا شيء من هذه يُلغي الخيار في الاستدلال السيادي، لكنّها يجب أن تُكتَب في مصفوفة التقييم بأمانة.