مسرعات AI خارج نطاق GPU: مشهد السيليكون البديل
تم التحديث في 11 ديسمبر 2025
تحديث ديسمبر 2025: AWS Trainium3 متاح الآن بقدرة 2.52 PFLOPS FP8 لكل شريحة و144GB HBM3e. Google TPU v7 Ironwood يقدم 4,614 TFLOPS لكل شريحة—المحللون يصفونه بأنه "على قدم المساواة مع Blackwell." Intel تؤكد إيقاف Gaudi عند إطلاق GPU الجيل القادم 2026-2027. Groq LPU يحقق 750 رمز/ثانية في النماذج الصغيرة بينما Cerebras WSE-3 يصل إلى 125 PFLOPS ذروة. السيليكون البديل يكتسب زخماً لأعباء عمل محددة رغم هيمنة NVIDIA بنسبة 80%.
تحتل NVIDIA حوالي 80% من سوق مسرعات AI، لكن الطلب المتزايد على البنية التحتية الفعالة من حيث التكلفة والمتكاملة عمودياً يزيد ببطء من اعتماد السيليكون البديل.¹ أطلقت Google الجيل السابع من TPU Ironwood في نوفمبر 2025، والذي يصفه المحللون بأنه "على قدم المساواة مع NVIDIA Blackwell."² نشرت AWS أكثر من 500,000 شريحة Trainium2 لتدريب نماذج Anthropic—أكبر مجموعة AI غير NVIDIA في الإنتاج.³ أطلقت Cerebras WSE-3 بـ4 تريليون ترانزستور و125 بيتافلوب من الأداء القصوى.⁴ مشهد مسرعات AI يمتد بعيداً عن GPU، ويقدم معماريات محسنة لأعباء عمل محددة تقيمها الشركات بشكل متزايد.
يبقى GPU الخيار الافتراضي للمرونة ونضج النظام البيئي. هيمنة CUDA والابتكار المستمر من NVIDIA يجعل تكاليف التحول كبيرة. لكن مصممي hyperscalers لسيليكونهم الخاص، والشركات الناشئة التي تتحدى افتراضات معمارية الشرائح، والتسعير العدواني من Intel كلها تخلق خيارات لم تكن موجودة قبل خمس سنوات. المنظمات التي تشغل AI على نطاق واسع تقيم الآن خيارات المسرع كقرارات بنية تحتية استراتيجية وليس مشتريات سلعية.
Google TPU: معيار hyperscaler
أعلنت Google عن Trillium (TPU v6) في مايو 2024 وأتاحته عموماً في 2025.⁵ يحقق TPU الجيل السادس 4.7 أضعاف أداء الحوسبة القصوى لكل شريحة مقارنة بـTPU v5e.⁶ وسعت Google أحجام وحدات الضرب المصفوفي وزادت سرعات الساعة للوصول إلى حوالي 926 تيرافلوب من أداء BF16.⁷
ضاعفت سعة الذاكرة وعرض النطاق الترددي عن الجيل السابق.⁸ يوفر Trillium 32 جيجابايت من سعة HBM لكل شريحة مع زيادة متناسبة في عرض النطاق الترددي.⁹ كما تضاعف عرض النطاق الترددي للربط بين الشرائح، مما يحسن كفاءة التوسع متعدد الشرائح.¹⁰
تحسنت كفاءة الطاقة بأكثر من 67% مقارنة بـTPU v5e.¹¹ يقدر محللو الصناعة أن TPU v6 يعمل بكفاءة أكبر بنسبة 60-65% من GPU، مقارنة بمزايا كفاءة 40-45% في الأجيال السابقة.¹² تتراكم مكاسب الكفاءة على نطاق مركز البيانات حيث قيود الطاقة تحد من كثافة النشر.
يتوسع Trillium إلى 256 TPU في حجرة واحدة عالية عرض النطاق الترددي ومنخفضة زمن الاستجابة.¹³ خارج قابلية التوسع على مستوى الحجرة، تمكن تقنية multislice ووحدات Titanium Intelligence Processing من التوسع إلى مئات الحجرات، وربط عشرات الآلاف من الشرائح في حواسيب عملاقة بحجم المباني.¹⁴ أكبر مجموعة Trillium تقدم 91 إكسافلوب—أربعة أضعاف أكبر مجموعة TPU v5p.¹⁵
تُظهر معايير التدريب تحسينات الأداء. قدم Trillium أكثر من أربعة أضعاف زيادة أداء التدريب لـGemma 2-27B وMaxText Default-32B وLlama2-70B مقارنة بـTPU v5e.¹⁶ تحسنت إنتاجية الاستنتاج ثلاث مرات لـStable Diffusion XL.¹⁷ استخدمت Google Trillium لتدريب Gemini 2.0.¹⁸
كشفت Google عن TPU v7 (Ironwood) في Cloud Next في أبريل 2025.¹⁹ يقدم Ironwood 4,614 تيرافلوب لكل شريحة وسيُشحن في تكوينات من 256 شريحة و9,216 شريحة.²⁰ أشاد فريق SemiAnalysis بالسيليكون، مشيراً إلى أن تفوق Google بين hyperscalers لا مثيل له.²¹
الوصول إلى TPU يتطلب Google Cloud. المنظمات الملتزمة بالنشر متعدد السحابة أو في المقر لا يمكنها استخدام بنية TPU مباشرة. النموذج السحابي فقط يحد من الاعتماد للمنظمات ذات متطلبات إقامة البيانات أو السيادة التي لا تلبيها مناطق Google Cloud.
AWS Trainium: شراكة Anthropic
أطلقت AWS Trainium3 في ديسمبر 2025—أول شريحة AI بـ3nm من الشركة.²² توفر كل شريحة Trainium3 2.52 بيتافلوب من حوسبة FP8 مع 144 جيجابايت من ذاكرة HBM3e و4.9 تيرابايت في الثانية من عرض النطاق الترددي للذاكرة.²³ تمثل المواصفات 1.5 ضعف سعة الذاكرة و1.7 ضعف عرض النطاق الترددي من Trainium2.²⁴
تتوسع خوادم Trn3 UltraServers إلى 144 شريحة Trainium3 تقدم 362 بيتافلوب إجمالي أداء FP8.²⁵ يوفر UltraServer مكتمل التكوين 20.7 تيرابايت من HBM3e و706 تيرابايت في الثانية من عرض النطاق الترددي الإجمالي للذاكرة.²⁶ تدعي AWS 4.4 أضعاف أداء الحوسبة، و4 أضعاف كفاءة الطاقة، وتقريباً 4 أضعاف عرض النطاق الترددي للذاكرة من أنظمة Trainium2.²⁷
شبكة NeuronSwitch-v1 تضاعف عرض النطاق الترددي للربط بين الشرائح عن Trn2 UltraServer.²⁸ معمارية الشبكة الشاملة تمكن التدريب الموزع الفعال عبر مجموعة الشرائح الكاملة.
يمثل مشروع Rainier أكبر نشر لبنية AI التحتية من AWS. تعاونت AWS مع Anthropic لربط أكثر من 500,000 شريحة Trainium2 في أكبر مجموعة حوسبة AI في العالم—خمسة أضعاف أكبر من البنية التحتية المستخدمة لتدريب الجيل السابق من نماذج Anthropic.²⁹ الشراكة تُظهر جدوى Trainium لتدريب النماذج المتقدمة.
توفر حالات EC2 Trn2 المعتمدة على Trainium2 أداء سعري أفضل بنسبة 30-40% من حالات EC2 P5e وP5en المعتمدة على GPU وفقاً لـAWS.³⁰ ميزة التكلفة مهمة لأعباء عمل التدريب المستمر حيث تكاليف الحوسبة تهيمن على الميزانيات.
أوقفت AWS خط Inferentia لأن أعباء عمل الاستنتاج تشبه بشكل متزايد التدريب في متطلباتها الحاسوبية.³¹ معمارية Trainium تتعامل الآن مع التدريب والاستنتاج معاً، مما يبسط محفظة الشرائح.
Trainium4 قيد التطوير مع التسليم المتوقع في أواخر 2026 أو أوائل 2027.³² أعلنت AWS عن 6 أضعاف إنتاجية FP4 على الأقل، و3 أضعاف أداء FP8، و4 أضعاف عرض النطاق الترددي للذاكرة مقارنة بـTrainium3.³³ سيدعم Trainium4 تقنية ربط NVIDIA NVLink Fusion، مما يمكن التكامل مع GPU من NVIDIA في تكوينات الرف المشتركة.³⁴
Intel Gaudi: منافس السعر
أطلقت Intel Gaudi 3 في 2024، وضعته كبديل فعال من حيث التكلفة لـNVIDIA H100.³⁵ يستخدم Gaudi 3 chipletين مع 64 نواة معالج tensor، وثمانية محركات ضرب مصفوفي، و96 ميجابايت من ذاكرة SRAM التخزينية على الشريحة بعرض نطاق ترددي 19.2 تيرابايت في الثانية.³⁶ تدمج الشريحة 128 جيجابايت من ذاكرة HBM2e بعرض نطاق ترددي 3.67 تيرابايت في الثانية.³⁷
يقدم Gaudi 3 1,835 BF16/FP8 matrix تيرافلوب بحوالي 600 واط TDP.³⁸ مقارنة بـNVIDIA H100، يوفر Gaudi 3 أداء BF16 matrix أعلى (1,835 مقابل 1,979 تيرافلوب بدون sparsity) وسعة HBM أكثر (128 مقابل 80 جيجابايت).³⁹ عرض النطاق الترددي للذاكرة يتجاوز أيضاً H100.⁴⁰
تدعي Intel أن Gaudi 3 عادة أسرع بنسبة 40% من NVIDIA H100 ويمكن أن يتجاوز H100 بما يصل إلى 1.7 مرة في تدريب Llama2-13B بدقة FP8.⁴¹ ادعاءات كفاءة الطاقة أكثر دراماتيكية—تصل إلى 220% من قيمة H100 في معايير Llama و230% في Falcon.⁴²
ميزة التسعير كبيرة. نظام Gaudi 3 بثمانية مسرعات يكلف $157,613 مقارنة بـ$300,107 لنظام H100 مكافئ.⁴³ التسعير لكل شريحة يبلغ حوالي $15,625 لـGaudi 3 مقابل $30,678 لـH100.⁴⁴ الفارق في التكلفة يمكن المنظمات من نشر حوالي ضعف سعة الحوسبة لميزانية مكافئة.
يستخدم Gaudi 3 HBM2e بدلاً من HBM3 أو HBM3e، مما يساهم في التكلفة المنخفضة لكن يحد من عرض النطاق الترددي للذاكرة مقارنة ببدائل الجيل الحالي.⁴⁵ المنظمات التي تشغل أعباء عمل محدودة بعرض النطاق الترددي للذاكرة يجب أن تقيم هذه المقايضة بعناية.
تحدي النظام البيئي يحد من اعتماد Gaudi. CUDA من NVIDIA يهيمن على تطوير AI، والانتقال إلى أدوات Intel يتطلب استثماراً هندسياً.⁴⁶ حصة Intel في السوق في مسرعات AI تبقى ضئيلة رغم الأجهزة التنافسية.⁴⁷
أعلنت Intel أن Gaudi سيتم إيقافه عند إطلاق GPU الجيل القادم للـAI في 2026-2027.⁴⁸ إعلان الإيقاف يخلق مخاطر الاعتماد للمنظمات التي تفكر في نشر Gaudi متعدد السنوات. الشركاء قد يترددون في الاستثمار في خط منتج مع نهاية حياة معلنة.
Groq LPU: قيادة سرعة الاستنتاج
يتخذ Language Processing Unit (LPU) من Groq نهجاً معمارياً مختلفاً جذرياً، يحسن خصيصاً للاستنتاج بدلاً من التدريب.⁴⁹ معمارية Tensor Streaming Processor تحقق 750 TOPS في INT8 و188 تيرافلوب في FP16 مع عرض نطاق ترددي ضخم لـSRAM على الشريحة بـ80 تيرابايت في الثانية.⁵⁰
يقدم LPU الجيل الأول أكثر من 1 تيراop في الثانية لكل ملليمتر مربع على شريحة 14nm تعمل بـ900 MHz.⁵¹ LPU الجيل الثاني سيستخدم عملية Samsung 4nm.⁵²
سرعة الاستنتاج تحدد قيمة Groq المقترحة. يقدم LPU Mixtral 8x7B بـ480 رمز في الثانية وLlama 2 70B بـ300 رمز في الثانية.⁵³ النماذج الأصغر مثل Llama 2 7B تحقق 750 رمز في الثانية.⁵⁴ كانت Groq أول مزود API يكسر 100 رمز في الثانية على Llama2-70B.⁵⁵
يقدم LPU استنتاجاً أسرع بـ18 مرة من GPU التقليدية للنماذج اللغوية مع زمن استجابة حتمي تحت الميلي ثانية.⁵⁶ تصل كفاءة الطاقة إلى 1-3 جول لكل رمز.⁵⁷
تكلف بطاقات LPU حوالي $20,000—مقارنة بـGPU عالية الجودة من NVIDIA—لكنها تتفوق خصيصاً في سرعة وكفاءة الاستنتاج.⁵⁸ المقايضة واضحة: LPUs تتعامل مع الاستنتاج فقط، وليس التدريب.⁵⁹
توسعت بصمة نشر Groq بشكل كبير في 2025. تشغل الشركة دزينة من مراكز البيانات عبر الولايات المتحدة وكندا والشرق الأوسط وأوروبا.⁶⁰ في سبتمبر 2025، جمعت Groq $750 مليون بتقييم $6.9 مليار.⁶¹
شراكة المملكة العربية السعودية المعلنة في فبراير 2025 تلتزم بـ$1.5 مليار لبناء ما تصفه Groq بأكبر مركز بيانات لاستنتاج AI في العالم في الدمام.⁶² النشر الأولي يضم 19,000 LPU مع توسعات سعة مخططة لتتجاوز 100,000 LPU بحلول 2027.⁶³
Cerebras WSE-3: التكامل على مستوى الويفر
تتخذ Cerebras النهج المعماري الأكثر راديكالية، ببناء الشرائح على مستوى الويفر بدلاً من تقطيع الويفرات إلى معالجات فردية.⁶⁴ تحتوي WSE-3 على 4 تريليون ترانزستور عبر الويفر بأكمله—46,225 ميلليمتر مربع من السيليكون.⁶⁵
تحشد WSE-3 900,000 نواة حوسبة محسنة للـAI تقدم 125 بيتافلوب من أداء AI القصوى.⁶⁶ تصل SRAM على الشريحة إلى 44 جيجابايت بعرض نطاق ترددي للذاكرة 21 بيتابايت في الثانية.⁶⁷ يصل عرض النطاق الترددي للشبكة إلى 214 بيتابت في الثانية.⁶⁸ الشريحة مُصنعة على عملية TSMC 5nm.⁶⁹
نظام CS-3 يضاعف أداء CS-2 في نفس غلاف الطاقة 15 كيلووات.⁷⁰ CS-3 واحد يناسب 15U من مساحة الرف.⁷¹ خيارات الذاكرة الخارجية تمدد السعة إلى 1.5 تيرابايت، أو 12 تيرابايت، أو 1.2 بيتابايت اعتماداً على التكوين.⁷²
سعة النموذج تتوسع بشكل كبير. يمكن لـCS-3 تدريب نماذج شبكة عصبية تصل إلى 24 تريليون معامل.⁷³ المجموعات تتوسع إلى 2,048 نظام CS-3 تقدم ما يصل إلى 256 إكسافلوب من حوسبة FP16.⁷⁴
تدعي Cerebras مزايا كبيرة في سهولة الاستخدام. المنصة تتطلب 97% أقل من الكود من GPU للـLLMs وتدرب النماذج من 1 مليار إلى 24 تريليون معامل في وضع متوازي البيانات بحتة.⁷⁵ تكوينات مضغوطة من أربعة أنظمة يمكنها ضبط نماذج 70B في يوم.⁷⁶ على نطاق 2,048 نظام كامل، Llama 70B يتدرب من الصفر في يوم واحد.⁷⁷
حاسوب Condor Galaxy 3 العملاق في دالاس سينشر 64 نظام CS-3 لـ8 إكسافلوب من حوسبة FP16.⁷⁸ مجلة TIME اعترفت بـWSE-3 كأفضل اختراع لـ2024.⁷⁹
SambaNova SN40L: تدفق البيانات القابل لإعادة التكوين
معمارية Reconfigurable Dataflow Unit (RDU) من SambaNova تختلف عن GPU والـASICs المخصصة.⁸⁰ SN40L يجمع مرونة تدفق البيانات على الشريحة مع نظام ذاكرة ثلاثي المستويات: SRAM على الشريحة، HBM على الحزمة، وDRAM خارج الحزمة.⁸¹
يستخدم SN40L عملية TSMC 5nm في حزمة CoWoS مزدوجة الـdie.⁸² كل مقبس يحتوي على 102 مليار ترانزستور يقدم 640 BF16 تيرافلوب و520 ميجابايت من SRAM على الشريحة.⁸³ مستوى DDR يدعم حتى 1.5 تيرابايت من سعة الذاكرة بأكثر من