مسرّعات الذكاء الاصطناعي ما وراء وحدات معالجة الرسومات: مشهد الرقائق البديلة
آخر تحديث: 11 ديسمبر 2025
تحديث ديسمبر 2025: بدأ شحن AWS Trainium3 بأداء 2.52 بيتافلوبس FP8 لكل شريحة وذاكرة HBM3e بسعة 144 جيجابايت. يقدم Google TPU v7 Ironwood أداءً يصل إلى 4,614 تيرافلوبس لكل شريحة - ويصفه المحللون بأنه "مكافئ لمعالجات Blackwell". أكدت Intel إيقاف Gaudi عند إطلاق الجيل التالي من وحدات معالجة الرسومات في 2026-2027. يحقق Groq LPU سرعة 750 رمزاً في الثانية على النماذج الأصغر بينما يصل Cerebras WSE-3 إلى 125 بيتافلوبس كأداء أقصى. تكتسب الرقائق البديلة زخماً لأحمال عمل محددة رغم هيمنة NVIDIA على 80% من السوق.
تمتلك NVIDIA ما يقارب 80% من سوق مسرّعات الذكاء الاصطناعي، لكن الطلب المتزايد على البنية التحتية الفعّالة من حيث التكلفة والمتكاملة رأسياً يزيد تدريجياً من اعتماد الرقائق البديلة.¹ أطلقت Google الجيل السابع من TPU المسمى Ironwood في نوفمبر 2025، والذي يصفه المحللون بأنه "مكافئ تقريباً لمعالجات NVIDIA Blackwell".² نشرت AWS أكثر من 500,000 شريحة Trainium2 لتدريب نماذج Anthropic - وهي أكبر مجموعة ذكاء اصطناعي لا تعتمد على NVIDIA في الإنتاج.³ أطلقت Cerebras معالج WSE-3 الذي يحتوي على 4 تريليون ترانزستور وأداء أقصى يصل إلى 125 بيتافلوبس.⁴ يمتد مشهد مسرّعات الذكاء الاصطناعي إلى ما هو أبعد من وحدات معالجة الرسومات، حيث يقدم معماريات محسّنة لأحمال عمل محددة تقيّمها المؤسسات بشكل متزايد.
تبقى وحدة معالجة الرسومات الخيار الافتراضي للمرونة ونضج المنظومة. تجعل هيمنة CUDA والابتكار المستمر من NVIDIA تكاليف التحويل كبيرة. ومع ذلك، فإن مزودي الخدمات السحابية الكبرى الذين يصممون رقائقهم الخاصة، والشركات الناشئة التي تتحدى افتراضات معمارية الرقائق، والتسعير العدواني من Intel، كلها تخلق خيارات لم تكن موجودة قبل خمس سنوات. تقيّم المؤسسات التي تشغّل الذكاء الاصطناعي على نطاق واسع الآن خيارات المسرّعات كقرارات استراتيجية للبنية التحتية بدلاً من شراء سلعي.
Google TPU: المعيار المرجعي لمزودي الخدمات السحابية الكبرى
أعلنت Google عن Trillium (TPU v6) في مايو 2024 وجعلته متاحاً للعموم في 2025.⁵ يحقق الجيل السادس من TPU أداءً حسابياً أقصى يبلغ 4.7 ضعف لكل شريحة مقارنة بـ TPU v5e.⁶ وسّعت Google أحجام وحدات ضرب المصفوفات وزادت سرعات التردد للوصول إلى ما يقارب 926 تيرافلوبس من أداء BF16.⁷
تضاعفت سعة الذاكرة وعرض النطاق الترددي مقارنة بالجيل السابق.⁸ يوفر Trillium سعة 32 جيجابايت من ذاكرة HBM لكل شريحة مع زيادة متناسبة في عرض النطاق الترددي.⁹ تضاعف أيضاً عرض النطاق الترددي للربط بين الشرائح، مما يحسّن كفاءة التوسع متعدد الشرائح.¹⁰
تحسنت كفاءة الطاقة بأكثر من 67% مقارنة بـ TPU v5e.¹¹ يقدّر محللو الصناعة أن TPU v6 يعمل بكفاءة أعلى بنسبة 60-65% من وحدات معالجة الرسومات، مقارنة بمزايا كفاءة بنسبة 40-45% في الأجيال السابقة.¹² تتضاعف مكاسب الكفاءة على نطاق مراكز البيانات حيث تحد قيود الطاقة من كثافة النشر.
يتوسع Trillium إلى 256 وحدة TPU في جراب واحد عالي النطاق الترددي ومنخفض زمن الاستجابة.¹³ بما يتجاوز قابلية التوسع على مستوى الجراب، تتيح تقنية الشرائح المتعددة ووحدات معالجة الذكاء Titanium التوسع إلى مئات الجرابات، مما يربط عشرات الآلاف من الشرائح في حواسيب فائقة بحجم المباني.¹⁴ تقدم أكبر مجموعة Trillium أداءً يصل إلى 91 إكسافلوبس - أربعة أضعاف أكبر مجموعة TPU v5p.¹⁵
تُظهر معايير التدريب تحسينات الأداء. قدم Trillium زيادة في أداء التدريب تتجاوز أربعة أضعاف لنماذج Gemma 2-27B و MaxText Default-32B و Llama2-70B مقارنة بـ TPU v5e.¹⁶ تحسّن إنتاج الاستدلال ثلاثة أضعاف لـ Stable Diffusion XL.¹⁷ استخدمت Google معالج Trillium لتدريب Gemini 2.0.¹⁸
كشفت Google عن TPU v7 (Ironwood) في مؤتمر Cloud Next في أبريل 2025.¹⁹ يقدم Ironwood أداءً يصل إلى 4,614 تيرافلوبس لكل شريحة وسيُشحن بتكوينات من 256 شريحة و 9,216 شريحة.²⁰ أشاد فريق SemiAnalysis بالرقاقة، مصرحين أن تفوق Google بين مزودي الخدمات السحابية الكبرى لا مثيل له.²¹
يتطلب الوصول إلى TPU استخدام Google Cloud. لا تستطيع المؤسسات الملتزمة بالسحابة المتعددة أو النشر المحلي استخدام بنية TPU التحتية مباشرة. يحد النموذج السحابي الحصري من الاعتماد للمؤسسات التي لديها متطلبات إقامة البيانات أو السيادة التي لا تلبيها مناطق Google Cloud.
AWS Trainium: شراكة Anthropic
أطلقت AWS معالج Trainium3 في ديسمبر 2025 - أول شريحة ذكاء اصطناعي بتقنية 3 نانومتر للشركة.²² توفر كل شريحة Trainium3 قوة حوسبة تصل إلى 2.52 بيتافلوبس FP8 مع ذاكرة HBM3e بسعة 144 جيجابايت وعرض نطاق ترددي للذاكرة يصل إلى 4.9 تيرابايت في الثانية.²³ تمثل هذه المواصفات سعة ذاكرة أكبر بـ 1.5 مرة وعرض نطاق ترددي أكبر بـ 1.7 مرة من Trainium2.²⁴
تتوسع خوادم Trn3 UltraServers إلى 144 شريحة Trainium3 تقدم إجمالي أداء FP8 يصل إلى 362 بيتافلوبس.²⁵ يوفر خادم UltraServer المكتمل التكوين 20.7 تيرابايت من HBM3e و 706 تيرابايت في الثانية من عرض النطاق الترددي الإجمالي للذاكرة.²⁶ تدّعي AWS أداءً حسابياً أكبر بـ 4.4 مرة، وكفاءة طاقة أكبر بـ 4 مرات، وعرض نطاق ترددي للذاكرة أكبر بحوالي 4 مرات من الأنظمة المعتمدة على Trainium2.²⁷
يضاعف نسيج NeuronSwitch-v1 عرض النطاق الترددي للربط بين الشرائح مقارنة بـ Trn2 UltraServer.²⁸ تتيح معمارية النسيج الشاملة تدريباً موزعاً فعّالاً عبر كامل مجموعة الشرائح.
يمثل مشروع Rainier أكبر نشر للبنية التحتية للذكاء الاصطناعي من AWS. تعاونت AWS مع Anthropic لربط أكثر من 500,000 شريحة Trainium2 في أكبر مجموعة حوسبة ذكاء اصطناعي في العالم - أكبر بخمس مرات من البنية التحتية المستخدمة لتدريب الجيل السابق من نماذج Anthropic.²⁹ تُظهر الشراكة جدوى Trainium لتدريب النماذج الحدودية.
تقدم نسخ EC2 Trn2 المعتمدة على Trainium2 أداءً أفضل من حيث السعر بنسبة 30-40% مقارنة بنسخ EC2 P5e و P5en المعتمدة على وحدات معالجة الرسومات وفقاً لـ AWS.³⁰ تهم ميزة التكلفة لأحمال التدريب المستمرة حيث تهيمن تكاليف الحوسبة على الميزانيات.
أوقفت AWS خط Inferentia لأن أحمال الاستدلال أصبحت تشبه التدريب بشكل متزايد في متطلباتها الحسابية.³¹ تتعامل معمارية Trainium الآن مع التدريب والاستدلال، مما يبسّط محفظة الرقائق.
Trainium4 قيد التطوير مع توقع التسليم في أواخر 2026 أو أوائل 2027.³² أعلنت AWS عن إنتاجية FP4 أكبر بـ 6 مرات على الأقل، وأداء FP8 أكبر بـ 3 مرات، وعرض نطاق ترددي للذاكرة أكبر بـ 4 مرات مقارنة بـ Trainium3.³³ سيدعم Trainium4 تقنية ربط NVIDIA NVLink Fusion، مما يتيح التكامل مع وحدات معالجة NVIDIA في تكوينات رفوف مشتركة.³⁴
Intel Gaudi: المنافس السعري
أطلقت Intel معالج Gaudi 3 في 2024، مع وضعه كبديل فعّال من حيث التكلفة لـ NVIDIA H100.³⁵ يستخدم Gaudi 3 شريحتين مع 64 نواة معالج موتّر، وثماني محركات ضرب مصفوفات، وذاكرة SRAM بسعة 96 ميجابايت على الشريحة بعرض نطاق ترددي 19.2 تيرابايت في الثانية.³⁶ تدمج الشريحة ذاكرة HBM2e بسعة 128 جيجابايت بعرض نطاق ترددي 3.67 تيرابايت في الثانية.³⁷
يقدم Gaudi 3 أداءً يصل إلى 1,835 تيرافلوبس BF16/FP8 للمصفوفات بقدرة حرارية تقارب 600 واط.³⁸ مقارنة بـ NVIDIA H100، يقدم Gaudi 3 أداءً أعلى لمصفوفات BF16 (1,835 مقابل 1,979 تيرافلوبس بدون التفريق) وسعة HBM أكبر (128 مقابل 80 جيجابايت).³⁹ يتجاوز عرض النطاق الترددي للذاكرة أيضاً H100.⁴⁰
تدّعي Intel أن Gaudi 3 أسرع عادة بنسبة 40% من NVIDIA H100 ويمكن أن يتفوق على H100 بما يصل إلى 1.7 مرة في تدريب Llama2-13B بدقة FP8.⁴¹ ادعاءات كفاءة الطاقة أكثر دراماتيكية - تصل إلى 220% من قيمة H100 على معايير Llama و 230% على Falcon.⁴²
ميزة التسعير كبيرة. يكلف نظام Gaudi 3 ذو ثمانية مسرّعات 157,613 دولاراً مقارنة بـ 300,107 دولار لنظام H100 مكافئ.⁴³ يبلغ سعر كل شريحة حوالي 15,625 دولاراً لـ Gaudi 3 مقابل 30,678 دولاراً لـ H100.⁴⁴ يتيح فارق التكلفة للمؤسسات نشر ضعف سعة الحوسبة تقريباً بميزانية مكافئة.
يستخدم Gaudi 3 ذاكرة HBM2e بدلاً من HBM3 أو HBM3e، مما يساهم في انخفاض التكلفة لكنه يحد من عرض النطاق الترددي للذاكرة مقارنة بالبدائل من الجيل الحالي.⁴⁵ يجب على المؤسسات التي تشغّل أحمال عمل محدودة بعرض النطاق الترددي للذاكرة تقييم هذه المقايضة بعناية.
يحد تحدي المنظومة من اعتماد Gaudi. تهيمن CUDA من NVIDIA على تطوير الذكاء الاصطناعي، والانتقال إلى أدوات Intel يتطلب استثماراً هندسياً.⁴⁶ تبقى حصة Intel السوقية في مسرّعات الذكاء الاصطناعي ضئيلة رغم العتاد التنافسي.⁴⁷
أعلنت Intel أنه سيتم إيقاف Gaudi عند إطلاق الجيل التالي من وحدات معالجة الرسومات للذكاء الاصطناعي في 2026-2027.⁴⁸ يخلق إعلان الإيقاف مخاطر اعتماد للمؤسسات التي تفكر في نشر Gaudi لعدة سنوات. قد يتردد الشركاء في الاستثمار في خط إنتاج معلن نهاية عمره.
Groq LPU: الريادة في سرعة الاستدلال
تتخذ وحدة معالجة اللغة (LPU) من Groq نهجاً معمارياً مختلفاً جذرياً، محسّناً تحديداً للاستدلال بدلاً من التدريب.⁴⁹ تحقق معمارية معالج تدفق الموتّرات أداءً يصل إلى 750 TOPS عند INT8 و 188 تيرافلوبس عند FP16 مع عرض نطاق ترددي ضخم لذاكرة SRAM على الشريحة يصل إلى 80 تيرابايت في الثانية.⁵⁰
يقدم الجيل الأول من LPU أداءً يتجاوز 1 تيراعملية في الثانية لكل ملليمتر مربع على شريحة 14 نانومتر تعمل بتردد 900 ميجاهرتز.⁵¹ سيستخدم الجيل الثاني من LPU عملية Samsung بتقنية 4 نانومتر.⁵²
تحدد سرعة الاستدلال عرض القيمة لـ Groq. يخدم LPU نموذج Mixtral 8x7B بسرعة 480 رمزاً في الثانية و Llama 2 70B بسرعة 300 رمز في الثانية.⁵³ تحقق النماذج الأصغر مثل Llama 2 7B سرعة 750 رمزاً في الثانية.⁵⁴ كانت Groq أول مزود API يتجاوز 100 رمز في الثانية على Llama2-70B.⁵⁵
يقدم LPU استدلالاً أسرع حتى 18 مرة من وحدات معالجة الرسومات التقليدية لنماذج اللغة مع زمن استجابة حتمي دون الميلي ثانية.⁵⁶ تصل كفاءة الطاقة إلى 1-3 جول لكل رمز.⁵⁷
تكلف بطاقات LPU حوالي 20,000 دولار - مقارنة بوحدات معالجة الرسومات NVIDIA عالية الجودة - لكنها تتفوق تحديداً في سرعة وكفاءة الاستدلال.⁵⁸ المقايضة واضحة: تتعامل وحدات LPU مع الاستدلال فقط، وليس التدريب.⁵⁹
توسعت بصمة نشر Groq بشكل كبير في 2025. تشغّل الشركة اثني عشر مركز بيانات عبر الولايات المتحدة وكندا والشرق الأوسط وأوروبا.⁶⁰ في سبتمبر 2025، جمعت Groq 750 مليون دولار بتقييم 6.9 مليار دولار.⁶¹
تلتزم الشراكة مع المملكة العربية السعودية المعلنة في فبراير 2025 بمبلغ 1.5 مليار دولار لبناء ما تصفه Groq بأكبر مركز بيانات لاستدلال الذكاء الاصطناعي في العالم في الدمام.⁶² تتضمن عمليات النشر الأولية 19,000 وحدة LPU مع توسعات سعة مخططة لتتجاوز 100,000 وحدة LPU بحلول 2027.⁶³
Cerebras WSE-3: التكامل على مستوى الرقاقة
تتخذ Cerebras النهج المعماري الأكثر جذرية، حيث تبني الرقائق على مستوى الرقاقة بدلاً من تقطيع الرقائق إلى معالجات فردية.⁶⁴ يحتوي WSE-3 على 4 تريليون ترانزستور عبر الرقاقة بأكملها - 46,225 ملليمتر مربع من السيليكون.⁶⁵
يضم WSE-3 حوالي 900,000 نواة حوسبة محسّنة للذكاء الاصطناعي تقدم أداءً أقصى يصل إلى 125 بيتافلوبس للذكاء الاصطناعي.⁶⁶ تصل ذاكرة SRAM على الشريحة إلى 44 جيجابايت بعرض نطاق ترددي للذاكرة يصل إلى 21 بيتابايت في الثانية.⁶⁷ يصل عرض نطاق النسيج إلى 214 بيتابت في الثانية.⁶⁸ تُصنع الشريحة بعملية TSMC بتقنية 5 نانومتر.⁶⁹
يضاعف نظام CS-3 أداء CS-2 في نفس غلاف الطاقة البالغ 15 كيلوواط.⁷⁰ يتناسب نظام CS-3 واحد ضمن 15U من مساحة الرف.⁷¹ تمتد خيارات الذاكرة الخارجية إلى 1.5 تيرابايت أو 12 تيرابايت أو 1.2 بيتابايت حسب التكوين.⁷²
تتوسع سعة النموذج بشكل كبير. يمكن لـ CS-3 تدريب نماذج الشبكات العصبية حتى 24 تريليون معامل.⁷³ تتوسع المجموعات إلى 2,048 نظام CS-3 تقدم ما يصل إلى 256 إكسافلوبس من حوسبة FP16.⁷⁴
تدّعي Cerebras مزايا كبيرة في سهولة الاستخدام. تتطلب المنصة كوداً أقل بنسبة 97% من وحدات معالجة الرسومات لنماذج اللغة الكبيرة وتدرّب النماذج من مليار إلى 24 تريليون معامل في وضع متوازٍ للبيانات بحت.⁷⁵ يمكن لتكوينات مدمجة من أربعة أنظمة ضبط نماذج 70B في يوم واحد.⁷⁶ على نطاق كامل يبلغ 2,048 نظاماً، يُدرَّب Llama 70B من الصفر في يوم واحد.⁷⁷
سينشر الحاسوب الفائق Condor Galaxy 3 في دالاس 64 نظام CS-3 لتقديم 8 إكسافلوبس من حوسبة FP16.⁷⁸ كرّمت مجلة TIME معالج WSE-3 كأحد أفضل اختراعات 2024.⁷⁹
SambaNova SN40L: تدفق البيانات القابل لإعادة التكوين
تختلف معمارية وحدة تدفق البيانات القابلة لإعادة التكوين (RDU) من SambaNova عن كل من وحدات معالجة الرسومات ودوائر ASIC المخصصة.⁸⁰ يجمع SN40L بين مرونة تدفق البيانات على الشريحة ونظام ذاكرة ثلاثي المستويات: SRAM على الشريحة، و HBM على الحزمة، و DRAM خارج الحزمة.⁸¹
يستخدم SN40L عملية TSMC بتقنية 5 نانومتر في حزمة CoWoS ثنائية القالب.⁸² يحتوي كل مقبس على 102 مليار ترانزستور يقدم 640 تيرافلوبس BF16 و 520 ميجابايت من SRAM على الشريحة.⁸³ يدعم مستوى DDR سعة ذاكرة تصل إلى 1.5 تيرابايت بأكثر من
[تم اقتطاع المحتوى للترجمة]