بناء حوامل GPU بقدرة 100 كيلوواط وأكثر: هندسة توزيع الطاقة والتبريد
آخر تحديث: 8 ديسمبر 2025
تحديث ديسمبر 2025: أصبح حامل 100 كيلوواط معياراً قياسياً وليس طموحاً مستقبلياً. تعمل أنظمة NVIDIA GB200 NVL72 بقدرة 120 كيلوواط لكل حامل، بينما يستهدف نظام Vera Rubin NVL144 قدرة 600 كيلوواط لكل حامل بحلول عام 2026. ارتفعت كثافة الحوامل من 40 كيلوواط إلى 130 كيلوواط، وقد تصل إلى 250 كيلوواط بحلول عام 2030. وصل اعتماد التبريد السائل إلى 22% من مراكز البيانات، حيث يستحوذ التبريد المباشر للرقائق على 47% من حصة السوق. يجب على المؤسسات التي تخطط لنشر أنظمة 100 كيلوواط اليوم أن تستعد لنمو الكثافة بمعدل 2-5 أضعاف.
يستهلك حامل واحد بقدرة 100 كيلوواط طاقة تعادل 80 منزلاً أمريكياً، ويولّد حرارة تعادل 30 فرناً سكنياً، ويزن أكثر من ثلاث سيارات Toyota Camry.¹ ومع ذلك، تتسابق المؤسسات حول العالم لبناء هذه العمالقة لأن تدريب الذكاء الاصطناعي الحديث يتطلب كثافة حوسبة غير مسبوقة. التحديات الهندسية تكسر كل الافتراضات التي وجّهت تصميم مراكز البيانات خلال العقود الثلاثة الماضية.
تنشر أحدث منشآت Microsoft Azure حوامل بقدرة 100 كيلوواط كتكوينات قياسية وليست تجريبية.² تبني CoreWeave مراكز بيانات كاملة وفق مواصفات حوامل 120 كيلوواط.³ تتجه Oracle Cloud Infrastructure نحو كثافات 150 كيلوواط في مناطقها من الجيل التالي.⁴ تبدو تصاميم الحوامل التقليدية بقدرة 5-10 كيلوواط قديمة مع اكتشاف المؤسسات أن قدرات الذكاء الاصطناعي التنافسية تتطلب إما كثافة عالية أو مساحات عقارية شاسعة.
تجعل حسابات البنية التحتية للذكاء الاصطناعي حوامل 100 كيلوواط وأكثر حتمية. يستهلك نظام NVIDIA DGX H100 قدرة 10.2 كيلوواط لثماني وحدات GPU.⁵ سيستهلك نظام DGX B200 القادم 14.3 كيلوواط لكل عقدة.⁶ قم بتكديس ثماني عقد لمجموعة تدريب ذات معنى، وسيتجاوز استهلاك الطاقة 100 كيلوواط قبل احتساب معدات الشبكات. المؤسسات التي لا تستطيع بناء هذه الحوامل لا يمكنها المنافسة في تطوير نماذج اللغة الكبيرة أو اكتشاف الأدوية أو تدريب المركبات ذاتية القيادة.
هندسة توزيع الطاقة تكسر الحدود التقليدية
توزع مراكز البيانات التقليدية طاقة ثلاثية الطور بجهد 208 فولت عبر دوائر 30 أمبير، مما يوفر حوالي 10 كيلوواط لكل حامل بعد خفض التقدير. سيتطلب حامل 100 كيلوواط عشر دوائر منفصلة، مما يخلق فوضى من الأسلاك النحاسية تنتهك كل مبادئ التصميم النظيف. شدة التيار وحدها تمثل تحديات لا يمكن تجاوزها: توصيل 100 كيلوواط عند 208 فولت يتطلب 480 أمبير، مما يستلزم كابلات أسمك من مضارب البيسبول.
تتطلب عمليات نشر 100 كيلوواط الحديثة توزيعاً بجهد 415 أو 480 فولت لتقليل متطلبات التيار. عند جهد 480 فولت ثلاثي الطور، يتطلب 100 كيلوواط 120 أمبير فقط لكل دائرة، وهو أمر قابل للإدارة باستخدام موصلات بمقاس 4/0 AWG.⁷ تكتسب المنشآت الأوروبية مزايا من خلال التوزيع القياسي بجهد 415 فولت، مما يفسر سبب إعطاء العديد من شركات الحوسبة الفائقة الأولوية لنشر البنية التحتية عالية الكثافة في دول الشمال. تتطلب المنشآت في أمريكا الشمالية ترقيات للمحولات واستبدال لوحات التحويل، مما يضيف 500,000 - مليون دولار لكل ميغاواط لتكاليف التحديث.⁸
تتطور وحدات توزيع الطاقة (PDUs) إلى أنظمة إدارة طاقة متطورة لحوامل 100 كيلوواط. تدير سلسلة Raritan PX4 بذكاء 60 منفذاً تقدم ما يصل إلى 130 كيلوواط، مع مراقبة كل منفذ وإمكانيات التحويل عن بُعد.⁹ توفر وحدات Server Technology HDOT PDU مدخلاً بجهد 415 فولت مع تحويل تلقائي بين التغذيتين، مما يضمن التشغيل المستمر أثناء انقطاع المرافق.¹⁰ تكلف كل وحدة PDU من 15,000 إلى 25,000 دولار، وتتطلب معظم حوامل 100 كيلوواط وحدتين للتكرار.
تظهر أنظمة قضبان التوزيع كبدائل متفوقة للتوزيع التقليدي بالكابلات. توفر قضبان Starline Track Busway تياراً بقدرة 1,600 أمبير عند 415 فولت عبر موصلات علوية، وتدعم نقاط إسقاط متعددة لحوامل 100 كيلوواط من تغذية واحدة.¹¹ تصل تكاليف التركيب إلى 1,000 دولار لكل قدم خطي، لكن مرونة إعادة تكوين نقاط الطاقة دون إعادة التوصيل توفر الملايين خلال دورة حياة المنشأة. تتضمن أنظمة Siemens Sentron busway مراقبة متكاملة تتتبع جودة الطاقة وتتنبأ بمتطلبات الصيانة من خلال تحليل التوافقيات.¹²
يلغي توزيع التيار المستمر مراحل تحويل متعددة تهدر 10-15% من الطاقة المُوصَّلة. أثبت مختبر Lawrence Berkeley الوطني أن توزيع التيار المستمر بجهد 380 فولت يقلل إجمالي استهلاك مركز البيانات بنسبة 7% مع تحسين الموثوقية.¹³ تفصّل مواصفات Open Compute Project توزيع التيار المستمر بجهد 48 فولت مباشرة إلى لوحات الخوادم، مما يلغي وحدات الإمداد بالطاقة التي تولد الحرارة وتشغل مساحة قيمة في الحامل.¹⁴ تعمل منشأة Facebook في Prineville بالكامل على توزيع التيار المستمر، محققة معامل PUE يبلغ 1.07 رغم كثافة الحوسبة العالية.¹⁵
هندسة التبريد تتطلب السوائل عند الرقاقة
يصبح التبريد الهوائي مستحيلاً فيزيائياً فوق 50 كيلوواط لكل حامل. الديناميكا الحرارية لا ترحم: إزالة 100 كيلوواط من الحرارة تتطلب تحريك 35,000 قدم مكعب في الدقيقة (CFM) من الهواء مع ارتفاع درجة حرارة 20 درجة فهرنهايت.¹⁶ سيخلق هذا التدفق الهوائي رياحاً بقوة الإعصار في الممر البارد، مما يطيح حرفياً بالفنيين. حتى لو أمكنك تحريك هذا القدر من الهواء، فإن طاقة المراوح وحدها ستستهلك 15-20 كيلوواط، مما يُفشل أهداف الكفاءة.
توفر المبادلات الحرارية للأبواب الخلفية (RDHx) تبريداً انتقالياً لكثافات 50-75 كيلوواط. تزيل وحدات Motivair ChilledDoor ما يصل إلى 75 كيلوواط لكل حامل باستخدام دوران الماء المبرد عبر المشعاع المثبت على الباب.¹⁷ يحقق نظام CoolIT Systems CHx750 سعة مماثلة مع مراوح متغيرة السرعة تتكيف مع الحمل الحراري.¹⁸ التقنية تعمل، لكن كثافات 100 كيلوواط وأكثر تُغرق حتى أكثر تصاميم RDHx تقدماً. سيخلق فرق درجة الحرارة المطلوب مخاطر تكاثف تهدد موثوقية المعدات.
يصبح التبريد السائل المباشر إلى الألواح الباردة إلزامياً لعمليات النشر الحقيقية بقدرة 100 كيلوواط وأكثر. يوزع نظام Asetek InRackCDU سائل التبريد عند 25 درجة مئوية مباشرة إلى الألواح الباردة لوحدات CPU وGPU، مزيلاً ما يصل إلى 120 كيلوواط لكل حامل.¹⁹ يحافظ النظام على درجات حرارة الرقائق أقل من 70 درجة مئوية حتى عند الحمل الأقصى، مقارنة بـ 85-90 درجة مئوية مع التبريد الهوائي. تقلل درجات حرارة التشغيل المنخفضة تيار التسرب، مما يحسن كفاءة الطاقة بنسبة 3-5% بالإضافة إلى توفير التبريد.²⁰
يمثل التبريد بالغمر الحل النهائي للكثافة العالية. يغمر نظام Submer SmartPodX خوادم كاملة في سائل عازل كهربائياً، معالجاً 100 كيلوواط في 2.4 متر مربع فقط من مساحة الأرضية.²¹ يدعم نظام GRC ICEraQ Series 10 ما يصل إلى 368 كيلوواط لكل خزان، رغم أن عمليات النشر العملية نادراً ما تتجاوز 200 كيلوواط.²² يلغي غياب المراوح 10-15% من استهلاك طاقة الخادم بينما يقلل معدلات الفشل بنسبة 70% من خلال إزالة المكونات الميكانيكية.²³
يدفع التبريد بالغمر ثنائي الطور الحدود إلى أبعد من ذلك. تغلي سوائل 3M Fluorinert عند درجات حرارة محكومة بدقة، حيث يمتص تغير الطور كميات هائلة من الحرارة.²⁴ يرتفع البخار إلى المكثفات حيث يعود إلى الحالة السائلة، مما يخلق نظام دوران سلبي لا يتطلب مضخات. أثبت مشروع Microsoft Natick أن التبريد ثنائي الطور يحافظ على درجات حرارة رقائق ثابتة عند 35 درجة مئوية رغم تدفق حراري يبلغ 250 كيلوواط/م².²⁵ تظل التقنية تجريبية، لكن الفيزياء تشير إلى أنها يمكن أن تتعامل مع 500 كيلوواط وأكثر لكل حامل.
الهندسة الإنشائية تواجه أحمالاً ضخمة
يزن حامل 100 كيلوواط مكتمل التجهيز 6,000-8,000 رطل، مركزة في 10 أقدام مربعة فقط.²⁶ تنهار الأرضيات المرتفعة القياسية المصنفة لـ 250 رطلاً للقدم المربع تحت مثل هذه الأحمال. الوزن ليس فقط الخوادم: الكابلات النحاسية وحدها تضيف 500-800 رطل، ويضيف سائل التبريد 200-300 رطل أخرى، ويزن هيكل الحامل نفسه 500-1,000 رطل. تواجه المناطق الزلزالية تحديات إضافية حيث أن 8,000 رطل من الكتلة المتأرجحة يمكن أن تدمر المعدات المجاورة أثناء الزلازل.
تلغي عمليات النشر على الأرضيات الخرسانية المباشرة قيود الأرضيات المرتفعة لكنها تخلق تحديات جديدة. يجب تقوية الخرسانة للتعامل مع أحمال تزيد عن 1,000 رطل للقدم المربع مع الحد الأدنى من الانحراف.²⁷ تمنع الخرسانة المشدودة مسبقاً مع حديد التسليح المطلي بالإيبوكسي التشققات التي قد تُضعف السلامة الهيكلية. يزيد سُمك البلاطة إلى 12-18 بوصة، مقارنة بـ 6-8 بوصات لمراكز البيانات التقليدية. يضيف عمل الأساسات وحده 50-75 دولاراً للقدم المربع لتكاليف البناء.²⁸
توزع إطارات الفولاذ الإنشائي الأحمال على مساحات أكبر. تصمم Introl منصات فولاذية مخصصة توزع أحمال حوامل 100 كيلوواط على 40 قدماً مربعاً، مما يقلل أحمال النقاط إلى مستويات قابلة للإدارة. تتضمن الإطارات صواني كابلات متكاملة ومشعبات سائل التبريد ومنصات الصيانة. تمكّن التصاميم المعيارية التركيب دون توقف المنشأة، وهو أمر حاسم لمشاريع التحديث. تكلف كل إطار 25,000-35,000 دولار لكنها تمنع انهيار الأرضية الكارثي الذي سيكلف الملايين.
تلغي أنظمة الدعم العلوية تحميل الأرضية بالكامل. تعلّق مراكز بيانات Facebook الخوادم من قضبان مثبتة على السقف، مع توصيل الطاقة والتبريد من الأعلى.²⁹ يتطلب هذا النهج ارتفاعات سقف 18-20 قدماً لكنه يمكّن الوصول غير المحدود للأرضية للصيانة. يدعم نظام Chatsworth Products Evolution Cable Management وزن 500 رطل لكل قدم خطي من الهياكل العلوية، وهو كافٍ لأثقل توزيع للطاقة وسائل التبريد.³⁰
يصبح العزل الزلزالي حاسماً في مناطق الزلازل. تستخدم منصات WorkSafe Technologies ISO-Base عزلاً بمحامل كروية لحماية المعدات أثناء الأحداث الزلزالية.³¹ تسمح المنصات بـ 12 بوصة من الحركة الأفقية مع الحفاظ على الاستقرار الرأسي. تدعم كل منصة 10,000 رطل وتكلف 15,000-20,000 دولار، لكن شركات التأمين تتطلب بشكل متزايد الحماية الزلزالية لمعدات الحوسبة عالية القيمة في كاليفورنيا واليابان وغيرها من المناطق النشطة.
إدارة الكابلات تتضاعف بشكل أسي
يتطلب حامل 100 كيلوواط يستضيف 64 وحدة GPU أكثر من 500 كابل: 128 اتصال InfiniBand، و64 كابل شبكة إدارة، و96 كابل طاقة، بالإضافة إلى عشرات اتصالات أجهزة الاستشعار والتحكم. يكلف كل كابل InfiniBand وحده 500-1,500 دولار حسب الطول ومعدل البيانات.³² تقترب تكلفة الكابلات الإجمالية لكل حامل من 100,000 دولار، والإدارة السيئة تدمر كلاً من تدفق الهواء وإمكانية الخدمة.
تتطلب الإشارات عالية السرعة توجيهاً دقيقاً للكابلات للحفاظ على سلامة الإشارة. لا يتحمل InfiniBand HDR الذي يعمل بسرعة 200Gbps أكثر من 3 بوصات من طول الزوج التفاضلي غير المتطابق.³³ يجب أن يتجاوز نصف قطر الانحناء 10 أضعاف قطر الكابل لمنع تغيرات المعاوقة التي تسبب أخطاء البت. تستخدم Introl أنظمة قياس بالليزر للتحقق من أطوال الكابلات ضمن تفاوت 1 مم، مع توثيق كل اتصال لاستكشاف الأخطاء المستقبلية.
يخلق وزن الكابلات تحديات غير متوقعة. خمسمائة كابل بوزن 2-3 أرطال لكل منها تضيف 1,000-1,500 رطل للبنية التحتية للحامل. يتسبب الوزن في ترهل أبواب الحامل، مما يجعل فتحها صعباً. يجب تقوية مديري الكابلات الرأسية لمنع الانهيار. تتضمن خزائن Panduit Net-Verse إدارة كابلات متكاملة مصنفة لـ 2,000 رطل، مع أصابع قابلة للتعديل كل 1U للحفاظ على التوجيه الصحيح.³⁴
تقلل كابلات الألياف الضوئية الوزن لكنها تُدخل مخاوف الهشاشة. يكلف جهاز إرسال واستقبال ضوئي واحد بسرعة 400G من 2,000 إلى 4,000 دولار، وكابلات الألياف التي تربطها تتضرر بسهولة.³⁵ يزيد الحد الأدنى لنصف قطر الانحناء إلى 20 ضعف قطر الكابل لألياف النمط الواحد. يحتاج الفنيون إلى تدريب متخصص للتعامل مع الألياف دون التسبب في انحناءات دقيقة تُضعف جودة الإشارة. تصبح الاتصالات النظيفة حاسمة حيث يمكن لجسيم غبار واحد أن يسبب فقدان 50% من الإشارة.
تمنع إدارة دورة حياة الكابلات التوقف المكلف. يحتاج كل كابل إلى توثيق يتضمن تاريخ التركيب ونتائج الاختبار وتاريخ الصيانة. تنشر Introl علامات RFID على كل كابل، مما يمكّن التعرف الفوري باستخدام ماسحات محمولة. تتتبع قاعدة بيانات إدارة الكابلات لدينا 50 مليون اتصال فردي عبر عمليات النشر العالمية. تحدد التحليلات التنبؤية الكابلات التي تقترب من الفشل بناءً على انتهاكات نصف قطر الانحناء والتعرض لدرجات الحرارة والعمر.
هندسة التكرار تضمن التشغيل المستمر
تصبح نقاط الفشل الفردية كارثية على نطاق 100 كيلوواط. سيؤدي فشل وحدة PDU إلى تعطل معدات GPU بقيمة 5 ملايين دولار. سيؤدي فشل مضخة التبريد إلى إيقاف حراري خلال 60 ثانية. يثبت التكرار التقليدي N+1 أنه غير كافٍ عندما يتضاعف تأثير الفشل 10 أضعاف. تتطلب عمليات نشر 100 كيلوواط الحديثة تكراراً 2N للطاقة والتبريد، مع قبول 50% من السعة المعطلة كتأمين ضد التوقف.
يبدأ تكرار الطاقة عند مدخل المرافق بتغذيتين مزدوجتين من محطات فرعية منفصلة. تنتقل مفاتيح النقل التلقائي (ATS) بسلاسة بين
[تم اقتطاع المحتوى للترجمة]