ادخل إلى مستودع محوّل في مركز بريستول الوطني للمواد المركبة وستجد 150 طنًا من أحدث أجهزة الحوسبة تدوي خلف خزانات التبريد السائل: Isambard-AI، أقوى حاسوب فائق للذكاء الاصطناعي في المملكة المتحدة. بالطبع، تحتفل العناوين الرئيسية بأدائه البالغ 21 exaflops في الذكاء الاصطناعي، لكن ما تفوته هو التحديات الاستثنائية في البنية التحتية التي تغلب عليها الفريق لإطلاق هذا المشروع البالغ 225 مليون جنيه إسترليني خلال 24 شهرًا فقط. قبل خمس سنوات؟ جدول زمني مستحيل.
يكشف نشر 5,448 شريحة NVIDIA Grace Hopper الفائقة في Isambard-AI عن تطور مهم. النجاح في حوسبة الذكاء الاصطناعي لا يعتمد الآن على مجرد شراء وحدات GPU. تحتاج إلى إتقان النظام البيئي المعقد للطاقة والتبريد والشبكات واللوجستيات الذي تتطلبه البنية التحتية الحديثة للذكاء الاصطناعي. يجب على المؤسسات التي تخطط لنشر وحدات GPU واسعة النطاق أن تفهم بشكل أفضل هذه التحديات والخبرة المتخصصة المطلوبة للتغلب عليها.
عندما تلتقي 5 ميجا واط بـ 150 طنًا من السيليكون
حجم Isambard-AI يكسر تفكير مراكز البيانات التقليدية. كل واحدة من خزاناته الـ12 HPE Cray EX4000 تحوي 440 GPU، مولدة كثافات حرارية قد تذيب الأنظمة التقليدية. التبريد الهوائي التقليدي يصارع ما يتجاوز 20kW لكل رف. Isambard-AI؟ أكثر من 400kW لكل خزانة. الحل كان التبريد السائل المباشر 100%، لكن تنفيذه تطلب مهارات جديدة كليًا.
"ما نراه مع عمليات النشر مثل Isambard-AI هو تحول جذري في ما يشكل خبرة مراكز البيانات،" يكشف مشهد نشر البنية التحتية. الشركات التي كانت تركز على عمليات التركيب التقليدية تحتاج الآن مهندسين يفهمون ديناميكيات التبريد السائل، وإدارة الكابلات عالية الكثافة، وكيفية تشغيل آلاف وحدات GPU في آن واحد. فريق University of Bristol عمل مع شركاء نشر متخصصين لتركيب أكثر من 40,000 اتصال ألياف بصرية. هذا كابل كافٍ لتطويق مدينة صغيرة. وكان عليهم الحفاظ على الدقة المطلوبة لاتصالات NVLink الجيل الخامس للنظام العاملة بسرعة 1.8TB/s.
والأهم: المشروع انتقل من توقيع العقد إلى الحالة التشغيلية في أقل من أربعة أشهر. كيف؟ شركات نشر البنية التحتية المتخصصة في GPU يمكنها الآن تعبئة مئات الفنيين المهرة خلال 72 ساعة. هؤلاء ليسوا مقاولي تكنولوجيا المعلومات التقليديين. إنهم فرق متخصصة تعرف مواصفات عزم الدوران المحددة لاتصالات التبريد السائل والتسلسل الأمثل لتشغيل آلاف وحدات GPU دون إرباك أنظمة الطاقة.
التعقيد الخفي للبنية التحتية الأولى للذكاء الاصطناعي
الحواسيب الفائقة التقليدية تُعاد تجهيزها لأحمال الذكاء الاصطناعي. Isambard-AI صُمم من الأساس لتطبيقات الذكاء الاصطناعي. نهجهم الأولي للذكاء الاصطناعي أثر على كل قرار في البنية التحتية. الفريق اختار تصميم مركز البيانات المعياري من HPE وجمعه في الموقع خلال 48 ساعة فقط. اختاروا مصدر طاقة صفر الكربون يتماشى مع تصنيف النظام الرابع عالميًا في كفاءة الطاقة.
البنية التحتية للشبكات وحدها تمثل إنجازًا هندسيًا ضخمًا في التنسيق. شبكة HPE Slingshot 11 للنظام توفر 25.6 Tb/s من النطاق الترددي ثنائي الاتجاه عبر 64 منفذًا، مع كل عقدة تتلقى 800 Gbps من نطاق حقن الشبكة. تركيب والتحقق من هذه الشبكة المعقدة من الاتصالات تطلب خبرة متخصصة في الشبكات عالية الأداء تتجاوز بكثير عمليات النشر المؤسسية النمطية. متخصصو البنية التحتية لوحدات GPU الحديثة يحتاجون لفهم الطبقة الفيزيائية وكيف تؤثر طبولوجيات الاتصال المختلفة على أداء أحمال الذكاء الاصطناعي.
توصيل الطاقة خلق تحديات فريدة. بينما إجمالي طاقة المرفق البالغة 5MW لـIsambard-AI قد تبدو متواضعة مقارنة بمراكز البيانات فائقة النطاق، كثافة وحرجية توصيل هذه الطاقة خلق متطلبات فريدة. كل شريحة Grace Hopper الفائقة تتطلب توصيل طاقة دقيق. مع 5,448 منها تعمل معًا، حتى التقلبات الطفيفة قد تسبب عدم استقرار النظام. فريق النشر نفذ أنظمة إدارة طاقة متطورة مع قدرات مراقبة في الوقت الفعلي يمكنها اكتشاف والاستجابة للشذوذ خلال أجزاء من الثانية.
التعلم من سباق البنية التحتية للذكاء الاصطناعي في أوروبا
نشر Isambard-AI حدث بينما تنافست الدول الأوروبية بكثافة على السيادة في الذكاء الاصطناعي. نظام LUMI في فنلندا يقدم 380 petaflops من قوة الحوسبة التقليدية. حاسوب Jupiter الفائق القادم في ألمانيا يعد بأن يكون أول نظام exascale في أوروبا. ومع ذلك حقق Isambard-AI الحالة التشغيلية أسرع من أي من أقرانه الأوروبيين. انتقل من الاقتراح الأولي إلى العملية الكاملة في أقل من عامين. قارن ذلك بالجدول الزمني النمطي 4-5 سنوات للأنظمة المماثلة.
هذه الميزة في السرعة تأتي جزئيًا من عمليات الشراء المبسطة في المملكة المتحدة بعد Brexit. لكن الأهم، تنبع من تطور منهجيات نشر GPU. تركيبات الحواسيب الفائقة التقليدية تتبع مراحل متسلسلة: البنية التحتية، ثم الأجهزة، ثم الشبكات، ثم البرمجيات. عمليات نشر GPU الحديثة تستفيد من سير عمل متوازي. الفرق المتخصصة تعمل في آن واحد على تركيب التبريد السائل، وتشغيل GPU، وتكوين الشبكة، مما يضغط الجداول الزمنية بشكل كبير.
التباين مع عمليات النشر الأوروبية الأخرى يعلم دروسًا قيمة. MareNostrum 5 في إسبانيا، رغم مواصفاته المثيرة للإعجاب، تطلب إعادة تجهيز واسعة للمرافق الموجودة. نظام Leonardo في إيطاليا واجه تأخيرات في دمج قدرات تسريع الذكاء الاصطناعي. نجاح Isambard-AI يُظهر أن البنية التحتية المبنية لهدف محدد للذكاء الاصطناعي، المنشورة من قِبل فرق ذات خبرة محددة في GPU، يمكن أن تحقق وقتًا أسرع للعلم من أنظمة HPC المعاد تجهيزها.
فجوة الخبرة التي تهدد طموحات الذكاء الاصطناعي
المؤسسات في جميع أنحاء العالم تتسابق لنشر بنية الذكاء الاصطناعي التحتية، لكن فجوة مهارات حرجة ظهرت. فنيو مراكز البيانات التقليديون، مهما كانت خبرتهم، غالبًا يفتقرون للمعرفة المتخصصة المطلوبة لعمليات نشر GPU الحديثة. أنظمة التبريد السائل تتطلب فهمًا لديناميكيات السوائل والإدارة الحرارية. تكوينات GPU عالية الكثافة تتطلب خبرة في توصيل الطاقة وتحسين تدفق الهواء تتجاوز عمليات نشر الخوادم التقليدية.
هذه الفجوة في الخبرة تضرب بقوة في عدة مجالات. إدارة الكابلات لمجموعات GPU أصبحت تخصصًا منفصلاً. آلاف الاتصالات عالية السرعة في Isambard-AI تطلبت توجيهًا دقيقًا للحفاظ على تكامل الإشارة مع السماح بإمكانية الوصول للصيانة. فنيو الطاقة والتبريد يحتاجون لفهم ليس فقط متطلبات الحالة المستقرة ولكن أيضًا السلوك الديناميكي لأحمال الذكاء الاصطناعي التي يمكن أن تتأرجح من الخمول إلى الطاقة الكاملة في أجزاء من الثانية.
شركات مثل introl.com ظهرت لملء هذه الفجوة، مطورة فرق متخصصة تجمع مهارات مراكز البيانات التقليدية مع خبرة محددة في GPU. عمليات نشرهم لأنظمة تتجاوز 1,000 عقدة GPU تُظهر الحجم الذي يعمل به هذا النوع الجديد من متخصصي البنية التحتية. القدرة على تعبئة 40 فنيًا خلال أسبوع، كما رُئي في عمليات نشر موفري السحابة الرئيسية لوحدات GPU الحديثة، تمثل قدرة تشغيلية جديدة لم تكن موجودة في صناعة مراكز البيانات التقليدية.
ما بعد النشر: الحفاظ على تميز البنية التحتية للذكاء الاصطناعي
التحديات لا تنتهي عند تشغيل آخر GPU. الحفاظ على نظام مثل Isambard-AI يتطلب تحسينًا مستمرًا وإدارة استباقية. فريق University of Bristol نفذ أنظمة مراقبة متطورة تتتبع كل شيء من أنماط استخدام GPU إلى معدلات تدفق المبرد. مع مساحة عنوان الذاكرة الموحدة للنظام البالغة 850GB لكل عقدة، حتى عدم الكفاءة الطفيف يمكن أن يؤثر بشكل كبير على إنتاجية البحث.
البنية التحتية الحديثة لوحدات GPU تتطلب نهج DevOps للأنظمة الفيزيائية. تحديثات البرامج الثابتة يجب تنسيقها بعناية عبر آلاف الأجهزة من قِبل فرق الهندسة. أنظمة التبريد تتطلب صيانة تنبؤية قائمة على أنماط الاستخدام والظروف البيئية. تكوينات الشبكة تحتاج لضبط مستمر للتحسين لأنماط الأحمال المتطورة. هذا التعقيد التشغيلي يدفع تطوير نماذج خدمة متخصصة حيث شركاء البنية التحتية يقدمون التحسين المستمر بدلاً من النشر لمرة واحدة.
التداعيات الاقتصادية تضرب بقوة. كل شريحة Grace Hopper الفائقة تمثل استثمار رأسمال كبير. الوقت الخامل يؤثر مباشرة على عائد الاستثمار. المؤسسات التي تنشر مجموعات GPU كبيرة تعتمد بشكل متزايد على شركاء يمكنهم توفير ليس فقط التركيب ولكن خدمات التحسين المستمرة. القدرة على الحفاظ على معدلات استخدام 95%+ كما تستهدفها عمليات نشر البنية التحتية الرائدة للذكاء الاصطناعي، تتطلب اهتمامًا مستمرًا لجدولة الأحمال وتخصيص الموارد وصحة النظام.
رسم مستقبل البنية التحتية للذكاء الاصطناعي
النشر الناجح لـIsambard-AI يقدم دروسًا حاسمة للمؤسسات التي تخطط لمبادرات البنية التحتية للذكاء الاصطناعي الخاصة بها. أولاً، عصر التعامل مع وحدات GPU كمكونات خوادم بسيطة انتهى. أنظمة الذكاء الاصطناعي الحديثة تتطلب تفكيرًا شاملاً حول الطاقة والتبريد والشبكات والعمليات من أقرب مراحل التخطيط. ثانيًا، الجداول الزمنية المضغوطة التي حققها Isambard-AI (من المفهوم إلى العملية في أقل من عامين) تصبح المعيار الجديد، لكن فقط للمؤسسات التي تشارك مع فرق نشر متخصصة.
نظرًا للمستقبل، تحديات البنية التحتية ستزداد كثافة فقط. بنية Blackwell من NVIDIA تعد بكثافات طاقة أعلى، مع بعض التكوينات تتجاوز 1,000W لكل GPU. التبريد السائل سيتحول من خيار متقدم إلى ضرورة مطلقة. متطلبات نطاق الشبكة ستستمر في النمو أسيًا مع دفع أحجام النماذج نحو 10 تريليون معامل. المؤسسات التي تفتقر للوصول إلى خبرة البنية التحتية المتخصصة في GPU ستجد نفسها بشكل متزايد غير قادرة على المنافسة في ثورة الذكاء الاصطناعي.
استثمار المملكة المتحدة في Isambard-AI يمثل أكثر من مجرد إنجاز تقني. إنه مخطط لكيف يمكن للدول والمؤسسات نشر بنية تحتية للذكاء الاصطناعي عالمية المستوى بسرعة. بجمع المرافق المبنية لأهداف محددة، وعمليات الشراء المبسطة، والشراكات مع فرق النشر المتخصصة، المشروع يُظهر أن تحديات البنية التحتية لعصر الذكاء الاصطناعي، رغم كونها هائلة، بعيدة عن كونها مستحيلة. لأولئك المستعدين للاستثمار في الخبرة والشراكات الصحيحة، الطريق من الطموح إلى الحوسبة الفائقة التشغيلية للذكاء الاصطناعي لم يكن أبدًا أكثر وضوحًا.
الجامعات والمؤسسات والحكومات في جميع أنحاء العالم تتأمل استثمارات البنية التحتية للذكاء الاصطناعي الخاصة بها. Isambard-AI يقف كدليل أنه مع النهج الصحيح والشركاء الصحيحين، حتى أكثر عمليات نشر GPU طموحًا يمكن أن تنتقل من الاقتراح إلى الإنتاج بسرعة الابتكار. السؤال لم يعد ما إذا كان يجب بناء بنية تحتية للذكاء الاصطناعي، ولكن ما إذا كان لديك الوصول إلى الخبرة المتخصصة المطلوبة لإنجازها بشكل صحيح.
المراجع
Alliance Chemical. "AI GPU Cooling Revolution: Deionized Water, Ethylene Glycol & Propylene." Alliance Chemical. Accessed August 1, 2025. https://alliancechemical.com/blogs/articles/ai-gpu-cooling-revolution-deionized-water-ethylene-glycol-propylene-glycol-the-ultimate-liquid-cooling-guide.
Computer Weekly. "Bristol goes live with UK AI supercomputer." Computer Weekly, 2025. https://www.computerweekly.com/news/366584173/Bristol-goes-live-with-UK-AI-supercomputer.
Computer Weekly. "UK government pledges £225m to fund University of Bristol AI supercomputer build with HPE." Computer Weekly, November 2023. https://www.computerweekly.com/news/366558036/UK-government-pledges-225m-to-fund-University-of-Bristol-AI-supercomputer-build-with-HPE.
Data Center Knowledge. "Direct-to-Chip Liquid Cooling: Optimizing Data Center Efficiency." Data Center Knowledge. Accessed August 1, 2025. https://www.datacenterknowledge.com/cooling/direct-to-chip-liquid-cooling-optimizing-data-center-efficiency.
EuroHPC Joint Undertaking. "Inauguration of MareNostrum 5: Europe welcomes a new world-class supercomputer." December 21, 2023. https://www.eurohpc-ju.europa.eu/inauguration-marenostrum-5-europe-welcomes-new-world-class-supercomputer-2023-12-21_en.
EuroHPC Joint Undertaking. "MareNostrum5: a new EuroHPC world-class supercomputer in Spain." June 16, 2022. https://eurohpc-ju.europa.eu/marenostrum5-new-eurohpc-world-class-supercomputer-spain-2022-06-16_en.
Forschungszentrum Jülich. "JUPITER Technical Overview." Accessed August 1, 2025. https://www.fz-juelich.de/en/ias/jsc/jupiter/tech.
GOV.UK. "Sovereign AI AIRR launch opportunity: call for researchers." Accessed August 1, 2025. https://www.gov.uk/government/publications/sovereign-ai-airr-launch-opportunity-call-for-researchers/sovereign-ai-airr-launch-opportunity-call-for-researchers.
Hewlett-Packard Enterprise. "UK Government invests £225m to create UK's most powerful AI supercomputer with University of Bristol and Hewlett Packard Enterprise." Press release, November 2023. https://www.hpe.com/us/en/newsroom/press-release/2023/11/uk-government-invests-225m-to-create-uks-most-powerful-ai-supercomputer-with-university-of-bristol-and-hewlett-packard-enterprise.html.
HPCwire. "University of Bristol to Host Isambard-AI Supercomputer, Marking a New Era in AI and HPC." HPCwire. Accessed August 1, 2025. https://www.hpcwire.com/off-the-wire/university-of-bristol-to-host-isambard-ai-supercomputer-marking-a-new-era-in-ai-and-hpc/.
Hyperstack. "All About the NVIDIA Blackwell GPUs: Architecture, Features, Chip Specs." Accessed August 1, 2025. https://www.hyperstack.cloud/blog/thought-leadership/everything-you-need-to-know-about-the-nvidia-blackwell-gpus.
IBM. "Introl Solutions, LLC." IBM PartnerPlus Directory. Accessed August 1, 2025. https://www.ibm.com/partnerplus/directory/company/9695.
Introl. "GPU Infrastructure Deployments | Optimize Your GPU Deployments." Accessed August 1, 2025. https://introl.com/gpu-infrastructure-deployments.
Introl. "Introl - GPU Infrastructure & Data Center Deployment Experts." Accessed August 1, 2025. https://introl.com.
Introl. "Introl | GPU Infrastructure, Data Center Solutions & HPC Deployment." Accessed August 1, 2025. https://introl.com/blog.
IT Pro. "Inside Isambard-AI: The UK's most powerful supercomputer." IT Pro. Accessed August 1, 2025. https://www.itpro.com/infrastructure/inside-isambard-ai-the-uks-most-powerful-supercomputer.
IT4Innovations. "LUMI." Accessed August 1, 2025. https://www.it4i.cz/en/infrastructure/lumi.
Jetcool. "What is Direct Liquid Cooling for AI Data Centers?" Accessed August 1, 2025. https://jetcool.com/post/what-is-direct-liquid-cooling-for-ai-data-centers/.
NVIDIA. "NVLink & NVSwitch for Advanced Multi-GPU Communication." Accessed August 1, 2025. https://www.nvidia.com/en-us/data-center/nvlink/.
NVIDIA. "The Engine Behind AI Factories | NVIDIA Blackwell Architecture." Accessed August 1, 2025. https://www.nvidia.com/en-us/data-center/technologies/blackwell-architecture/.
NVIDIA Blog. "NVIDIA Blackwell Platform Boosts Water Efficiency by Over 300x." Accessed August 1, 2025. https://blogs.nvidia.com/blog/blackwell-platform-water-efficiency-liquid-cooling-data-centers-ai-factories/.
ResearchGate. "Isambard-AI: a leadership class supercomputer optimised specifically for Artificial Intelligence." October 2024. https://www.researchgate.net/publication/384938455_Isambard-AI_a_leadership_class_supercomputer_optimised_specifically_for_Artificial_Intelligence.
SDxCentral. "UK's $300M Isambard-AI supercomputer officially launches." SDxCentral. Accessed August 1, 2025. https://www.sdxcentral.com/news/uks-300m-isambard-ai-supercomputer-officially-launches/.
TechTarget. "Liquid cooling's moment comes courtesy of AI." TechTarget. Accessed August 1, 2025. https://www.techtarget.com/searchdatacenter/feature/Liquid-coolings-moment-comes-courtesy-of-AI.
The Engineer. "Isambard AI supercomputer launches in Bristol." The Engineer. Accessed August 1, 2025. https://www.theengineer.co.uk/content/news/isambard-ai-supercomputer-launches-in-bristol/.
UK Research and Innovation. "£300 million to launch first phase of new AI Research Resource." Accessed August 1, 2025. https://www.ukri.org/news/300-million-to-launch-first-phase-of-new-ai-research-resource/.
University of Bristol. "2023: Isambard AI Bristol." Cabot Institute for the Environment. Accessed August 1, 2025. https://www.bristol.ac.uk/cabot/news/2023/isambard-ai-bristol.html.
University of Bristol. "July: UK's most powerful supercomputer launches in Bristol." News and features, July 2025. https://www.bristol.ac.uk/news/2025/july/isambard-launch.html.
University of Bristol. "November: Unprecedented £225m investment to create UK's most powerful supercomputer." News and features, November 2023. https://www.bristol.ac.uk/news/2023/november/supercomputer-announcement.html.
Wikipedia. "Blackwell (microarchitecture)." Accessed August 1, 2025. https://en.wikipedia.org/wiki/Blackwell_(microarchitecture).
Wikipedia. "LUMI." Accessed August 1, 2025. https://en.wikipedia.org/wiki/LUMI.
"Isambard-AI: a leadership class supercomputer optimised specifically for Artificial Intelligence." arXiv preprint arXiv:2410.11199 (2024). http://arxiv.org/pdf/2410.11199.