Isambard-AI如何在4个月内部署5,448个GPU:AI基础设施的全新蓝图

Isambard-AI创纪录地部署了5,448个NVIDIA GPU,这揭示了为什么现代AI基础设施需要液体冷却、高密度供电和复杂网络方面的专业技术。

Isambard-AI如何在4个月内部署5,448个GPU:AI基础设施的全新蓝图

走进Bristol国家复合材料中心的改建仓库,你会看到150吨尖端计算硬件在液冷机柜后嗡嗡作响:Isambard-AI,英国最强大的人工智能超级计算机。当然,头条新闻庆祝它21 exaflops的AI性能,但他们错过了关键点:团队在仅24个月内完成这个2.25亿英镑项目所克服的非凡基础设施挑战。五年前?这是不可能的时间表。

Isambard-AI部署的5,448颗NVIDIA Grace Hopper Superchip揭示了一个重大发展。AI计算的成功现在不仅仅依赖于购买GPU。你需要掌握现代AI基础设施所需的电力、冷却、网络和物流复杂生态系统。规划大规模GPU部署的组织应该更好地了解这些挑战以及克服这些挑战所需的专业技能。

当5兆瓦遇上150吨硅芯片

Isambard-AI的规模打破了传统数据中心思维。它的12个HPE Cray EX4000机柜中每个容纳440个GPU,产生的热密度足以熔化传统系统。传统风冷在超过每机架20kW时就力不从心。而Isambard-AI?每个机柜超过400kW。解决方案是100%直接液冷,但实施它需要全新的技能组合。

"我们在Isambard-AI等部署中看到的是数据中心专业知识构成的根本性转变,"基础设施部署领域揭示。过去专注于传统机架堆叠操作的公司,现在需要了解液冷动力学、高密度布线管理以及如何同时调试数千个GPU的工程师。Bristol大学的团队与专业部署合作伙伴合作,安装了超过40,000个光纤连接。这些线缆足以围绕一个小城市。而且他们必须保持系统第五代NVLink互连以1.8TB/s运行所需的精度。

关键是:项目从合同签署到投入运营仅用了不到四个月。如何做到?专业GPU基础设施部署公司现在可以在72小时内动员数百名熟练技术人员。这些不是传统IT承包商。他们是了解液冷连接特定扭矩规格和在不使电力系统过载情况下让数千个GPU上线的最佳顺序的专业团队。

AI优先基础设施的隐藏复杂性

传统超级计算机被改造用于AI工作负载。Isambard-AI从头开始专为人工智能应用设计。他们的AI优先方法影响了每一个基础设施决策。团队选择了HPE的模块化数据中心设计,并在现场仅用48小时完成组装。他们选择了零碳电力供应,与该系统全球第四的能效排名保持一致。

仅网络基础设施就代表了巨大的工程协调成就。系统的HPE Slingshot 11网络在64个端口上提供25.6 Tb/s的双向带宽,每个节点获得800 Gbps的网络注入带宽。安装和验证这个复杂的连接网需要高性能网络专业技能,这远超典型企业部署。现代GPU基础设施专家需要了解物理层以及不同互连拓扑如何影响AI工作负载性能。

电力传输带来了独特的挑战。虽然Isambard-AI的5MW总设施电力与超大规模数据中心相比可能显得适中,但这种电力传输的密度和重要性创造了独特的要求。每个Grace Hopper Superchip都需要精确的电力传输。5,448个芯片协调运行,即使是轻微的波动也可能导致系统不稳定。部署团队实施了复杂的电源管理系统,具有实时监控能力,可以在毫秒内检测和响应异常。

从欧洲AI基础设施竞赛中学习

Isambard-AI的部署发生在欧洲国家激烈竞争AI主导地位的时期。芬兰的LUMI系统提供380 petaflops的传统计算能力。德国即将推出的Jupiter超级计算机承诺成为欧洲首个百亿亿次系统。然而Isambard-AI比任何欧洲同行都更快地实现了运营状态。它在不到两年的时间里从初步提案发展到全面运营。与类似系统典型的4-5年时间表相比。

这种速度优势部分来自英国脱欧后简化的采购流程。但更重要的是,它源于GPU部署方法论的演进。传统超级计算机安装遵循顺序阶段:基础设施、然后硬件、然后网络、然后软件。现代GPU部署利用并行工作流程。专业团队同时进行液冷安装、GPU调试和网络配置,大幅压缩时间表。

与其他欧洲部署的对比教导了宝贵的经验。西班牙的MareNostrum 5尽管规格令人印象深刻,但需要对现有设施进行大量改造。意大利的Leonardo系统在整合AI加速能力方面面临延迟。Isambard-AI的成功表明,由具有特定GPU专业技能的团队部署的专用AI基础设施可以比改造的HPC系统更快地实现科学价值。

威胁AI野心的专业技能差距

全球组织竞相部署AI基础设施,但关键的技能差距已经出现。传统数据中心技术人员,无论多有经验,往往缺乏现代GPU部署所需的专业知识。液冷系统需要了解流体动力学和热管理。高密度GPU配置需要在电力传输和气流优化方面的专业知识,这超出了传统服务器部署的范围。

这种专业技能差距在几个领域影响最严重。GPU集群的布线管理已经成为一个专业学科。Isambard-AI的数千个高速连接需要精确路由以保持信号完整性,同时允许维护访问。电力和冷却技术人员需要了解的不仅是稳态要求,还有AI工作负载的动态行为,这些工作负载可以在毫秒内从空闲状态跳到满负荷。

像introl.com这样的公司出现来填补这一空白,开发将传统数据中心技能与GPU特定专业知识相结合的专业团队。他们部署超过1,000个GPU节点的系统展示了这种新型基础设施专家运营的规模。在一周内动员40名技术人员的能力,正如在最近主要GPU云提供商部署中所见,代表了传统数据中心行业中不存在的新运营能力。

超越部署:维持AI基础设施卓越

挑战不会在最后一个GPU启动时结束。维护像Isambard-AI这样的系统需要持续优化和主动管理。Bristol大学的团队实施了复杂的监控系统,跟踪从GPU利用模式到冷却剂流量的所有内容。凭借系统每节点850GB的统一内存地址空间,即使是轻微的效率低下也可能显著影响研究生产力。

现代GPU基础设施需要对物理系统采用DevOps方法。固件更新必须由工程团队在数千台设备上精心协调。冷却系统需要基于使用模式和环境条件的预测性维护。网络配置需要持续调优以优化不断演变的工作负载模式。这种运营复杂性推动了专业服务模式的发展,基础设施合作伙伴提供持续优化而不是一次性部署。

经济影响严重。每个Grace Hopper Superchip代表重大的资本投资。空闲时间直接影响投资回报。部署大型GPU集群的组织越来越依赖能够提供不仅安装而且持续优化服务的合作伙伴。维持95%以上利用率的能力,正如领先的AI基础设施部署所目标的那样,需要持续关注工作负载调度、资源分配和系统健康。

描绘AI基础设施的未来

Isambard-AI的成功部署为规划自己AI基础设施计划的组织提供了关键经验。首先,将GPU视为简单服务器组件的时代已经结束。现代AI系统需要从最早的规划阶段就对电力、冷却、网络和操作进行整体思考。其次,Isambard-AI实现的压缩时间表(从概念到运营不到两年)正在成为新标准,但仅限于与专业部署团队合作的组织。

展望未来,基础设施挑战只会更加严峻。NVIDIA的Blackwell架构承诺甚至更高的功率密度,某些配置每个GPU超过1,000W。液冷将从高级选择转变为绝对必需。随着模型大小推向10万亿参数,网络带宽要求将继续指数增长。缺乏专业GPU基础设施专业知识的组织将发现自己越来越无法在AI革命中竞争。

英国对Isambard-AI的投资不仅仅代表技术成就。它是国家和组织如何快速部署世界级AI基础设施的蓝图。通过结合专用设施、简化采购流程和与专业部署团队的合作关系,该项目证明了AI时代的基础设施挑战虽然艰巨,但远非无法克服。对于愿意投资正确专业知识和合作关系的人来说,从AI超级计算雄心到运营的路径从未如此直接。

全球大学、企业和政府都在考虑自己的AI基础设施投资。Isambard-AI作为证据表明,通过正确的方法和正确的合作伙伴,即使是最雄心勃勃的GPU部署也可以以创新的速度从提案转向生产。问题不再是是否构建AI基础设施,而是你是否能够获得正确实施所需的专业技能。

参考文献

Alliance Chemical. "AI GPU Cooling Revolution: Deionized Water, Ethylene Glycol & Propylene." Alliance Chemical. Accessed August 1, 2025. https://alliancechemical.com/blogs/articles/ai-gpu-cooling-revolution-deionized-water-ethylene-glycol-propylene-glycol-the-ultimate-liquid-cooling-guide.

Computer Weekly. "Bristol goes live with UK AI supercomputer." Computer Weekly, 2025. https://www.computerweekly.com/news/366584173/Bristol-goes-live-with-UK-AI-supercomputer.

Computer Weekly. "UK government pledges £225m to fund University of Bristol AI supercomputer build with HPE." Computer Weekly, November 2023. https://www.computerweekly.com/news/366558036/UK-government-pledges-225m-to-fund-University-of-Bristol-AI-supercomputer-build-with-HPE.

Data Center Knowledge. "Direct-to-Chip Liquid Cooling: Optimizing Data Center Efficiency." Data Center Knowledge. Accessed August 1, 2025. https://www.datacenterknowledge.com/cooling/direct-to-chip-liquid-cooling-optimizing-data-center-efficiency.

EuroHPC Joint Undertaking. "Inauguration of MareNostrum 5: Europe welcomes a new world-class supercomputer." December 21, 2023. https://www.eurohpc-ju.europa.eu/inauguration-marenostrum-5-europe-welcomes-new-world-class-supercomputer-2023-12-21_en.

EuroHPC Joint Undertaking. "MareNostrum5: a new EuroHPC world-class supercomputer in Spain." June 16, 2022. https://eurohpc-ju.europa.eu/marenostrum5-new-eurohpc-world-class-supercomputer-spain-2022-06-16_en.

Forschungszentrum Jülich. "JUPITER Technical Overview." Accessed August 1, 2025. https://www.fz-juelich.de/en/ias/jsc/jupiter/tech.

GOV.UK. "Sovereign AI AIRR launch opportunity: call for researchers." Accessed August 1, 2025. https://www.gov.uk/government/publications/sovereign-ai-airr-launch-opportunity-call-for-researchers/sovereign-ai-airr-launch-opportunity-call-for-researchers.

Hewlett-Packard Enterprise. "UK Government invests £225m to create UK's most powerful AI supercomputer with University of Bristol and Hewlett Packard Enterprise." Press release, November 2023. https://www.hpe.com/us/en/newsroom/press-release/2023/11/uk-government-invests-225m-to-create-uks-most-powerful-ai-supercomputer-with-university-of-bristol-and-hewlett-packard-enterprise.html.

HPCwire. "University of Bristol to Host Isambard-AI Supercomputer, Marking a New Era in AI and HPC." HPCwire. Accessed August 1, 2025. https://www.hpcwire.com/off-the-wire/university-of-bristol-to-host-isambard-ai-supercomputer-marking-a-new-era-in-ai-and-hpc/.

Hyperstack. "All About the NVIDIA Blackwell GPUs: Architecture, Features, Chip Specs." Accessed August 1, 2025. https://www.hyperstack.cloud/blog/thought-leadership/everything-you-need-to-know-about-the-nvidia-blackwell-gpus.

IBM. "Introl Solutions, LLC." IBM PartnerPlus Directory. Accessed August 1, 2025. https://www.ibm.com/partnerplus/directory/company/9695.

Introl. "GPU Infrastructure Deployments | Optimize Your GPU Deployments." Accessed August 1, 2025. https://introl.com/gpu-infrastructure-deployments.

Introl. "Introl - GPU Infrastructure & Data Center Deployment Experts." Accessed August 1, 2025. https://introl.com.

Introl. "Introl | GPU Infrastructure, Data Center Solutions & HPC Deployment." Accessed August 1, 2025. https://introl.com/blog.

IT Pro. "Inside Isambard-AI: The UK's most powerful supercomputer." IT Pro. Accessed August 1, 2025. https://www.itpro.com/infrastructure/inside-isambard-ai-the-uks-most-powerful-supercomputer.

IT4Innovations. "LUMI." Accessed August 1, 2025. https://www.it4i.cz/en/infrastructure/lumi.

Jetcool. "What is Direct Liquid Cooling for AI Data Centers?" Accessed August 1, 2025. https://jetcool.com/post/what-is-direct-liquid-cooling-for-ai-data-centers/.

NVIDIA. "NVLink & NVSwitch for Advanced Multi-GPU Communication." Accessed August 1, 2025. https://www.nvidia.com/en-us/data-center/nvlink/.

NVIDIA. "The Engine Behind AI Factories | NVIDIA Blackwell Architecture." Accessed August 1, 2025. https://www.nvidia.com/en-us/data-center/technologies/blackwell-architecture/.

NVIDIA Blog. "NVIDIA Blackwell Platform Boosts Water Efficiency by Over 300x." Accessed August 1, 2025. https://blogs.nvidia.com/blog/blackwell-platform-water-efficiency-liquid-cooling-data-centers-ai-factories/.

ResearchGate. "Isambard-AI: a leadership class supercomputer optimised specifically for Artificial Intelligence." October 2024. https://www.researchgate.net/publication/384938455_Isambard-AI_a_leadership_class_supercomputer_optimised_specifically_for_Artificial_Intelligence.

SDxCentral. "UK's $300M Isambard-AI supercomputer officially launches." SDxCentral. Accessed August 1, 2025. https://www.sdxcentral.com/news/uks-300m-isambard-ai-supercomputer-officially-launches/.

TechTarget. "Liquid cooling's moment comes courtesy of AI." TechTarget. Accessed August 1, 2025. https://www.techtarget.com/searchdatacenter/feature/Liquid-coolings-moment-comes-courtesy-of-AI.

The Engineer. "Isambard AI supercomputer launches in Bristol." The Engineer. Accessed August 1, 2025. https://www.theengineer.co.uk/content/news/isambard-ai-supercomputer-launches-in-bristol/.

UK Research and Innovation. "£300 million to launch first phase of new AI Research Resource." Accessed August 1, 2025. https://www.ukri.org/news/300-million-to-launch-first-phase-of-new-ai-research-resource/.

University of Bristol. "2023: Isambard AI Bristol." Cabot Institute for the Environment. Accessed August 1, 2025. https://www.bristol.ac.uk/cabot/news/2023/isambard-ai-bristol.html.

University of Bristol. "July: UK's most powerful supercomputer launches in Bristol." News and features, July 2025. https://www.bristol.ac.uk/news/2025/july/isambard-launch.html.

University of Bristol. "November: Unprecedented £225m investment to create UK's most powerful supercomputer." News and features, November 2023. https://www.bristol.ac.uk/news/2023/november/supercomputer-announcement.html.

Wikipedia. "Blackwell (microarchitecture)." Accessed August 1, 2025. https://en.wikipedia.org/wiki/Blackwell_(microarchitecture).

Wikipedia. "LUMI." Accessed August 1, 2025. https://en.wikipedia.org/wiki/LUMI.

"Isambard-AI: a leadership class supercomputer optimised specifically for Artificial Intelligence." arXiv preprint arXiv:2410.11199 (2024). http://arxiv.org/pdf/2410.11199.

申请报价_

告诉我们您的项目需求,我们将在72小时内回复。

> 传输完成

请求已收到_

感谢您的咨询。我们的团队将审核您的请求并在72小时内回复。

排队处理中