Як Isambard-AI розгорнув 5,448 GPU за 4 місяці: новий план для AI інфраструктури

Рекордне розгортання 5,448 NVIDIA GPU в Isambard-AI демонструє, чому сучасна AI інфраструктура вимагає спеціалізованої експертизи в рідинному охолодженні, високощільному живленні та складних мережах.

Blake Crosley

Aug 02, 2025 9 min read Disclaimer

Як Isambard-AI розгорнув 5,448 GPU за 4 місяці: новий план для AI інфраструктури

Зайдіть у переобладнаний склад в Bristol's National Composites Centre, і ви знайдете 150 тонн найсучаснішого комп'ютерного обладнання, що гудить за рідинно-охолоджуваними шафами: Isambard-AI, найпотужніший суперкомп'ютер штучного інтелекту у Великій Британії. Звичайно, заголовки прославляють його 21 ексафлопс AI продуктивності, але ось що вони пропускають: надзвичайні інфраструктурні виклики, які команда подолала, щоб запустити цей проект вартістю £225 мільйонів всього за 24 місяці. П'ять років тому? Неможливі терміни.

Розгортання 5,448 NVIDIA Grace Hopper Superchips системи Isambard-AI розкриває значний розвиток. Успіх у AI обчисленнях тепер залежить не лише від придбання GPU. Потрібно оволодіти складною екосистемою живлення, охолодження, мережі та логістики, які вимагає сучасна AI інфраструктура. Організації, що планують великомасштабні розгортання GPU, повинні краще розуміти ці виклики та спеціалізований досвід, необхідний для їх подолання.

Коли 5 мегават зустрічає 150 тонн кремнію

Масштаб Isambard-AI руйнує традиційне мислення дата-центрів. Кожна з його 12 HPE Cray EX4000 шаф містить 440 GPU, генеруючи щільність тепла, яка б розплавила звичайні системи. Традиційне повітряне охолодження борється за межами 20кВт на стійку. Isambard-AI? Понад 400кВт на шафу. Рішенням стало 100% пряме рідинне охолодження, але його впровадження потребувало зовсім нових наборів навичок.

"Те, що ми бачимо з такими розгортаннями як Isambard-AI, це фундаментальний зсув у тому, що становить експертизу дата-центру", розкриває ландшафт розгортання інфраструктури. Компанії, які раніше зосереджувалися на традиційних операціях rack-and-stack, тепер потребують інженерів, які розуміють динаміку рідинного охолодження, управління високощільним кабелюванням та як вводити в експлуатацію тисячі GPU одночасно. Команда University of Bristol працювала зі спеціалізованими партнерами з розгортання, щоб встановити понад 40,000 волоконно-оптичних з'єднань. Цього кабелю достатньо, щоб обійти невелике місто. І їм довелося підтримувати точність, необхідну для 5-го покоління NVLink міжз'єднань системи, що працюють на швидкості 1.8TB/s.

Ось головне: проект пройшов шлях від підписання контракту до операційного статусу менше ніж за чотири місяці. Як? Спеціалізовані компанії з розгортання GPU інфраструктури тепер можуть мобілізувати сотні кваліфікованих техніків протягом 72 годин. Це не ваші традиційні IT підрядники. Це спеціалізовані команди, які знають специфічні технічні характеристики крутного моменту для з'єднань рідинного охолодження та оптимальну послідовність для введення тисяч GPU в експлуатацію без перевантаження енергосистем.

Прихована складність AI-орієнтованої інфраструктури

Традиційні суперкомп'ютери модернізуються для AI робочих навантажень. Isambard-AI був розроблений з нуля для застосувань штучного інтелекту. Їх AI-орієнтований підхід вплинув на кожне інфраструктурне рішення. Команда обрала модульний дизайн дата-центру HPE та зібрала його на місці всього за 48 годин. Вони вибрали нульвуглецеве енергопостачання, яке відповідає 4-му місцю системи в глобальному рейтингу енергоефективності.

Сама мережева інфраструктура представляє масивний інженерний координаційний подвиг. Мережа HPE Slingshot 11 системи забезпечує 25.6 Tb/s двонаправленої пропускної здатності через 64 порти, при цьому кожен вузол отримує 800 Gbps мережевої пропускної здатності ін'єкцій. Встановлення та валідація цієї складної мережі з'єднань потребувала спеціалізованого досвіду в високопродуктивних мережах, що виходить далеко за межі типових корпоративних розгортань. Сучасні спеціалісти GPU інфраструктури повинні розуміти фізичний рівень І те, як різні топології міжз'єднань впливають на продуктивність AI робочих навантажень.

Подача живлення створила свої унікальні виклики. Хоча загальна потужність об'єкта Isambard-AI в 5МВт може здаватися скромною порівняно з гіпермасштабними дата-центрами, щільність та критичність цієї подачі живлення створили унікальні вимоги. Кожен Grace Hopper Superchip вимагає точної подачі живлення. З 5,448 з них, що працюють разом, навіть незначні коливання можуть спричинити нестабільність системи. Команда розгортання впровадила складні системи управління живленням з можливостями моніторингу в реальному часі, які могли виявляти та реагувати на аномалії протягом мілісекунд.

Уроки з європейської гонки AI інфраструктури

Розгортання Isambard-AI відбулося під час інтенсивного змагання європейських націй за перевагу в AI. Фінська система LUMI пропонує 380 петафлопс традиційної обчислювальної потужності. Майбутній німецький суперкомп'ютер Jupiter обіцяє стати першою ексамасштабною системою Європи. Проте Isambard-AI досяг операційного статусу швидше за будь-кого зі своїх європейських колег. Він пройшов шлях від початкової пропозиції до повної операції менше ніж за два роки. Порівняйте це з типовими 4-5 річними термінами для порівнянних систем.

Ця швидкісна перевага частково походить від спрощених британських процесів закупівель після Brexit. Але більш значуще, вона випливає з еволюції методологій розгортання GPU. Традиційні інсталяції суперкомп'ютерів слідували послідовним фазам: інфраструктура, потім обладнання, потім мережа, потім програмне забезпечення. Сучасні розгортання GPU використовують паралельні робочі потоки. Спеціалізовані команди працюють одночасно над встановленням рідинного охолодження, введенням GPU в експлуатацію та конфігурацією мережі, драматично стискаючи терміни.

Контраст з іншими європейськими розгортаннями дає цінні уроки. Іспанська MareNostrum 5, незважаючи на свої вражаючі характеристики, потребувала обширної модернізації існуючих об'єктів. Італійська система Leonardo зіткнулася із затримками в інтеграції своїх можливостей AI прискорення. Успіх Isambard-AI демонструє, що спеціально побудована AI інфраструктура, розгорнута командами зі специфічним досвідом GPU, може досягти швидшого часу до науки, ніж модернізовані HPC системи.

Розрив у експертизі, що загрожує AI амбіціям

Організації по всьому світу мчать розгортати AI інфраструктуру, але з'явився критичний розрив у навичках. Традиційні техніки дата-центрів, якими б досвідченими вони не були, часто не мають спеціалізованих знань, необхідних для сучасних розгортань GPU. Системи рідинного охолодження вимагають розуміння гідродинаміки та теплового менеджменту. Високощільні конфігурації GPU вимагають експертизи в подачі живлення та оптимізації повітряного потоку, що виходить за межі звичайних серверних розгортань.

Цей розрив у експертизі найболючіше вдаряє в кількох областях. Управління кабелями для GPU кластерів стало спеціалізованою дисципліною. Тисячі високошвидкісних з'єднань Isambard-AI потребували точної маршрутизації для підтримки цілісності сигналу, дозволяючи при цьому доступ для обслуговування. Техніки живлення та охолодження повинні розуміти не лише стаціонарні вимоги, але й динамічну поведінку AI робочих навантажень, які можуть коливатися від простою до повної потужності за мілісекунди.

Такі компанії як introl.com з'явилися для заповнення цього розриву, розвиваючи спеціалізовані команди, які поєднують традиційні навички дата-центру зі специфічною для GPU експертизою. Їхні розгортання систем, що перевищують 1,000 GPU вузлів, демонструють масштаб, на якому працює цей новий тип інфраструктурного спеціаліста. Здатність мобілізувати 40 техніків протягом тижня, як видно в недавніх великих розгортаннях GPU хмарних провайдерів, представляє нову операційну можливість, яка не існувала в традиційній індустрії дата-центрів.

За межами розгортання: підтримка досконалості AI інфраструктури

Виклики не закінчуються, коли остання GPU вмикається. Підтримка такої системи як Isambard-AI вимагає безперервної оптимізації та проактивного менеджменту. Команда University of Bristol впровадила складні системи моніторингу, які відстежують все від патернів використання GPU до швидкостей потоку охолоджуючої рідини. З 850GB уніфікованого адресного простору пам'яті системи на вузол, навіть незначні неефективності можуть значно вплинути на продуктивність досліджень.

Сучасна GPU інфраструктура вимагає DevOps підходу до фізичних систем. Оновлення прошивки повинні бути ретельно оркестровані через тисячі пристроїв інженерними командами. Системи охолодження потребують прогнозного обслуговування на основі патернів використання та умов навколишнього середовища. Мережеві конфігурації потребують постійного налаштування для оптимізації під еволюціонуючі патерни робочих навантажень. Ця операційна складність стимулює розвиток спеціалізованих сервісних моделей, де інфраструктурні партнери забезпечують постійну оптимізацію, а не одноразове розгортання.

Економічні наслідки вдаряють сильно. Кожен Grace Hopper Superchip представляє значні капітальні інвестиції. Простій напряму впливає на повернення інвестицій. Організації, що розгортають великі GPU кластери, все більше покладаються на партнерів, які можуть забезпечити не лише встановлення, але й постійні послуги оптимізації. Здатність підтримувати понад 95% коефіцієнт використання, як цілится провідними розгортаннями AI інфраструктури, вимагає постійної уваги до планування робочих навантажень, розподілу ресурсів та здоров'я системи.

Нанесення на карту майбутнього AI інфраструктури

Успішне розгортання Isambard-AI пропонує критичні уроки для організацій, що планують свої власні ініціативи AI інфраструктури. По-перше, ера ставлення до GPU як простих серверних компонентів закінчилася. Сучасні AI системи вимагають холістичного мислення про живлення, охолодження, мережу та операції з найраніших стадій планування. По-друге, стислі терміни, досягнуті Isambard-AI (від концепції до операції менше ніж за два роки), стають новим стандартом, але лише для організацій, які співпрацюють зі спеціалізованими командами розгортання.

Дивлячись вперед, інфраструктурні виклики лише загостряться. Архітектура NVIDIA Blackwell обіцяє ще вищі щільності живлення, з деякими конфігураціями, що перевищують 1,000Вт на GPU. Рідинне охолодження перейде від просунутої опції до абсолютної необхідності. Вимоги до мережевої пропускної здатності продовжуватимуть експоненційно зростати, оскільки розміри моделей рухаються до 10 трильйонів параметрів. Організації, які не мають доступу до спеціалізованої експертизи GPU інфраструктури, знайдуть себе все більше неспроможними конкурувати в AI революції.

Британські інвестиції в Isambard-AI представляють більше, ніж просто технічне досягнення. Це план того, як нації та організації можуть швидко розгорнути світового класу AI інфраструктуру. Поєднуючи спеціально побудовані об'єкти, спрощені процеси закупівель та партнерства зі спеціалізованими командами розгортання, проект демонструє, що інфраструктурні виклики ери AI, хоча й грізні, далеко не непереборні. Для тих, хто готовий інвестувати в правильну експертизу та партнерства, шлях від амбіцій до операційного AI суперобчислення ніколи не був більш прямим.

Університети, підприємства та уряди по всьому світу обмірковують свої власні інвестиції в AI інфраструктуру. Isambard-AI стоїть як доказ того, що з правильним підходом та правильними партнерами, навіть найамбітніші розгортання GPU можуть рухатися від пропозиції до виробництва зі швидкістю інновацій. Питання більше не в тому, чи будувати AI інфраструктуру, а в тому, чи маєте ви доступ до спеціалізованої експертизи, необхідної для правильного виконання.

Посилання

Alliance Chemical. "AI GPU Cooling Revolution: Deionized Water, Ethylene Glycol & Propylene." Alliance Chemical. Accessed August 1, 2025. https://alliancechemical.com/blogs/articles/ai-gpu-cooling-revolution-deionized-water-ethylene-glycol-propylene-glycol-the-ultimate-liquid-cooling-guide.

Computer Weekly. "Bristol goes live with UK AI supercomputer." Computer Weekly, 2025. https://www.computerweekly.com/news/366584173/Bristol-goes-live-with-UK-AI-supercomputer.

Computer Weekly. "UK government pledges £225m to fund University of Bristol AI supercomputer build with HPE." Computer Weekly, November 2023. https://www.computerweekly.com/news/366558036/UK-government-pledges-225m-to-fund-University-of-Bristol-AI-supercomputer-build-with-HPE.

Data Center Knowledge. "Direct-to-Chip Liquid Cooling: Optimizing Data Center Efficiency." Data Center Knowledge. Accessed August 1, 2025. https://www.datacenterknowledge.com/cooling/direct-to-chip-liquid-cooling-optimizing-data-center-efficiency.

EuroHPC Joint Undertaking. "Inauguration of MareNostrum 5: Europe welcomes a new world-class supercomputer." December 21, 2023. https://www.eurohpc-ju.europa.eu/inauguration-marenostrum-5-europe-welcomes-new-world-class-supercomputer-2023-12-21_en.

EuroHPC Joint Undertaking. "MareNostrum5: a new EuroHPC world-class supercomputer in Spain." June 16, 2022. https://eurohpc-ju.europa.eu/marenostrum5-new-eurohpc-world-class-supercomputer-spain-2022-06-16_en.

Forschungszentrum Jülich. "JUPITER Technical Overview." Accessed August 1, 2025. https://www.fz-juelich.de/en/ias/jsc/jupiter/tech.

GOV.UK. "Sovereign AI AIRR launch opportunity: call for researchers." Accessed August 1, 2025. https://www.gov.uk/government/publications/sovereign-ai-airr-launch-opportunity-call-for-researchers/sovereign-ai-airr-launch-opportunity-call-for-researchers.

Hewlett-Packard Enterprise. "UK Government invests £225m to create UK's most powerful AI supercomputer with University of Bristol and Hewlett Packard Enterprise." Press release, November 2023. https://www.hpe.com/us/en/newsroom/press-release/2023/11/uk-government-invests-225m-to-create-uks-most-powerful-ai-supercomputer-with-university-of-bristol-and-hewlett-packard-enterprise.html.

HPCwire. "University of Bristol to Host Isambard-AI Supercomputer, Marking a New Era in AI and HPC." HPCwire. Accessed August 1, 2025. https://www.hpcwire.com/off-the-wire/university-of-bristol-to-host-isambard-ai-supercomputer-marking-a-new-era-in-ai-and-hpc/.

Hyperstack. "All About the NVIDIA Blackwell GPUs: Architecture, Features, Chip Specs." Accessed August 1, 2025. https://www.hyperstack.cloud/blog/thought-leadership/everything-you-need-to-know-about-the-nvidia-blackwell-gpus.

IBM. "Introl Solutions, LLC." IBM PartnerPlus Directory. Accessed August 1, 2025. https://www.ibm.com/partnerplus/directory/company/9695.

Introl. "GPU Infrastructure Deployments | Optimize Your GPU Deployments." Accessed August 1, 2025. https://introl.com/gpu-infrastructure-deployments.

Introl. "Introl - GPU Infrastructure & Data Center Deployment Experts." Accessed August 1, 2025. https://introl.com.

Introl. "Introl | GPU Infrastructure, Data Center Solutions & HPC Deployment." Accessed August 1, 2025. https://introl.com/blog.

IT Pro. "Inside Isambard-AI: The UK's most powerful supercomputer." IT Pro. Accessed August 1, 2025. https://www.itpro.com/infrastructure/inside-isambard-ai-the-uks-most-powerful-supercomputer.

IT4Innovations. "LUMI." Accessed August 1, 2025. https://www.it4i.cz/en/infrastructure/lumi.

Jetcool. "What is Direct Liquid Cooling for AI Data Centers?" Accessed August 1, 2025. https://jetcool.com/post/what-is-direct-liquid-cooling-for-ai-data-centers/.

NVIDIA. "NVLink & NVSwitch for Advanced Multi-GPU Communication." Accessed August 1, 2025. https://www.nvidia.com/en-us/data-center/nvlink/.

NVIDIA. "The Engine Behind AI Factories | NVIDIA Blackwell Architecture." Accessed August 1, 2025. https://www.nvidia.com/en-us/data-center/technologies/blackwell-architecture/.

NVIDIA Blog. "NVIDIA Blackwell Platform Boosts Water Efficiency by Over 300x." Accessed August 1, 2025. https://blogs.nvidia.com/blog/blackwell-platform-water-efficiency-liquid-cooling-data-centers-ai-factories/.

ResearchGate. "Isambard-AI: a leadership class supercomputer optimised specifically for Artificial Intelligence." October 2024. https://www.researchgate.net/publication/384938455_Isambard-AI_a_leadership_class_supercomputer_optimised_specifically_for_Artificial_Intelligence.

SDxCentral. "UK's $300M Isambard-AI supercomputer officially launches." SDxCentral. Accessed August 1, 2025. https://www.sdxcentral.com/news/uks-300m-isambard-ai-supercomputer-officially-launches/.

TechTarget. "Liquid cooling's moment comes courtesy of AI." TechTarget. Accessed August 1, 2025. https://www.techtarget.com/searchdatacenter/feature/Liquid-coolings-moment-comes-courtesy-of-AI.

The Engineer. "Isambard AI supercomputer launches in Bristol." The Engineer. Accessed August 1, 2025. https://www.theengineer.co.uk/content/news/isambard-ai-supercomputer-launches-in-bristol/.

UK Research and Innovation. "£300 million to launch first phase of new AI Research Resource." Accessed August 1, 2025. https://www.ukri.org/news/300-million-to-launch-first-phase-of-new-ai-research-resource/.

University of Bristol. "2023: Isambard AI Bristol." Cabot Institute for the Environment. Accessed August 1, 2025. https://www.bristol.ac.uk/cabot/news/2023/isambard-ai-bristol.html.

University of Bristol. "July: UK's most powerful supercomputer launches in Bristol." News and features, July 2025. https://www.bristol.ac.uk/news/2025/july/isambard-launch.html.

University of Bristol. "November: Unprecedented £225m investment to create UK's most powerful supercomputer." News and features, November 2023. https://www.bristol.ac.uk/news/2023/november/supercomputer-announcement.html.

Wikipedia. "Blackwell (microarchitecture)." Accessed August 1, 2025. https://en.wikipedia.org/wiki/Blackwell_(microarchitecture).

Wikipedia. "LUMI." Accessed August 1, 2025. https://en.wikipedia.org/wiki/LUMI.

"Isambard-AI: a leadership class supercomputer optimised specifically for Artificial Intelligence." arXiv preprint arXiv:2410.11199 (2024). http://arxiv.org/pdf/2410.11199.

Коли 5 мегават зустрічає 150 тонн кремнію

Прихована складність AI-орієнтованої інфраструктури

Уроки з європейської гонки AI інфраструктури

Розрив у експертизі, що загрожує AI амбіціям

За межами розгортання: підтримка досконалості AI інфраструктури

Нанесення на карту майбутнього AI інфраструктури

Посилання

You Might Also Like

ДБЖ та розподіл електроенергії для ШІ: проєктування стійкої ...

Модернізація застарілих дата-центрів для ШІ: посібник з інте...

xAI Colossus досягає 2 ГВт: 555 000 GPU, $18 млрд, найбільши...

Запросити пропозицію_

Запит отримано_