Back to Blog

Comment Isambard-AI a déployé 5 448 GPUs en 4 mois : le nouveau modèle pour l'infrastructure IA

Le déploiement record de 5 448 GPUs NVIDIA par Isambard-AI révèle pourquoi l'infrastructure IA moderne exige une expertise spécialisée en refroidissement liquide, alimentation haute densité et réseaux complexes.

Comment Isambard-AI a déployé 5 448 GPUs en 4 mois : le nouveau modèle pour l'infrastructure IA

Entrez dans un entrepôt reconverti au National Composites Centre de Bristol et vous découvrirez 150 tonnes de matériel informatique de pointe ronronnant derrière des armoires refroidies par liquide : Isambard-AI, le supercalculateur d'intelligence artificielle le plus puissant du Royaume-Uni. Certes, les gros titres célèbrent ses 21 exaflops de performance IA, mais voici ce qu'ils oublient : les défis extraordinaires d'infrastructure que l'équipe a surmontés pour mettre en service ce projet de 225 millions de livres sterling en seulement 24 mois. Il y a cinq ans ? Un calendrier impossible.

Le déploiement des 5 448 NVIDIA Grace Hopper Superchips d'Isambard-AI révèle une évolution significative. Le succès en calcul IA ne dépend plus seulement de l'achat de GPUs. Vous devez maîtriser l'écosystème complexe de l'alimentation, du refroidissement, des réseaux et de la logistique qu'exige l'infrastructure IA moderne. Les organisations qui planifient des déploiements GPU à grande échelle devraient mieux comprendre ces défis et l'expertise spécialisée nécessaire pour les surmonter.

Quand 5 mégawatts rencontrent 150 tonnes de silicium

L'échelle d'Isambard-AI bouleverse la pensée traditionnelle des centres de données. Chacune de ses 12 armoires HPE Cray EX4000 héberge 440 GPUs, générant des densités thermiques qui feraient fondre les systèmes conventionnels. Le refroidissement par air traditionnel peine au-delà de 20kW par rack. Isambard-AI ? Plus de 400kW par armoire. La solution était un refroidissement liquide direct à 100%, mais sa mise en œuvre a nécessité des compétences entièrement nouvelles.

« Ce que nous observons avec des déploiements comme Isambard-AI est un changement fondamental dans ce qui constitue l'expertise des centres de données », révèle le paysage du déploiement d'infrastructure. Les entreprises qui se concentraient auparavant sur les opérations traditionnelles de rack-and-stack ont maintenant besoin d'ingénieurs qui comprennent la dynamique du refroidissement liquide, la gestion du câblage haute densité et comment mettre en service des milliers de GPUs simultanément. L'équipe de l'Université de Bristol a travaillé avec des partenaires de déploiement spécialisés pour installer plus de 40 000 connexions fibre optique. C'est assez de câblage pour faire le tour d'une petite ville. Et ils ont dû maintenir la précision requise pour les interconnexions NVLink de 5e génération du système fonctionnant à 1,8 To/s.

Voici le point clé : le projet est passé de la signature du contrat au statut opérationnel en moins de quatre mois. Comment ? Les entreprises spécialisées dans le déploiement d'infrastructure GPU peuvent désormais mobiliser des centaines de techniciens qualifiés en 72 heures. Ce ne sont pas vos sous-traitants informatiques traditionnels. Ce sont des équipes spécialisées qui connaissent les spécifications de couple précises pour les connexions de refroidissement liquide et le séquençage optimal pour mettre en ligne des milliers de GPUs sans surcharger les systèmes électriques.

La complexité cachée de l'infrastructure IA-first

Les supercalculateurs traditionnels sont adaptés pour les charges de travail IA. Isambard-AI a été conçu dès le départ pour les applications d'intelligence artificielle. Leur approche IA-first a influencé chaque décision d'infrastructure. L'équipe a choisi la conception modulaire de centre de données de HPE et l'a assemblée sur site en seulement 48 heures. Ils ont sélectionné une alimentation zéro carbone qui s'aligne avec la 4e place mondiale du système en matière d'efficacité énergétique.

L'infrastructure réseau à elle seule représente un exploit massif de coordination d'ingénierie. Le réseau HPE Slingshot 11 du système fournit 25,6 Tb/s de bande passante bidirectionnelle sur 64 ports, chaque nœud recevant 800 Gbps de bande passante d'injection réseau. L'installation et la validation de ce réseau complexe de connexions ont nécessité une expertise spécialisée en réseaux haute performance qui va bien au-delà des déploiements d'entreprise typiques. Les spécialistes modernes de l'infrastructure GPU doivent comprendre la couche physique ET comment les différentes topologies d'interconnexion affectent les performances des charges de travail IA.

La distribution électrique a créé ses défis uniques. Bien que les 5MW de puissance totale des installations d'Isambard-AI puissent sembler modestes comparés aux centres de données hyperscale, la densité et la criticité de cette distribution électrique ont créé des exigences uniques. Chaque Grace Hopper Superchip exige une alimentation précise. Avec 5 448 d'entre eux fonctionnant de concert, même des fluctuations mineures pourraient causer une instabilité du système. L'équipe de déploiement a implémenté des systèmes sophistiqués de gestion de l'énergie avec des capacités de surveillance en temps réel pouvant détecter et répondre aux anomalies en quelques millisecondes.

Apprendre de la course européenne à l'infrastructure IA

Le déploiement d'Isambard-AI s'est produit alors que les nations européennes rivalisaient intensément pour la suprématie en IA. Le système LUMI de Finlande offre 380 pétaflops de puissance de calcul traditionnelle. Le prochain supercalculateur Jupiter allemand promet d'être le premier système exascale d'Europe. Pourtant, Isambard-AI a atteint le statut opérationnel plus rapidement que tous ses pairs européens. Il est passé de la proposition initiale à l'exploitation complète en moins de deux ans. Comparez cela au calendrier typique de 4-5 ans pour des systèmes comparables.

Cet avantage de vitesse vient en partie des processus d'approvisionnement rationalisés du Royaume-Uni post-Brexit. Mais plus significativement, il découle de l'évolution des méthodologies de déploiement GPU. Les installations de supercalculateurs traditionnelles suivaient des phases séquentielles : infrastructure, puis matériel, puis réseau, puis logiciel. Les déploiements GPU modernes exploitent des flux de travail parallèles. Des équipes spécialisées travaillent simultanément sur l'installation du refroidissement liquide, la mise en service des GPUs et la configuration réseau, comprimant dramatiquement les délais.

Le contraste avec d'autres déploiements européens enseigne des leçons précieuses. Le MareNostrum 5 espagnol, malgré ses spécifications impressionnantes, a nécessité une adaptation extensive des installations existantes. Le système Leonardo italien a fait face à des retards dans l'intégration de ses capacités d'accélération IA. Le succès d'Isambard-AI démontre qu'une infrastructure IA construite sur mesure, déployée par des équipes avec une expertise GPU spécifique, peut atteindre un délai de mise en production scientifique plus rapide que les systèmes HPC adaptés.

Le déficit d'expertise menaçant les ambitions IA

Les organisations du monde entier se précipitent pour déployer une infrastructure IA, mais un déficit de compétences critique a émergé. Les techniciens traditionnels de centres de données, aussi expérimentés soient-ils, manquent souvent des connaissances spécialisées requises pour les déploiements GPU modernes. Les systèmes de refroidissement liquide nécessitent une compréhension de la dynamique des fluides et de la gestion thermique. Les configurations GPU haute densité exigent une expertise en distribution électrique et optimisation des flux d'air qui va au-delà des déploiements de serveurs conventionnels.

Ce déficit d'expertise frappe le plus durement dans plusieurs domaines. La gestion des câbles pour les clusters GPU est devenue une discipline spécialisée. Les milliers de connexions haute vitesse d'Isambard-AI ont nécessité un routage précis pour maintenir l'intégrité du signal tout en permettant l'accès pour la maintenance. Les techniciens électricité et refroidissement doivent comprendre non seulement les exigences en régime permanent mais aussi le comportement dynamique des charges de travail IA qui peuvent passer de l'inactivité à la pleine puissance en quelques millisecondes.

Des entreprises comme introl.com ont émergé pour combler ce déficit, développant des équipes spécialisées qui combinent les compétences traditionnelles des centres de données avec une expertise spécifique aux GPUs. Leurs déploiements de systèmes dépassant 1 000 nœuds GPU démontrent l'échelle à laquelle opère cette nouvelle génération de spécialistes d'infrastructure. La capacité de mobiliser 40 techniciens en une semaine, comme observé dans les récents déploiements de grands fournisseurs de cloud GPU, représente une nouvelle capacité opérationnelle qui n'existait pas dans l'industrie traditionnelle des centres de données.

Au-delà du déploiement : maintenir l'excellence de l'infrastructure IA

Les défis ne s'arrêtent pas quand le dernier GPU s'allume. Maintenir un système comme Isambard-AI nécessite une optimisation continue et une gestion proactive. L'équipe de l'Université de Bristol a implémenté des systèmes de surveillance sophistiqués qui suivent tout, des patterns d'utilisation des GPUs aux débits de liquide de refroidissement. Avec l'espace d'adressage mémoire unifié de 850 Go par nœud du système, même des inefficacités mineures peuvent impacter significativement la productivité de la recherche.

L'infrastructure GPU moderne exige une approche DevOps pour les systèmes physiques. Les mises à jour de firmware doivent être soigneusement orchestrées sur des milliers d'appareils par les équipes d'ingénierie. Les systèmes de refroidissement nécessitent une maintenance prédictive basée sur les patterns d'utilisation et les conditions environnementales. Les configurations réseau ont besoin d'un ajustement continu pour optimiser les patterns de charge de travail évolutifs. Cette complexité opérationnelle pousse au développement de modèles de service spécialisés où les partenaires d'infrastructure fournissent une optimisation continue plutôt qu'un déploiement ponctuel.

Les implications économiques sont importantes. Chaque Grace Hopper Superchip représente un investissement en capital significatif. Le temps d'inactivité impacte directement le retour sur investissement. Les organisations déployant de grands clusters GPU s'appuient de plus en plus sur des partenaires qui peuvent fournir non seulement l'installation mais aussi des services d'optimisation continue. La capacité de maintenir des taux d'utilisation de 95%+, comme visé par les déploiements d'infrastructure IA de pointe, nécessite une attention constante à la planification des charges de travail, l'allocation des ressources et la santé du système.

Tracer l'avenir de l'infrastructure IA

Le déploiement réussi d'Isambard-AI offre des leçons cruciales pour les organisations planifiant leurs propres initiatives d'infrastructure IA. Premièrement, l'ère où l'on traitait les GPUs comme de simples composants de serveur est révolue. Les systèmes IA modernes nécessitent une réflexion holistique sur l'alimentation, le refroidissement, les réseaux et les opérations dès les premières étapes de planification. Deuxièmement, les délais comprimés atteints par Isambard-AI (du concept à l'exploitation en moins de deux ans) deviennent le nouveau standard, mais seulement pour les organisations qui s'associent avec des équipes de déploiement spécialisées.

En regardant vers l'avenir, les défis d'infrastructure ne feront que s'intensifier. L'architecture Blackwell de NVIDIA promet des densités de puissance encore plus élevées, avec certaines configurations dépassant 1 000W par GPU. Le refroidissement liquide passera d'une option avancée à une nécessité absolue. Les exigences de bande passante réseau continueront de croître exponentiellement à mesure que les tailles de modèles poussent vers 10 trillions de paramètres. Les organisations qui n'ont pas accès à une expertise spécialisée en infrastructure GPU se retrouveront de plus en plus incapables de rivaliser dans la révolution de l'IA.

L'investissement du Royaume-Uni dans Isambard-AI représente plus qu'une simple réussite technique. C'est un modèle pour la façon dont les nations et les organisations peuvent rapidement déployer une infrastructure IA de classe mondiale. En combinant des installations construites sur mesure, des processus d'approvisionnement rationalisés et des partenariats avec des équipes de déploiement spécialisées, le projet démontre que les défis d'infrastructure de l'ère de l'IA, bien que redoutables, sont loin d'être insurmontables. Pour ceux qui sont prêts à investir dans la bonne expertise et les bons partenariats, le chemin de l'ambition au supercalcul IA opérationnel n'a jamais été aussi direct.

Les universités, les entreprises et les gouvernements du monde entier contemplent leurs propres investissements en infrastructure IA. Isambard-AI est la preuve qu'avec la bonne approche et les bons partenaires, même les déploiements GPU les plus ambitieux peuvent passer de la proposition à la production à la vitesse de l'innovation. La question n'est plus de savoir s'il faut construire une infrastructure IA, mais si vous avez accès à l'expertise spécialisée requise pour bien la réaliser.

Références

Alliance Chemical. "AI GPU Cooling Revolution: Deionized Water, Ethylene Glycol & Propylene." Alliance Chemical. Consulté le 1er août 2025. https://alliancechemical.com/blogs/articles/ai-gpu-cooling-revolution-deionized-water-ethylene-glycol-propylene-glycol-the-ultimate-liquid-cooling-guide.

Computer Weekly. "Bristol goes live with UK AI supercomputer." Computer Weekly, 2025. https://www.computerweekly.com/news/366584173/Bristol-goes-live-with-UK-AI-supercomputer.

Computer Weekly. "UK government pledges £225m to fund University of Bristol AI supercomputer build with HPE." Computer Weekly, novembre 2023. https://www.computerweekly.com/news/366558036/UK-government-pledges-225m-to-fund-University-of-Bristol-AI-supercomputer-build-with-HPE.

Data Center Knowledge. "Direct-to-Chip Liquid Cooling: Optimizing Data Center Efficiency." Data Center Knowledge. Consulté le 1er août 2025. https://www.datacenterknowledge.com/cooling/direct-to-chip-liquid-cooling-optimizing-data-center-efficiency.

EuroHPC Joint Undertaking. "Inauguration of MareNostrum 5: Europe welcomes a new world-class supercomputer." 21 décembre 2023. https://www.eurohpc-ju.europa.eu/inauguration-marenostrum-5-europe-welcomes-new-world-class-supercomputer-2023-12-21_en.

EuroHPC Joint Undertaking. "MareNostrum5: a new EuroHPC world-class supercomputer in Spain." 16 juin 2022. https://eurohpc-ju.europa.eu/marenostrum5-new-eurohpc-world-class-supercomputer-spain-2022-06-16_en.

Forschungszentrum Jülich. "JUPITER Technical Overview." Consulté le 1er août 2025. https://www.fz-juelich.de/en/ias/jsc/jupiter/tech.

GOV.UK. "Sovereign AI AIRR launch opportunity: call for researchers." Consulté le 1er août 2025. https://www.gov.uk/government/publications/sovereign-ai-airr-launch-opportunity-call-for-researchers/sovereign-ai-airr-launch-opportunity-call-for-researchers.

Hewlett-Packard Enterprise. "UK Government invests £225m to create UK's most powerful AI supercomputer with University of Bristol and Hewlett Packard Enterprise." Communiqué de presse, novembre 2023. https://www.hpe.com/us/en/newsroom/press-release/2023/11/uk-government-invests-225m-to-create-uks-most-powerful-ai-supercomputer-with-university-of-bristol-and-hewlett-packard-enterprise.html.

HPCwire. "University of Bristol to Host Isambard-AI Supercomputer, Marking a New Era in AI and HPC." HPCwire. Consulté le 1er août 2025. https://www.hpcwire.com/off-the-wire/university-of-bristol-to-host-isambard-ai-supercomputer-marking-a-new-era-in-ai-and-hpc/.

Hyperstack. "All About the NVIDIA Blackwell GPUs: Architecture, Features, Chip Specs." Consulté le 1er août 2025. https://www.hyperstack.cloud/blog/thought-leadership/everything-you-need-to-know-about-the-nvidia-blackwell-gpus.

IBM. "Introl Solutions, LLC." IBM PartnerPlus Directory. Consulté le 1er août 2025. https://www.ibm.com/partnerplus/directory/company/9695.

Introl. "GPU Infrastructure Deployments | Optimize Your GPU Deployments." Consulté le 1er août 2025. https://introl.com/gpu-infrastructure-deployments.

Introl. "Introl - GPU Infrastructure & Data Center Deployment Experts." Consulté le 1er août 2025. https://introl.com.

Introl. "Introl | GPU Infrastructure, Data Center Solutions & HPC Deployment." Consulté le 1er août 2025. https://introl.com/blog.

IT Pro. "Inside Isambard-AI: The UK's most powerful supercomputer." IT Pro. Consulté le 1er août 2025. https://www.itpro.com/infrastructure/inside-isambard-ai-the-uks-most-powerful-supercomputer.

IT4Innovations. "LUMI." Consulté le 1er août 2025. https://www.it4i.cz/en/infrastructure/lumi.

Jetcool. "What is Direct Liquid Cooling for AI Data Centers?" Consulté le 1er août 2025. https://jetcool.com/post/what-is-direct-liquid-cooling-for-ai-data-centers/.

NVIDIA. "NVLink & NVSwitch for Advanced Multi-GPU Communication." Consulté le 1er août 2025. https://www.nvidia.com/en-us/data-center/nvlink/.

NVIDIA. "The Engine Behind AI Factories | NVIDIA Blackwell Architecture." Consulté le 1er août 2025. https://www.nvidia.com/en-us/data-center/technologies/blackwell-architecture/.

NVIDIA Blog. "NVIDIA Blackwell Platform Boosts Water Efficiency by Over 300x." Consulté le 1er août 2025. https://blogs.nvidia.com/blog/blackwell-platform-water-efficiency-liquid-cooling-data-centers-ai-factories/.

ResearchGate. "Isambard-AI: a leadership class supercomputer optimised specifically for Artificial Intelligence." Octobre 2024. https://www.researchgate.net/publication/384938455_Isambard-AI_a_leadership_class_supercomputer_optimised_specifically_for_Artificial_Intelligence.

SDxCentral. "UK's $300M Isambard-AI supercomputer officially launches." SDxCentral. Consulté le 1er août 2025. https://www.sdxcentral.com/news/uks-300m-isambard-ai-supercomputer-officially-launches/.

TechTarget. "Liquid cooling's moment comes courtesy of AI." TechTarget. Consulté le 1er août 2025. https://www.techtarget.com/searchdatacenter/feature/Liquid-coolings-moment-comes-courtesy-of-AI.

The Engineer. "Isambard AI supercomputer launches in Bristol." The Engineer. Consulté le 1er août 2025. https://www.theengineer.co.uk/content/news/isambard-ai-supercomputer-launches-in-bristol/.

UK Research and Innovation. "£300 million to launch first phase of new AI Research Resource." Consulté le 1er août 2025. https://www.ukri.org/news/300-million-to-launch-first-phase-of-new-ai-research-resource/.

University of Bristol. "2023: Isambard AI Bristol." Cabot Institute for the Environment. Consulté le 1er août 2025. https://www.bristol.ac.uk/cabot/news/2023/isambard-ai-bristol.html.

University of Bristol. "July: UK's most powerful supercomputer launches in Bristol." News and features, juillet 2025. https://www.bristol.ac.uk/news/2025/july/isambard-launch.html.

University of Bristol. "November: Unprecedented £225m investment to create UK's most powerful supercomputer." News and features, novembre 2023. https://www.bristol.ac.uk/news/2023/november/supercomputer-announcement.html.

Wikipedia. "Blackwell (microarchitecture)." Consulté le 1er août 2025. https://en.wikipedia.org/wiki/Blackwell_(microarchitecture).

Wikipedia. "LUMI." Consulté le 1er août 2025. https://en.wikipedia.org/wiki/LUMI.

"Isambard-AI: a leadership class supercomputer optimised specifically for Artificial Intelligence." arXiv preprint arXiv:2410.11199 (2024). http://arxiv.org/pdf/2410.11199.

Request a Quote_

Tell us about your project and we'll respond within 72 hours.

> TRANSMISSION_COMPLETE

Request Received_

Thank you for your inquiry. Our team will review your request and respond within 72 hours.

QUEUED FOR PROCESSING