Isambard-AI가 4개월 만에 5,448개의 GPU를 배포한 방법: AI 인프라의 새로운 청사진

Isambard-AI의 5,448개 NVIDIA GPU 기록적 배포는 현대 AI 인프라가 액체 냉각, 고밀도 전력, 복잡한 네트워킹 분야의 전문 지식을 필요로 하는 이유를 보여줍니다.

Blake Crosley

Aug 02, 2025 8 min read Disclaimer

Isambard-AI가 4개월 만에 5,448개의 GPU를 배포한 방법: AI 인프라의 새로운 청사진

Bristol의 National Composites Centre에 있는 개조된 창고로 들어가면, 액체 냉각 캐비닛 뒤에서 윙윙거리는 150톤의 최첨단 컴퓨팅 하드웨어를 발견할 수 있습니다. 바로 영국에서 가장 강력한 인공지능 슈퍼컴퓨터인 Isambard-AI입니다. 물론 헤드라인들은 21 exaflops의 AI 성능을 축하하지만, 놓치고 있는 것이 있습니다. 바로 팀이 이 £225백만 프로젝트를 단 24개월 만에 온라인으로 구현하기 위해 극복한 놀라운 인프라 도전 과제들입니다. 5년 전이라면? 불가능한 일정이었을 것입니다.

Isambard-AI의 5,448개 NVIDIA Grace Hopper Superchip 배포는 중요한 발전을 보여줍니다. AI 컴퓨팅에서의 성공은 이제 단순히 GPU를 구매하는 것 이상에 달려있습니다. 현대 AI 인프라가 요구하는 전력, 냉각, 네트워킹, 물류의 복잡한 생태계를 마스터해야 합니다. 대규모 GPU 배포를 계획하는 조직들은 이러한 도전 과제들과 이를 극복하는 데 필요한 전문 지식을 더 잘 이해해야 합니다.

5 메가와트가 150톤의 실리콘과 만날 때

Isambard-AI의 규모는 기존 데이터센터 사고방식을 깨뜨립니다. 12개의 HPE Cray EX4000 캐비닛 각각에는 440개의 GPU가 들어있으며, 기존 시스템을 녹여버릴 수 있는 열밀도를 생성합니다. 기존 공랭식 냉각은 랙당 20kW를 넘어서면 어려움을 겪습니다. Isambard-AI는? 캐비닛당 400kW 이상입니다. 해결책은 100% 직접 액체 냉각이었지만, 이를 구현하려면 완전히 새로운 기술 세트가 필요했습니다.

"Isambard-AI와 같은 배포에서 우리가 보고 있는 것은 데이터센터 전문성을 구성하는 요소의 근본적인 변화입니다"라고 인프라 배포 환경이 밝혀줍니다. 기존에는 전통적인 랙-앤-스택 운영에 집중했던 회사들이 이제 액체 냉각 역학, 고밀도 케이블링 관리, 그리고 수천 개의 GPU를 동시에 커미셔닝하는 방법을 이해하는 엔지니어들이 필요합니다. University of Bristol의 팀은 전문 배포 파트너들과 협력하여 40,000개 이상의 광섬유 연결을 설치했습니다. 이는 작은 도시를 둘러쌀 수 있을 만큼의 케이블입니다. 그리고 그들은 1.8TB/s로 작동하는 시스템의 5세대 NVLink 인터커넥트에 필요한 정밀도를 유지해야 했습니다.

핵심은 이것입니다: 프로젝트가 계약 서명부터 운영 상태까지 4개월도 안 걸렸다는 것입니다. 어떻게? 전문화된 GPU 인프라 배포 회사들이 이제 72시간 내에 수백 명의 숙련된 기술자들을 동원할 수 있습니다. 이들은 일반적인 IT 계약업체가 아닙니다. 액체 냉각 연결의 특정 토크 사양과 전력 시스템에 과부하를 주지 않으면서 수천 개의 GPU를 온라인으로 가져오는 최적의 순서를 아는 전문 팀들입니다.

AI 우선 인프라의 숨겨진 복잡성

기존 슈퍼컴퓨터들은 AI 워크로드에 맞게 개조됩니다. Isambard-AI는 인공지능 애플리케이션을 위해 처음부터 설계되었습니다. 그들의 AI 우선 접근법은 모든 인프라 결정에 영향을 미쳤습니다. 팀은 HPE의 모듈식 데이터센터 설계를 선택하고 현장에서 단 48시간 만에 조립했습니다. 그들은 시스템의 에너지 효율성 전 세계 4위 랭킹에 부합하는 탄소 제로 전력 공급을 선택했습니다.

네트워킹 인프라만으로도 대규모 엔지니어링 조정 작업을 나타냅니다. 시스템의 HPE Slingshot 11 네트워크는 64개 포트에서 25.6 Tb/s의 양방향 대역폭을 제공하며, 각 노드는 800 Gbps의 네트워크 주입 대역폭을 받습니다. 이 복잡한 연결 웹을 설치하고 검증하는 것은 일반적인 엔터프라이즈 배포를 훨씬 뛰어넘는 고성능 네트워킹의 전문 지식이 필요했습니다. 현대 GPU 인프라 전문가들은 물리적 레이어와 다양한 인터커넥트 토폴로지가 AI 워크로드 성능에 어떤 영향을 미치는지 모두 이해해야 합니다.

전력 공급은 고유한 도전 과제를 만들어냈습니다. Isambard-AI의 5MW 총 시설 전력은 하이퍼스케일 데이터센터와 비교하면 적당해 보일 수 있지만, 이 전력 공급의 밀도와 중요성은 고유한 요구사항을 만들었습니다. 각 Grace Hopper Superchip은 정밀한 전력 공급을 요구합니다. 5,448개가 함께 작동하면서, 사소한 변동도 시스템 불안정을 야기할 수 있습니다. 배포 팀은 밀리초 내에 이상 징후를 감지하고 대응할 수 있는 실시간 모니터링 기능을 갖춘 정교한 전력 관리 시스템을 구현했습니다.

유럽의 AI 인프라 경쟁에서 배우기

Isambard-AI의 배포는 유럽 국가들이 AI 패권을 위해 치열하게 경쟁하는 가운데 이루어졌습니다. 핀란드의 LUMI 시스템은 380 petaflops의 전통적인 컴퓨팅 파워를 제공합니다. 독일의 곧 출시될 Jupiter 슈퍼컴퓨터는 유럽 최초의 엑사스케일 시스템이 될 것을 약속합니다. 그러나 Isambard-AI는 유럽 동료들보다 빠르게 운영 상태를 달성했습니다. 초기 제안부터 전체 운영까지 2년도 안 걸렸습니다. 비슷한 시스템들의 일반적인 4-5년 일정과 비교해보세요.

이러한 속도 우위는 부분적으로 Brexit 후 영국의 간소화된 조달 프로세스에서 나옵니다. 하지만 더 중요하게는, GPU 배포 방법론의 진화에서 비롯됩니다. 기존 슈퍼컴퓨터 설치는 순차적 단계를 따랐습니다: 인프라, 그다음 하드웨어, 그다음 네트워킹, 그다음 소프트웨어. 현대 GPU 배포는 병렬 워크플로를 활용합니다. 전문 팀들이 액체 냉각 설치, GPU 커미셔닝, 네트워크 구성을 동시에 작업하여 일정을 극적으로 압축합니다.

다른 유럽 배포와의 대조는 가치 있는 교훈을 제공합니다. 스페인의 MareNostrum 5는 인상적인 사양에도 불구하고 기존 시설의 광범위한 개조가 필요했습니다. 이탈리아의 Leonardo 시스템은 AI 가속 기능 통합에서 지연을 겪었습니다. Isambard-AI의 성공은 특정 GPU 전문 지식을 가진 팀이 배포하는 목적별 구축 AI 인프라가 개조된 HPC 시스템보다 더 빠른 과학 연구 시작 시간을 달성할 수 있음을 보여줍니다.

AI 야망을 위협하는 전문성 격차

전 세계 조직들이 AI 인프라 배포를 위해 경쟁하고 있지만, 중요한 기술 격차가 나타났습니다. 아무리 경험이 많은 기존 데이터센터 기술자라도 현대 GPU 배포에 필요한 전문 지식이 부족한 경우가 많습니다. 액체 냉각 시스템은 유체 역학과 열 관리에 대한 이해가 필요합니다. 고밀도 GPU 구성은 기존 서버 배포를 넘어서는 전력 공급과 공기 흐름 최적화 전문 지식을 요구합니다.

이 전문성 격차는 여러 영역에서 가장 큰 타격을 입힙니다. GPU 클러스터를 위한 케이블 관리는 전문 분야가 되었습니다. Isambard-AI의 수천 개의 고속 연결은 유지보수 접근을 허용하면서도 신호 무결성을 유지하기 위해 정밀한 라우팅이 필요했습니다. 전력 및 냉각 기술자들은 정상 상태 요구사항뿐만 아니라 밀리초 내에 유휴 상태에서 최대 전력으로 전환할 수 있는 AI 워크로드의 동적 행동도 이해해야 합니다.

introl.com과 같은 회사들이 이 격차를 메우기 위해 등장했으며, 기존 데이터센터 기술과 GPU별 전문 지식을 결합한 전문 팀을 개발하고 있습니다. 1,000 GPU 노드를 초과하는 시스템 배포는 이 새로운 유형의 인프라 전문가들이 운영하는 규모를 보여줍니다. 최근 주요 GPU 클라우드 제공업체 배포에서 볼 수 있듯이 일주일 내에 40명의 기술자를 동원할 수 있는 능력은 기존 데이터센터 산업에는 존재하지 않았던 새로운 운영 역량을 나타냅니다.

배포를 넘어서: AI 인프라 우수성 유지하기

도전 과제들은 마지막 GPU가 켜질 때 끝나지 않습니다. Isambard-AI와 같은 시스템을 유지하려면 지속적인 최적화와 적극적인 관리가 필요합니다. University of Bristol의 팀은 GPU 활용 패턴부터 냉각수 유량까지 모든 것을 추적하는 정교한 모니터링 시스템을 구현했습니다. 노드당 850GB의 통합 메모리 주소 공간을 가진 시스템에서, 사소한 비효율성도 연구 생산성에 상당한 영향을 미칠 수 있습니다.

현대 GPU 인프라는 물리적 시스템에 대한 DevOps 접근법을 요구합니다. 펌웨어 업데이트는 엔지니어링 팀에 의해 수천 개의 장치에서 신중하게 조율되어야 합니다. 냉각 시스템은 사용 패턴과 환경 조건을 기반으로 한 예측 유지보수가 필요합니다. 네트워크 구성은 진화하는 워크로드 패턴에 맞게 지속적인 튜닝이 필요합니다. 이러한 운영 복잡성이 인프라 파트너들이 일회성 배포가 아닌 지속적인 최적화를 제공하는 전문 서비스 모델의 개발을 추진합니다.

경제적 함의는 큰 타격을 줍니다. 각 Grace Hopper Superchip은 상당한 자본 투자를 나타냅니다. 유휴 시간은 투자 수익률에 직접적인 영향을 미칩니다. 대규모 GPU 클러스터를 배포하는 조직들은 설치뿐만 아니라 지속적인 최적화 서비스를 제공할 수 있는 파트너들에 점점 더 의존하고 있습니다. 선도적인 AI 인프라 배포들이 목표로 하는 95% 이상의 활용률을 유지하는 능력은 워크로드 스케줄링, 자원 할당, 시스템 상태에 대한 지속적인 관심이 필요합니다.

AI 인프라의 미래 계획하기

Isambard-AI의 성공적인 배포는 자체 AI 인프라 이니셔티브를 계획하는 조직들에게 중요한 교훈을 제공합니다. 첫째, GPU를 단순한 서버 구성 요소로 취급하던 시대는 끝났습니다. 현대 AI 시스템은 초기 계획 단계부터 전력, 냉각, 네트워킹, 운영에 대한 총체적 사고가 필요합니다. 둘째, Isambard-AI가 달성한 압축된 일정(개념부터 운영까지 2년 미만)은 새로운 표준이 되고 있지만, 전문 배포 팀과 파트너십을 맺는 조직들에게만 해당됩니다.

앞으로 인프라 도전 과제들은 더욱 강화될 것입니다. NVIDIA의 Blackwell 아키텍처는 일부 구성에서 GPU당 1,000W를 초과하는 더욱 높은 전력 밀도를 약속합니다. 액체 냉각은 고급 옵션에서 절대적 필수사항으로 전환될 것입니다. 모델 크기가 10조 매개변수를 향해 밀어붙이면서 네트워크 대역폭 요구사항은 기하급수적으로 계속 증가할 것입니다. 전문화된 GPU 인프라 전문 지식에 대한 접근이 없는 조직들은 AI 혁명에서 경쟁할 수 없음을 점점 더 발견하게 될 것입니다.

Isambard-AI에 대한 영국의 투자는 단순한 기술적 성취 이상을 나타냅니다. 이는 국가와 조직들이 어떻게 빠르게 세계적 수준의 AI 인프라를 배포할 수 있는지에 대한 청사진입니다. 목적별 구축 시설, 간소화된 조달 프로세스, 전문 배포 팀과의 파트너십을 결합함으로써, 이 프로젝트는 AI 시대의 인프라 도전 과제들이 어려울지라도 결코 극복할 수 없는 것은 아니라는 것을 보여줍니다. 올바른 전문 지식과 파트너십에 기꺼이 투자하는 사람들에게는 야망에서 운영 가능한 AI 슈퍼컴퓨팅으로 가는 길이 그 어느 때보다 직접적입니다.

전 세계의 대학, 기업, 정부들이 자체 AI 인프라 투자를 고려하고 있습니다. Isambard-AI는 올바른 접근법과 올바른 파트너와 함께라면, 가장 야심찬 GPU 배포라도 제안에서 생산까지 혁신의 속도로 움직일 수 있다는 증거로 서 있습니다. 문제는 더 이상 AI 인프라를 구축할 것인지가 아니라, 그것을 제대로 만드는 데 필요한 전문 지식에 접근할 수 있는지입니다.

References

Alliance Chemical. "AI GPU Cooling Revolution: Deionized Water, Ethylene Glycol & Propylene." Alliance Chemical. Accessed August 1, 2025. https://alliancechemical.com/blogs/articles/ai-gpu-cooling-revolution-deionized-water-ethylene-glycol-propylene-glycol-the-ultimate-liquid-cooling-guide.

Computer Weekly. "Bristol goes live with UK AI supercomputer." Computer Weekly, 2025. https://www.computerweekly.com/news/366584173/Bristol-goes-live-with-UK-AI-supercomputer.

Computer Weekly. "UK government pledges £225m to fund University of Bristol AI supercomputer build with HPE." Computer Weekly, November 2023. https://www.computerweekly.com/news/366558036/UK-government-pledges-225m-to-fund-University-of-Bristol-AI-supercomputer-build-with-HPE.

Data Center Knowledge. "Direct-to-Chip Liquid Cooling: Optimizing Data Center Efficiency." Data Center Knowledge. Accessed August 1, 2025. https://www.datacenterknowledge.com/cooling/direct-to-chip-liquid-cooling-optimizing-data-center-efficiency.

EuroHPC Joint Undertaking. "Inauguration of MareNostrum 5: Europe welcomes a new world-class supercomputer." December 21, 2023. https://www.eurohpc-ju.europa.eu/inauguration-marenostrum-5-europe-welcomes-new-world-class-supercomputer-2023-12-21_en.

EuroHPC Joint Undertaking. "MareNostrum5: a new EuroHPC world-class supercomputer in Spain." June 16, 2022. https://eurohpc-ju.europa.eu/marenostrum5-new-eurohpc-world-class-supercomputer-spain-2022-06-16_en.

Forschungszentrum Jülich. "JUPITER Technical Overview." Accessed August 1, 2025. https://www.fz-juelich.de/en/ias/jsc/jupiter/tech.

GOV.UK. "Sovereign AI AIRR launch opportunity: call for researchers." Accessed August 1, 2025. https://www.gov.uk/government/publications/sovereign-ai-airr-launch-opportunity-call-for-researchers/sovereign-ai-airr-launch-opportunity-call-for-researchers.

Hewlett-Packard Enterprise. "UK Government invests £225m to create UK's most powerful AI supercomputer with University of Bristol and Hewlett Packard Enterprise." Press release, November 2023. https://www.hpe.com/us/en/newsroom/press-release/2023/11/uk-government-invests-225m-to-create-uks-most-powerful-ai-supercomputer-with-university-of-bristol-and-hewlett-packard-enterprise.html.

HPCwire. "University of Bristol to Host Isambard-AI Supercomputer, Marking a New Era in AI and HPC." HPCwire. Accessed August 1, 2025. https://www.hpcwire.com/off-the-wire/university-of-bristol-to-host-isambard-ai-supercomputer-marking-a-new-era-in-ai-and-hpc/.

Hyperstack. "All About the NVIDIA Blackwell GPUs: Architecture, Features, Chip Specs." Accessed August 1, 2025. https://www.hyperstack.cloud/blog/thought-leadership/everything-you-need-to-know-about-the-nvidia-blackwell-gpus.

IBM. "Introl Solutions, LLC." IBM PartnerPlus Directory. Accessed August 1, 2025. https://www.ibm.com/partnerplus/directory/company/9695.

Introl. "GPU Infrastructure Deployments | Optimize Your GPU Deployments." Accessed August 1, 2025. https://introl.com/gpu-infrastructure-deployments.

Introl. "Introl - GPU Infrastructure & Data Center Deployment Experts." Accessed August 1, 2025. https://introl.com.

Introl. "Introl | GPU Infrastructure, Data Center Solutions & HPC Deployment." Accessed August 1, 2025. https://introl.com/blog.

IT Pro. "Inside Isambard-AI: The UK's most powerful supercomputer." IT Pro. Accessed August 1, 2025. https://www.itpro.com/infrastructure/inside-isambard-ai-the-uks-most-powerful-supercomputer.

IT4Innovations. "LUMI." Accessed August 1, 2025. https://www.it4i.cz/en/infrastructure/lumi.

Jetcool. "What is Direct Liquid Cooling for AI Data Centers?" Accessed August 1, 2025. https://jetcool.com/post/what-is-direct-liquid-cooling-for-ai-data-centers/.

NVIDIA. "NVLink & NVSwitch for Advanced Multi-GPU Communication." Accessed August 1, 2025. https://www.nvidia.com/en-us/data-center/nvlink/.

NVIDIA. "The Engine Behind AI Factories | NVIDIA Blackwell Architecture." Accessed August 1, 2025. https://www.nvidia.com/en-us/data-center/technologies/blackwell-architecture/.

NVIDIA Blog. "NVIDIA Blackwell Platform Boosts Water Efficiency by Over 300x." Accessed August 1, 2025. https://blogs.nvidia.com/blog/blackwell-platform-water-efficiency-liquid-cooling-data-centers-ai-factories/.

ResearchGate. "Isambard-AI: a leadership class supercomputer optimised specifically for Artificial Intelligence." October 2024. https://www.researchgate.net/publication/384938455_Isambard-AI_a_leadership_class_supercomputer_optimised_specifically_for_Artificial_Intelligence.

SDxCentral. "UK's $300M Isambard-AI supercomputer officially launches." SDxCentral. Accessed August 1, 2025. https://www.sdxcentral.com/news/uks-300m-isambard-ai-supercomputer-officially-launches/.

TechTarget. "Liquid cooling's moment comes courtesy of AI." TechTarget. Accessed August 1, 2025. https://www.techtarget.com/searchdatacenter/feature/Liquid-coolings-moment-comes-courtesy-of-AI.

The Engineer. "Isambard AI supercomputer launches in Bristol." The Engineer. Accessed August 1, 2025. https://www.theengineer.co.uk/content/news/isambard-ai-supercomputer-launches-in-bristol/.

UK Research and Innovation. "£300 million to launch first phase of new AI Research Resource." Accessed August 1, 2025. https://www.ukri.org/news/300-million-to-launch-first-phase-of-new-ai-research-resource/.

University of Bristol. "2023: Isambard AI Bristol." Cabot Institute for the Environment. Accessed August 1, 2025. https://www.bristol.ac.uk/cabot/news/2023/isambard-ai-bristol.html.

University of Bristol. "July: UK's most powerful supercomputer launches in Bristol." News and features, July 2025. https://www.bristol.ac.uk/news/2025/july/isambard-launch.html.

University of Bristol. "November: Unprecedented £225m investment to create UK's most powerful supercomputer." News and features, November 2023. https://www.bristol.ac.uk/news/2023/november/supercomputer-announcement.html.

Wikipedia. "Blackwell (microarchitecture)." Accessed August 1, 2025. https://en.wikipedia.org/wiki/Blackwell_(microarchitecture).

Wikipedia. "LUMI." Accessed August 1, 2025. https://en.wikipedia.org/wiki/LUMI.

"Isambard-AI: a leadership class supercomputer optimised specifically for Artificial Intelligence." arXiv preprint arXiv:2410.11199 (2024). http://arxiv.org/pdf/2410.11199.

5 메가와트가 150톤의 실리콘과 만날 때

AI 우선 인프라의 숨겨진 복잡성

유럽의 AI 인프라 경쟁에서 배우기

AI 야망을 위협하는 전문성 격차

배포를 넘어서: AI 인프라 우수성 유지하기

AI 인프라의 미래 계획하기

References

You Might Also Like

AI를 위한 UPS 및 전력 분배: 복원력 있는 2N+1 인프라 설계

AI를 위한 레거시 데이터센터 개조: 액체 냉각 통합 가이드

xAI Colossus 2GW 달성: 55만 5천 GPU, 180억 달러, 세계 최대 AI 시설

견적 요청_

요청이 접수되었습니다_