Bagaimana Isambard-AI Menerapkan 5.448 GPU dalam 4 Bulan: Blueprint Baru untuk Infrastruktur AI

Implementasi rekor Isambard-AI dengan 5.448 GPU NVIDIA mengungkapkan mengapa infrastruktur AI modern membutuhkan keahlian khusus dalam liquid cooling, daya high-density, dan jaringan yang kompleks.

Blake Crosley

Aug 02, 2025 10 min read Disclaimer

Bagaimana Isambard-AI Menerapkan 5.448 GPU dalam 4 Bulan: Blueprint Baru untuk Infrastruktur AI

Masuklah ke gudang yang telah dikonversi di National Composites Centre Bristol dan Anda akan menemukan 150 ton perangkat keras komputasi canggih yang bersenandung di balik kabinet berpendingin cairan: Isambard-AI, superkomputer artificial intelligence paling kuat di Inggris. Tentu, berita utama merayakan performa AI-nya sebesar 21 exaflops, tetapi inilah yang terlewatkan: tantangan infrastruktur luar biasa yang diatasi tim untuk membawa proyek senilai £225 juta ini online hanya dalam 24 bulan. Lima tahun lalu? Timeline yang mustahil.

Penerapan 5.448 NVIDIA Grace Hopper Superchips milik Isambard-AI mengungkapkan perkembangan signifikan. Kesuksesan dalam komputasi AI kini bergantung pada lebih dari sekadar membeli GPU. Anda perlu menguasai ekosistem kompleks dari daya, pendinginan, jaringan, dan logistik yang dituntut oleh infrastruktur AI modern. Organisasi yang merencanakan penerapan GPU skala besar harus lebih memahami tantangan-tantangan ini dan keahlian khusus yang diperlukan untuk mengatasinya.

Ketika 5 megawatt bertemu 150 ton silikon

Skala Isambard-AI meruntuhkan pemikiran data center tradisional. Setiap dari 12 kabinet HPE Cray EX4000-nya menampung 440 GPU, menghasilkan kepadatan panas yang dapat melelehkan sistem konvensional. Pendinginan udara tradisional kesulitan di atas 20kW per rak. Isambard-AI? Lebih dari 400kW per kabinet. Solusinya adalah pendinginan cairan langsung 100%, tetapi mengimplementasikannya memerlukan set keterampilan yang sepenuhnya baru.

"Yang kami lihat dengan penerapan seperti Isambard-AI adalah pergeseran fundamental dalam apa yang merupakan keahlian data center," ungkap lanskap penerapan infrastruktur. Perusahaan yang dulu fokus pada operasi rack-and-stack tradisional kini membutuhkan insinyur yang memahami dinamika pendinginan cairan, manajemen kabel kepadatan tinggi, dan cara mengoperasikan ribuan GPU secara bersamaan. Tim University of Bristol bekerja dengan mitra penerapan khusus untuk memasang lebih dari 40.000 koneksi fiber optik. Itu cukup untuk melingkari kota kecil. Dan mereka harus menjaga presisi yang diperlukan untuk interkoneksi NVLink generasi ke-5 sistem yang beroperasi pada 1,8TB/s.

Inilah yang mengejutkan: proyek ini berlangsung dari penandatanganan kontrak hingga status operasional dalam waktu kurang dari empat bulan. Bagaimana? Perusahaan penerapan infrastruktur GPU khusus kini dapat memobilisasi ratusan teknisi terampil dalam 72 jam. Ini bukan kontraktor IT tradisional Anda. Mereka adalah tim khusus yang mengetahui spesifikasi torsi khusus untuk koneksi pendinginan cairan dan urutan optimal untuk membawa ribuan GPU online tanpa membebani sistem daya.

Kompleksitas tersembunyi dari infrastruktur AI-first

Superkomputer tradisional di-retrofit untuk beban kerja AI. Isambard-AI dirancang dari awal untuk aplikasi artificial intelligence. Pendekatan AI-first mereka memengaruhi setiap keputusan infrastruktur. Tim memilih desain data center modular HPE dan merakitnya di lokasi hanya dalam 48 jam. Mereka memilih pasokan daya nol karbon yang sejalan dengan peringkat ke-4 global sistem untuk efisiensi energi.

Infrastruktur jaringan saja merupakan prestasi koordinasi teknik yang masif. Jaringan HPE Slingshot 11 sistem menyediakan bandwidth bidireksional 25,6 Tb/s di 64 port, dengan setiap node menerima bandwidth injeksi jaringan 800 Gbps. Memasang dan memvalidasi jaringan kompleks koneksi ini memerlukan keahlian khusus dalam jaringan kinerja tinggi yang jauh melampaui penerapan enterprise tipikal. Spesialis infrastruktur GPU modern perlu memahami lapisan fisik DAN bagaimana topologi interkoneksi yang berbeda memengaruhi performa beban kerja AI.

Pengiriman daya menciptakan tantangan uniknya. Meskipun total daya fasilitas 5MW Isambard-AI mungkin tampak sederhana dibandingkan dengan data center hyperscale, kepadatan dan kritikalitas pengiriman daya ini menciptakan persyaratan unik. Setiap Grace Hopper Superchip menuntut pengiriman daya yang presisi. Dengan 5.448 di antaranya beroperasi secara bersamaan, bahkan fluktuasi kecil dapat menyebabkan ketidakstabilan sistem. Tim penerapan mengimplementasikan sistem manajemen daya canggih dengan kemampuan pemantauan real-time yang dapat mendeteksi dan merespons anomali dalam hitungan milidetik.

Belajar dari perlombaan infrastruktur AI Eropa

Penerapan Isambard-AI terjadi saat negara-negara Eropa bersaing ketat untuk supremasi AI. Sistem LUMI Finlandia menawarkan 380 petaflops daya komputasi tradisional. Superkomputer Jupiter Jerman yang akan datang berjanji menjadi sistem exascale pertama Eropa. Namun Isambard-AI mencapai status operasional lebih cepat dari rekan-rekan Eropa manapun. Ia bergerak dari proposal awal hingga operasi penuh dalam waktu kurang dari dua tahun. Bandingkan dengan timeline tipikal 4-5 tahun untuk sistem sebanding.

Keunggulan kecepatan ini sebagian berasal dari proses pengadaan yang disederhanakan Inggris pasca-Brexit. Tetapi yang lebih signifikan, ini berasal dari evolusi metodologi penerapan GPU. Instalasi superkomputer tradisional mengikuti fase berurutan: infrastruktur, lalu perangkat keras, lalu jaringan, lalu perangkat lunak. Penerapan GPU modern memanfaatkan alur kerja paralel. Tim khusus bekerja secara bersamaan pada instalasi pendinginan cairan, komisioning GPU, dan konfigurasi jaringan, secara dramatis memampatkan timeline.

Kontras dengan penerapan Eropa lainnya mengajarkan pelajaran berharga. MareNostrum 5 Spanyol, meskipun dengan spesifikasi yang mengesankan, memerlukan retrofitting ekstensif dari fasilitas yang ada. Sistem Leonardo Italia menghadapi penundaan dalam mengintegrasikan kemampuan akselerasi AI-nya. Kesuksesan Isambard-AI menunjukkan bahwa infrastruktur AI yang dibangun khusus, yang diterapkan oleh tim dengan keahlian GPU spesifik, dapat mencapai time-to-science yang lebih cepat daripada sistem HPC yang di-retrofit.

Kesenjangan keahlian yang mengancam ambisi AI

Organisasi di seluruh dunia berlomba untuk menerapkan infrastruktur AI, tetapi kesenjangan keterampilan kritis telah muncul. Teknisi data center tradisional, meskipun berpengalaman, sering kekurangan pengetahuan khusus yang diperlukan untuk penerapan GPU modern. Sistem pendinginan cairan memerlukan pemahaman dinamika fluida dan manajemen termal. Konfigurasi GPU kepadatan tinggi menuntut keahlian dalam pengiriman daya dan optimisasi aliran udara yang melampaui penerapan server konvensional.

Kesenjangan keahlian ini paling terasa di beberapa area. Manajemen kabel untuk cluster GPU telah menjadi disiplin khusus. Ribuan koneksi berkecepatan tinggi Isambard-AI memerlukan perutean yang presisi untuk mempertahankan integritas sinyal sambil memungkinkan akses pemeliharaan. Teknisi daya dan pendinginan perlu memahami bukan hanya persyaratan steady-state tetapi juga perilaku dinamis beban kerja AI yang dapat berayun dari idle ke daya penuh dalam hitungan milidetik.

Perusahaan seperti introl.com telah muncul untuk mengisi kesenjangan ini, mengembangkan tim khusus yang menggabungkan keterampilan data center tradisional dengan keahlian spesifik GPU. Penerapan sistem mereka yang melebihi 1.000 node GPU menunjukkan skala di mana spesialis infrastruktur jenis baru ini beroperasi. Kemampuan untuk memobilisasi 40 teknisi dalam seminggu, seperti yang terlihat dalam penerapan penyedia GPU cloud besar baru-baru ini, merepresentasikan kemampuan operasional baru yang tidak ada dalam industri data center tradisional.

Melampaui penerapan: mempertahankan keunggulan infrastruktur AI

Tantangan tidak berakhir ketika GPU terakhir menyala. Mempertahankan sistem seperti Isambard-AI memerlukan optimisasi berkelanjutan dan manajemen proaktif. Tim University of Bristol mengimplementasikan sistem pemantauan canggih yang melacak segala hal dari pola utilisasi GPU hingga laju aliran pendingin. Dengan ruang alamat memori terpadu 850GB per node sistem, bahkan inefisiensi kecil dapat secara signifikan memengaruhi produktivitas penelitian.

Infrastruktur GPU modern menuntut pendekatan DevOps untuk sistem fisik. Pembaruan firmware harus diatur dengan hati-hati di ribuan perangkat oleh tim teknik. Sistem pendinginan memerlukan pemeliharaan prediktif berdasarkan pola penggunaan dan kondisi lingkungan. Konfigurasi jaringan membutuhkan penyesuaian berkelanjutan untuk mengoptimalkan pola beban kerja yang berkembang. Kompleksitas operasional ini mendorong pengembangan model layanan khusus di mana mitra infrastruktur menyediakan optimisasi berkelanjutan daripada penerapan satu kali.

Implikasi ekonomis sangat terasa. Setiap Grace Hopper Superchip merepresentasikan investasi modal yang signifikan. Waktu idle secara langsung memengaruhi return on investment. Organisasi yang menerapkan cluster GPU besar semakin bergantung pada mitra yang dapat menyediakan bukan hanya instalasi tetapi layanan optimisasi berkelanjutan. Kemampuan untuk mempertahankan tingkat utilisasi 95%+, sebagaimana ditargetkan oleh penerapan infrastruktur AI terkemuka, memerlukan perhatian konstan pada penjadwalan beban kerja, alokasi sumber daya, dan kesehatan sistem.

Memetakan masa depan infrastruktur AI

Penerapan sukses Isambard-AI menawarkan pelajaran krusial bagi organisasi yang merencanakan inisiatif infrastruktur AI mereka sendiri. Pertama, era memperlakukan GPU sebagai komponen server sederhana telah berakhir. Sistem AI modern memerlukan pemikiran holistik tentang daya, pendinginan, jaringan, dan operasi dari tahap perencanaan paling awal. Kedua, timeline yang dimampatkan yang dicapai oleh Isambard-AI (dari konsep hingga operasi dalam waktu kurang dari dua tahun) menjadi standar baru, tetapi hanya untuk organisasi yang bermitra dengan tim penerapan khusus.

Menatap ke depan, tantangan infrastruktur akan semakin mengintensif. Arsitektur Blackwell NVIDIA menjanjikan kepadatan daya yang bahkan lebih tinggi, dengan beberapa konfigurasi melebihi 1.000W per GPU. Pendinginan cairan akan bertransisi dari opsi lanjutan menjadi kebutuhan mutlak. Persyaratan bandwidth jaringan akan terus tumbuh secara eksponensial seiring ukuran model mendorong menuju 10 triliun parameter. Organisasi yang tidak memiliki akses ke keahlian infrastruktur GPU khusus akan mendapati diri mereka semakin tidak mampu bersaing dalam revolusi AI.

Investasi Inggris dalam Isambard-AI merepresentasikan lebih dari sekadar pencapaian teknis. Ini adalah blueprint bagaimana negara dan organisasi dapat dengan cepat menerapkan infrastruktur AI kelas dunia. Dengan menggabungkan fasilitas yang dibangun khusus, proses pengadaan yang disederhanakan, dan kemitraan dengan tim penerapan khusus, proyek ini menunjukkan bahwa tantangan infrastruktur era AI, meskipun tangguh, jauh dari tidak dapat diatasi. Bagi mereka yang bersedia berinvestasi dalam keahlian dan kemitraan yang tepat, jalan dari ambisi hingga superkomputer AI operasional tidak pernah lebih mudah.

Universitas, perusahaan, dan pemerintah di seluruh dunia merenungkan investasi infrastruktur AI mereka sendiri. Isambard-AI berdiri sebagai bukti bahwa dengan pendekatan yang tepat dan mitra yang tepat, bahkan penerapan GPU paling ambisius dapat bergerak dari proposal ke produksi dengan kecepatan inovasi. Pertanyaannya bukan lagi apakah akan membangun infrastruktur AI, tetapi apakah Anda memiliki akses ke keahlian khusus yang diperlukan untuk melakukannya dengan benar.

Referensi

Alliance Chemical. "AI GPU Cooling Revolution: Deionized Water, Ethylene Glycol & Propylene." Alliance Chemical. Diakses 1 Agustus 2025. https://alliancechemical.com/blogs/articles/ai-gpu-cooling-revolution-deionized-water-ethylene-glycol-propylene-glycol-the-ultimate-liquid-cooling-guide.

Computer Weekly. "Bristol goes live with UK AI supercomputer." Computer Weekly, 2025. https://www.computerweekly.com/news/366584173/Bristol-goes-live-with-UK-AI-supercomputer.

Computer Weekly. "UK government pledges £225m to fund University of Bristol AI supercomputer build with HPE." Computer Weekly, November 2023. https://www.computerweekly.com/news/366558036/UK-government-pledges-225m-to-fund-University-of-Bristol-AI-supercomputer-build-with-HPE.

Data Center Knowledge. "Direct-to-Chip Liquid Cooling: Optimizing Data Center Efficiency." Data Center Knowledge. Diakses 1 Agustus 2025. https://www.datacenterknowledge.com/cooling/direct-to-chip-liquid-cooling-optimizing-data-center-efficiency.

EuroHPC Joint Undertaking. "Inauguration of MareNostrum 5: Europe welcomes a new world-class supercomputer." 21 Desember 2023. https://www.eurohpc-ju.europa.eu/inauguration-marenostrum-5-europe-welcomes-new-world-class-supercomputer-2023-12-21_en.

EuroHPC Joint Undertaking. "MareNostrum5: a new EuroHPC world-class supercomputer in Spain." 16 Juni 2022. https://eurohpc-ju.europa.eu/marenostrum5-new-eurohpc-world-class-supercomputer-spain-2022-06-16_en.

Forschungszentrum Jülich. "JUPITER Technical Overview." Diakses 1 Agustus 2025. https://www.fz-juelich.de/en/ias/jsc/jupiter/tech.

GOV.UK. "Sovereign AI AIRR launch opportunity: call for researchers." Diakses 1 Agustus 2025. https://www.gov.uk/government/publications/sovereign-ai-airr-launch-opportunity-call-for-researchers/sovereign-ai-airr-launch-opportunity-call-for-researchers.

Hewlett-Packard Enterprise. "UK Government invests £225m to create UK's most powerful AI supercomputer with University of Bristol and Hewlett Packard Enterprise." Siaran pers, November 2023. https://www.hpe.com/us/en/newsroom/press-release/2023/11/uk-government-invests-225m-to-create-uks-most-powerful-ai-supercomputer-with-university-of-bristol-and-hewlett-packard-enterprise.html.

HPCwire. "University of Bristol to Host Isambard-AI Supercomputer, Marking a New Era in AI and HPC." HPCwire. Diakses 1 Agustus 2025. https://www.hpcwire.com/off-the-wire/university-of-bristol-to-host-isambard-ai-supercomputer-marking-a-new-era-in-ai-and-hpc/.

Hyperstack. "All About the NVIDIA Blackwell GPUs: Architecture, Features, Chip Specs." Diakses 1 Agustus 2025. https://www.hyperstack.cloud/blog/thought-leadership/everything-you-need-to-know-about-the-nvidia-blackwell-gpus.

IBM. "Introl Solutions, LLC." IBM PartnerPlus Directory. Diakses 1 Agustus 2025. https://www.ibm.com/partnerplus/directory/company/9695.

Introl. "GPU Infrastructure Deployments | Optimize Your GPU Deployments." Diakses 1 Agustus 2025. https://introl.com/gpu-infrastructure-deployments.

Introl. "Introl - GPU Infrastructure & Data Center Deployment Experts." Diakses 1 Agustus 2025. https://introl.com.

Introl. "Introl | GPU Infrastructure, Data Center Solutions & HPC Deployment." Diakses 1 Agustus 2025. https://introl.com/blog.

IT Pro. "Inside Isambard-AI: The UK's most powerful supercomputer." IT Pro. Diakses 1 Agustus 2025. https://www.itpro.com/infrastructure/inside-isambard-ai-the-uks-most-powerful-supercomputer.

IT4Innovations. "LUMI." Diakses 1 Agustus 2025. https://www.it4i.cz/en/infrastructure/lumi.

Jetcool. "What is Direct Liquid Cooling for AI Data Centers?" Diakses 1 Agustus 2025. https://jetcool.com/post/what-is-direct-liquid-cooling-for-ai-data-centers/.

NVIDIA. "NVLink & NVSwitch for Advanced Multi-GPU Communication." Diakses 1 Agustus 2025. https://www.nvidia.com/en-us/data-center/nvlink/.

NVIDIA. "The Engine Behind AI Factories | NVIDIA Blackwell Architecture." Diakses 1 Agustus 2025. https://www.nvidia.com/en-us/data-center/technologies/blackwell-architecture/.

NVIDIA Blog. "NVIDIA Blackwell Platform Boosts Water Efficiency by Over 300x." Diakses 1 Agustus 2025. https://blogs.nvidia.com/blog/blackwell-platform-water-efficiency-liquid-cooling-data-centers-ai-factories/.

ResearchGate. "Isambard-AI: a leadership class supercomputer optimised specifically for Artificial Intelligence." Oktober 2024. https://www.researchgate.net/publication/384938455_Isambard-AI_a_leadership_class_supercomputer_optimised_specifically_for_Artificial_Intelligence.

SDxCentral. "UK's $300M Isambard-AI supercomputer officially launches." SDxCentral. Diakses 1 Agustus 2025. https://www.sdxcentral.com/news/uks-300m-isambard-ai-supercomputer-officially-launches/.

TechTarget. "Liquid cooling's moment comes courtesy of AI." TechTarget. Diakses 1 Agustus 2025. https://www.techtarget.com/searchdatacenter/feature/Liquid-coolings-moment-comes-courtesy-of-AI.

The Engineer. "Isambard AI supercomputer launches in Bristol." The Engineer. Diakses 1 Agustus 2025. https://www.theengineer.co.uk/content/news/isambard-ai-supercomputer-launches-in-bristol/.

UK Research and Innovation. "£300 million to launch first phase of new AI Research Resource." Diakses 1 Agustus 2025. https://www.ukri.org/news/300-million-to-launch-first-phase-of-new-ai-research-resource/.

University of Bristol. "2023: Isambard AI Bristol." Cabot Institute for the Environment. Diakses 1 Agustus 2025. https://www.bristol.ac.uk/cabot/news/2023/isambard-ai-bristol.html.

University of Bristol. "July: UK's most powerful supercomputer launches in Bristol." News and features, Juli 2025. https://www.bristol.ac.uk/news/2025/july/isambard-launch.html.

University of Bristol. "November: Unprecedented £225m investment to create UK's most powerful supercomputer." News and features, November 2023. https://www.bristol.ac.uk/news/2023/november/supercomputer-announcement.html.

Wikipedia. "Blackwell (microarchitecture)." Diakses 1 Agustus 2025. https://en.wikipedia.org/wiki/Blackwell_(microarchitecture).

Wikipedia. "LUMI." Diakses 1 Agustus 2025. https://en.wikipedia.org/wiki/LUMI.

"Isambard-AI: a leadership class supercomputer optimised specifically for Artificial Intelligence." arXiv preprint arXiv:2410.11199 (2024). http://arxiv.org/pdf/2410.11199.

Ketika 5 megawatt bertemu 150 ton silikon

Kompleksitas tersembunyi dari infrastruktur AI-first

Belajar dari perlombaan infrastruktur AI Eropa

Kesenjangan keahlian yang mengancam ambisi AI

Melampaui penerapan: mempertahankan keunggulan infrastruktur AI

Memetakan masa depan infrastruktur AI

Referensi

You Might Also Like

UPS dan Distribusi Daya untuk AI: Merancang Infrastruktur 2N...

Retrofitting Pusat Data Lama untuk AI: Panduan Integrasi Pen...

xAI Colossus Mencapai 2 GW: 555.000 GPU, $18 Miliar, Situs A...

Minta Penawaran_

Permintaan Diterima_