Komputasi Terdisagregasi untuk AI: Arsitektur Infrastruktur Composable
Diperbarui 11 Desember 2025
Pembaruan Desember 2025: CXL memory pooling mencapai percepatan 3,8x dibandingkan 200G RDMA, 6,5x dibandingkan 100G RDMA untuk inferensi LLM. Jensen Huang: "Ketika Anda dapat menempatkan akselerator di mana saja dalam data center dan menyusun serta mengkonfigurasi ulang untuk workload tertentu—itu adalah revolusi." Infrastruktur composable memecahkan rasio server tetap untuk secara dinamis menyesuaikan kebutuhan workload AI yang tepat.
CXL memory pooling mencapai percepatan 3,8x dibandingkan 200G RDMA dan percepatan 6,5x dibandingkan 100G RDMA saat berbagi memori antar server GPU yang menjalankan inferensi large language model.[^1] Demonstrasi ini menggunakan dua server dengan GPU NVIDIA H100 yang menjalankan model OPT-6.7B, menunjukkan bagaimana CXL shared memory mempercepat workload AI melampaui kemampuan jaringan tradisional. Seperti yang dicatat oleh Jensen Huang dari NVIDIA: "Ketika Anda mampu mendisagregasi server yang terkonvergensi, ketika Anda dapat menempatkan akselerator di mana saja dalam data center dan kemudian dapat menyusun dan mengkonfigurasi ulang data center tersebut untuk workload spesifik ini—itu adalah revolusi."[^2]
Infrastruktur composable merepresentasikan pendekatan arsitektural di mana sumber daya komputasi, penyimpanan, dan jaringan ada sebagai pool yang diabstraksi dan dikelola secara independen melalui software-defined control plane.[^3] Berbeda dengan arsitektur tradisional yang mengaitkan CPU, memori, penyimpanan, dan jaringan ke server tertentu, infrastruktur composable memperlakukan sumber daya perangkat keras sebagai pool fleksibel yang dialokasikan secara dinamis ke berbagai workload. Pendekatan ini menjanjikan peningkatan dramatis dalam utilisasi sumber daya dan fleksibilitas deployment untuk infrastruktur AI.
Menembus batas server
Server tradisional mengemas rasio tetap CPU, memori, GPU, dan penyimpanan. Workload AI jarang cocok dengan rasio tetap ini. Pekerjaan training membutuhkan kepadatan GPU maksimum dengan kebutuhan CPU yang relatif sederhana. Workload inferensi mungkin membutuhkan lebih banyak memori per GPU daripada yang disediakan konfigurasi standar. Pipeline preprocessing membutuhkan kapasitas CPU dan penyimpanan tanpa GPU.
Infrastruktur composable menembus batas server, memungkinkan organisasi merakit sistem virtual yang sesuai dengan kebutuhan workload yang tepat.[^4] Workload training menerima komposisi 8 GPU, CPU minimal, dan penyimpanan bandwidth tinggi. Workload inferensi menerima 2 GPU dengan memori yang diperluas. Sumber daya fisik yang sama melayani kedua workload pada waktu berbeda tanpa rekonfigurasi perangkat keras.
Model disagregasi
Arsitektur terdisagregasi memisahkan node fisik menjadi tipe sumber daya khusus: node komputasi, node memori, node GPU, dan node penyimpanan.[^5] Fabric berkecepatan tinggi menghubungkan node-node tersebut, memungkinkan perangkat lunak untuk menyusun sistem logis dari sumber daya fisik terdistribusi. Komposisi terjadi dalam perangkat lunak tanpa pengkabelan ulang fisik.
Sumber daya tidak lagi menganggur menunggu workload tertentu. Node GPU melayani pekerjaan training selama jam sibuk dan pekerjaan inferensi di malam hari. Node memori memperluas kapasitas untuk workload yang intensif memori tanpa over-provisioning setiap server. Fleksibilitas ini meningkatkan utilisasi sambil mengurangi total kebutuhan perangkat keras.
CXL memungkinkan memory pooling
Compute Express Link (CXL) menyediakan interkoneksi cache-coherent yang memungkinkan disagregasi memori praktis.[^6] CXL menawarkan akses memory-semantic dengan latensi dalam kisaran 200-500 nanodetik, dibandingkan dengan sekitar 100 mikrodetik untuk NVMe dan lebih dari 10 milidetik untuk berbagi memori berbasis penyimpanan.[^7] Peningkatan latensi memungkinkan berbagi memori yang benar-benar dinamis dan fine-grained antar node komputasi.
Cara kerja CXL memory pooling
CXL memory pool menciptakan tier baru memori berkecepatan tinggi yang terdisagregasi yang membentuk ulang cara organisasi membangun infrastruktur AI.[^8] Node CPU mengakses pooled memory seolah-olah terpasang secara lokal, dengan fabric CXL menangani koherensi dan perpindahan data secara transparan. Aplikasi melihat kapasitas memori yang diperluas tanpa modifikasi.
CXL Memory Box memungkinkan memory pooling di beberapa server GPU, memberikan akses ke pool memori yang lebih besar daripada yang disediakan server individual.[^9] Workload AI yang memproses dataset melebihi kapasitas memori lokal mendapat manfaat dari pooled memory tanpa penalti kinerja dari akses memori jarak jauh tradisional. Pendekatan ini memungkinkan ukuran batch yang lebih besar dan context window yang lebih panjang tanpa mengupgrade server individual.
Lebih dari memori: pooling sumber daya penuh
CXL memungkinkan lebih dari sekadar memory pooling. Standar ini mendukung koneksi composable antara CPU, buffer memori, dan akselerator.[^10] GPU, FPGA, DPU, dan akselerator lainnya terhubung melalui fabric CXL untuk alokasi dinamis antar workload.
Visinya meluas ke disagregasi sumber daya lengkap di mana tidak ada sumber daya yang terikat secara permanen ke sumber daya lainnya. Organisasi membangun pool sumber daya yang berukuran untuk permintaan agregat daripada permintaan puncak per workload. Orkestrasi perangkat lunak menyusun sumber daya yang sesuai untuk setiap workload secara real-time.
Solusi industri
Beberapa vendor menawarkan solusi infrastruktur composable yang memenuhi kebutuhan workload AI.
Platform composable Liqid
Liqid merilis server GPU composable dengan CXL 2.0 memory pooling yang mendukung hingga 100 TB memori composable terdisagregasi.[^11] Platform ini mencakup EX-5410P 10-slot GPU box yang mendukung GPU 600W termasuk akselerator NVIDIA H200, RTX Pro 6000, dan Intel Gaudi 3. Perangkat lunak Matrix mengatur komposisi sumber daya di seluruh platform perangkat keras.
Pendekatan Liqid mengemas composability ke dalam solusi terintegrasi daripada mengharuskan pelanggan merancang sistem terdisagregasi dari komponen. Organisasi mendapatkan manfaat composability tanpa membangun keahlian dalam desain fabric dan pengembangan perangkat lunak orkestrasi.
Sistem composable IBM Research
IBM Research mengeksplorasi standar CXL untuk membangun sistem yang sepenuhnya composable melalui fabric berkecepatan tinggi dan latensi rendah.[^12] Dalam arsitektur mereka, sumber daya ada sebagai bagian dari pool besar yang terhubung melalui network fabric daripada dikelompokkan secara statis dalam server. Sumber daya composable dikelompokkan bersama untuk menciptakan kembali abstraksi server yang sesuai dengan kebutuhan workload tertentu.
Program penelitian ini mengatasi tantangan termasuk desain topologi fabric, optimisasi latensi, dan orkestrasi perangkat lunak untuk infrastruktur AI composable. Pekerjaan ini memajukan pemahaman tentang bagaimana sistem composable skala produksi seharusnya beroperasi.
Kolaborasi GigaIO dan Microchip
GigaIO dan Microchip mengembangkan infrastruktur terdisagregasi composable kelas cloud yang menggabungkan teknologi PCIe dan CXL.[^13] Pendekatan ini menargetkan data center yang membutuhkan fleksibilitas sumber daya composable dengan karakteristik kinerja perangkat keras yang terhubung langsung.
Pertimbangan arsitektural
Mengimplementasikan infrastruktur composable memerlukan keputusan arsitektural yang mencakup desain fabric, perangkat lunak orkestrasi, dan manajemen workload.
Topologi fabric
Fabric interkoneksi menentukan latensi dan bandwidth yang dapat dicapai antara sumber daya terdisagregasi. Fabric CXL harus menyediakan bandwidth yang cukup untuk pola akses kecepatan memori sambil mempertahankan latensi dalam batas yang dapat diterima. Topologi fabric mempengaruhi baik kinerja maupun biaya.
Topologi berbasis switch menawarkan fleksibilitas tetapi menambah latensi dibandingkan koneksi langsung. Trade-off antara kompleksitas topologi dan anggaran latensi tergantung pada kebutuhan workload tertentu. Workload yang intensif memori membutuhkan latensi lebih rendah daripada workload yang intensif penyimpanan.
Kebutuhan orkestrasi
Orkestrasi perangkat lunak mengelola komposisi sumber daya, menangani permintaan alokasi, melacak status sumber daya, dan mempertahankan isolasi antar komposisi. Layer orkestrasi harus merespons cukup cepat untuk mendukung perubahan workload dinamis tanpa menjadi bottleneck.
Integrasi Kubernetes memungkinkan sumber daya composable melayani workload AI terkontainerisasi menggunakan primitif orkestrasi yang familiar. GPU Operator dan ekstensi serupa mengelola sumber daya akselerator, dengan ekstensi composability memungkinkan alokasi pool GPU dinamis.
Pertimbangan failure domain
Disagregasi mengubah karakteristik failure domain. Node memori yang gagal mempengaruhi semua komposisi yang menggunakan memori tersebut daripada satu server tunggal. Radius dampak dari kegagalan komponen meluas dibandingkan arsitektur server terkonvergensi.
Strategi redundansi harus memperhitungkan mode kegagalan terdisagregasi. Pool memori memerlukan redundansi di seluruh node fisik. Kebijakan komposisi harus menghindari konsentrasi workload kritis pada sumber daya bersama. Pemantauan harus melacak kesehatan di seluruh fabric daripada server individual.
Keahlian deployment infrastruktur
Kompleksitas infrastruktur composable melebihi deployment server tradisional. Instalasi fabric, validasi kinerja, dan konfigurasi orkestrasi memerlukan keahlian khusus yang kebanyakan organisasi tidak memiliki secara internal.
550 field engineer Introl mendukung organisasi yang mengimplementasikan arsitektur infrastruktur canggih termasuk sistem composable dan terdisagregasi.[^14] Perusahaan ini menduduki peringkat #14 di Inc. 5000 2025 dengan pertumbuhan tiga tahun sebesar 9.594%, mencerminkan permintaan akan layanan infrastruktur profesional.[^15] Deployment composable mendapat manfaat dari pengalaman dengan instalasi dan validasi fabric berkecepatan tinggi.
Men-deploy infrastruktur di 257 lokasi global memerlukan praktik yang konsisten terlepas dari geografinya.[^16] Introl mengelola deployment yang mencapai 100.000 GPU dengan lebih dari 40.000 mil infrastruktur jaringan fiber optik, menyediakan skala operasional untuk organisasi yang membangun infrastruktur AI composable.[^17]
Masa depan composable
Arsitektur terdisagregasi yang berbagi sumber daya akan memungkinkan infrastruktur untuk memproses petabyte data yang diperlukan untuk AI, machine learning, dan teknologi intensif data lainnya.[^18] Adopsi CXL akan mempercepat seiring standar yang matang dan solusi vendor yang berkembang.
Organisasi yang merencanakan investasi infrastruktur AI harus mengevaluasi arsitektur composable untuk deployment di mana variabilitas workload membuat server rasio tetap tidak efisien. Manfaat fleksibilitas berlipat ganda dengan skala: deployment yang lebih besar mencapai peningkatan utilisasi yang lebih baik dari resource pooling.
Transisi dari infrastruktur terkonvergensi ke composable merepresentasikan pergeseran fundamental dalam arsitektur data center. Organisasi yang menguasai deployment composable mendapatkan keunggulan fleksibilitas yang diterjemahkan menjadi efisiensi biaya dan kelincahan deployment. Revolusi yang digambarkan Jensen Huang dimulai dengan memahami bagaimana disagregasi mengubah ekonomi infrastruktur.
Poin-poin penting
Untuk arsitek infrastruktur: - CXL memory pooling mencapai percepatan 3,8x vs 200G RDMA dan 6,5x vs 100G RDMA untuk workload inferensi LLM - Latensi CXL: akses memory-semantic 200-500ns vs ~100μs NVMe vs >10ms berbagi berbasis penyimpanan - Disagregasi memungkinkan: komposisi 8 GPU untuk training, 2 GPU + memori diperluas untuk inferensi, dari pool perangkat keras yang sama
Untuk tim pengadaan: - Liqid EX-5410P: 10-slot GPU box mendukung GPU 600W (H200, RTX Pro 6000, Gaudi 3) dengan 100TB CXL memory pooling - Server rasio tetap tradisional membuang sumber daya: training membutuhkan GPU maksimum dengan CPU sederhana; inferensi membutuhkan lebih banyak memori per GPU - Composable mengurangi total perangkat keras dengan pooling sumber daya antar workload; node GPU melayani training di siang hari, inferensi di malam hari
Untuk platform engineer: - IBM Research mengeksplorasi CXL untuk sistem yang sepenuhnya composable melalui fabric berkecepatan tinggi dan latensi rendah - Kolaborasi GigaIO/Microchip: composable kelas cloud menggabungkan teknologi PCIe dan CXL - Integrasi Kubernetes melalui ekstensi GPU Operator memungkinkan sumber daya composable dengan orkestrasi yang familiar
Untuk tim operasi: - Perubahan failure domain: node memori yang gagal mempengaruhi semua komposisi yang menggunakannya vs server tunggal dalam arsitektur terkonvergensi - Strategi redundansi harus memperhitungkan mode kegagalan terdisagregasi; hindari konsentrasi workload pada sumber daya bersama - Pemantauan kesehatan fabric menggantikan pemantauan server individual; kebijakan komposisi mence
[Konten dipotong untuk penerjemahan]