Penyimpanan yang Dioptimalkan untuk AI: NVMe-oF, GPUDirect & Sistem File Paralel 2025

Pasar penyimpanan AI tumbuh dari $36M menjadi $322M pada 2035. DDN menghadirkan 4TB/s ke NVIDIA Eos. GPUDirect, NVMe-oF, dan sistem file paralel menyuplai kluster GPU yang lapar data.

Penyimpanan yang Dioptimalkan untuk AI: NVMe-oF, GPUDirect & Sistem File Paralel 2025

Penyimpanan yang Dioptimalkan untuk AI: Tumpukan Teknologi yang Menyuplai Kluster GPU

Diperbarui 11 Desember 2025

Pembaruan Desember 2025: Pasar penyimpanan AI tumbuh dari $36M (2025) menjadi $322M pada 2035. DDN EXAScaler menghadirkan 4TB/s ke superkomputer NVIDIA Eos. GPUDirect Storage memungkinkan transfer langsung 40+ GB/s; teknologi SCADA NVIDIA November 2025 mengeliminasi keterlibatan CPU terakhir. NVMe-oF tumbuh dengan CAGR 27,8% seiring organisasi memperluas latensi level PCIe di seluruh jaringan.

Bottleneck penyimpanan membuat GPU menganggur. Satu implementasi DDN EXAScaler menghadirkan empat terabyte per detik ke superkomputer NVIDIA Eos, menyuplai 18,4 exaflops performa AI dari 576 sistem DGX H100.¹ Ketika GPU berharga puluhan ribu dolar per unit dan kluster pelatihan mencapai ribuan akselerator, infrastruktur penyimpanan yang tidak mampu mempertahankan throughput data membuang jutaan dolar sumber daya komputasi. Pasar penyimpanan berbasis AI mencerminkan urgensi ini, diproyeksikan tumbuh dari $36,28 miliar pada 2025 menjadi $321,93 miliar pada 2035 dengan tingkat pertumbuhan tahunan majemuk 24,4%.²

Beban kerja AI modern menuntut karakteristik performa penyimpanan yang secara fundamental berbeda dari aplikasi enterprise tradisional. Dataset pelatihan yang diukur dalam petabyte membutuhkan throughput sekuensial berkelanjutan. Operasi checkpointing harus selesai dalam hitungan detik untuk meminimalkan interupsi pelatihan. Beban kerja inferensi menghasilkan pola I/O tak terduga yang mencampur pembacaan acak kecil dengan penulisan burst. Organisasi yang menerapkan infrastruktur AI dalam skala besar kini mengevaluasi sistem penyimpanan berdasarkan metrik utilisasi GPU daripada benchmark IOPS tradisional.

NVMe-oF memperluas performa flash di seluruh jaringan

NVMe over Fabrics (NVMe-oF) memungkinkan beban kerja berperforma tinggi dalam skala besar dengan menyediakan berbagi SSD NVMe berlatensi rendah melalui fabric Ethernet atau InfiniBand berperforma tinggi.³ Protokol ini menghadirkan performa serupa dengan SSD NVMe yang terpasang secara lokal sambil memungkinkan organisasi menskalakan sumber daya penyimpanan secara independen dari alokasi komputasi, GPU, dan memori.⁴

Protokol penyimpanan tradisional menambahkan milidetik latensi melalui tumpukan perangkat lunak yang dioptimalkan untuk disk berputar. NVMe-oF mengeliminasi lapisan-lapisan ini, mencapai latensi dalam puluhan mikrodetik bahkan ketika diskalakan ke ribuan node menggunakan transport RDMA.⁵ Transport TCP memungkinkan deployment melalui Ethernet komoditas sambil tetap menghadirkan peningkatan performa substansial dibandingkan protokol NFS atau iSCSI legacy.⁶

Untuk infrastruktur AI, NVMe-oF penting di mana setiap mikrodetik berarti: pipeline pelatihan di mana GPU menganggur menunggu data, operasi checkpoint yang harus selesai dalam jendela waktu ketat, dan beban kerja inferensi yang membutuhkan waktu respons sub-milidetik.⁷ Benchmark yang dipublikasikan menunjukkan pembacaan sekuensial 351 GiB per detik dengan integrasi GPUDirect Storage, dengan pengurangan latensi diharapkan meningkatkan utilisasi GPU efektif 2 hingga 3 kali lipat dalam konfigurasi yang terbatas I/O.⁸

Adopsi industri meningkat sepanjang 2025. Western Digital dan Ingrasys menjalin kemitraan pada Mei 2025 yang menggabungkan keahlian server GPU dengan kemampuan NVMe-oF dan penyimpanan terpasang fabric.⁹ Hitachi Vantara meluncurkan Virtual Storage Platform One Block High End pada November 2025, solusi penyimpanan blok NVMe all-flash generasi berikutnya yang dirancang untuk beban kerja mission-critical dan AI.¹⁰ Sistem NVMe-oF memperkirakan tingkat pertumbuhan tahunan majemuk 27,80% seiring organisasi memperluas latensi level PCIe di seluruh jaringan untuk meningkatkan utilisasi GPU dalam kluster AI terdistribusi.¹¹

GPUDirect Storage mengeliminasi bottleneck CPU

GPUDirect Storage dari NVIDIA memungkinkan transfer data langsung dari penyimpanan ke memori GPU tanpa melewati CPU dan memori sistem.¹² Teknologi ini menghilangkan hambatan performa fundamental dalam pipeline pelatihan AI di mana dataset besar harus mengalir secara kontinyu ke memori GPU untuk pemrosesan.

Pelatihan deep learning melibatkan operasi checkpointing yang sering di mana bobot jaringan terlatih disimpan ke disk pada berbagai tahap pelatihan. Secara definisi, checkpointing berada di jalur I/O kritis.¹³ Model dengan 100 miliar parameter menghasilkan sekitar 800GB hingga 1,6TB per checkpoint, dan pelatihan skala besar dengan 16.000 akselerator membutuhkan 155 checkpoint harian.¹⁴ Untuk menjaga overhead di bawah 5%, operasi checkpoint harus selesai dalam waktu kurang dari 28 detik pada skala tersebut, menyusut menjadi 4,4 detik untuk kluster dengan 100.000 akselerator.¹⁵

GPUDirect Storage mengatasi kebutuhan ini dengan memungkinkan kecepatan transfer langsung 40+ GBps dari penyimpanan ke memori GPU.¹⁶ Arsitektur referensi Lenovo/NVIDIA menghadirkan 20 GBps per node dengan kemampuan skalabilitas linier, mendukung fungsi pelatihan LLM, inferensi, dan checkpointing.¹⁷ Teknologi SCADA NVIDIA November 2025 membawa GPUDirect lebih jauh dengan memindahkan bahkan jalur kontrol penyimpanan ke GPU, mengeliminasi keterlibatan CPU terakhir dalam operasi penyimpanan.¹⁸

Implementasi hardware berkembang di seluruh ekosistem. Adapter HighPoint Rocker 7638D memungkinkan alur kerja GPUDirect Storage dengan bandwidth hingga 64 GB/s dan latensi yang dapat diprediksi, sangat berguna untuk dataset pelatihan skala besar.¹⁹ Vendor penyimpanan termasuk DDN, Pure Storage, WEKA, dan VAST Data mensertifikasi platform mereka untuk integrasi GPUDirect dengan sistem NVIDIA DGX dan HGX.

Sistem file paralel menggerakkan AI exascale

Sistem file paralel mendistribusikan data dan metadata di beberapa server, memungkinkan throughput agregat yang skalanya sebanding dengan jumlah node penyimpanan. Tiga platform mendominasi deployment AI dan HPC: Lustre, IBM Storage Scale (sebelumnya GPFS), dan WekaFS.

Lustre menguasai 41% pangsa pasar dalam sistem file paralel, diikuti IBM Storage Scale dengan 17% dan WEKA dengan 6%.²⁰ Setiap arsitektur dioptimalkan untuk karakteristik beban kerja yang berbeda.

Lustre unggul dalam lingkungan yang didominasi operasi sekuensial besar termasuk simulasi ilmiah dan pipeline rendering video.²¹ Arsitekturnya memprioritaskan bandwidth berkelanjutan dibandingkan penanganan file kecil, mencapai skalabilitas performa mendekati linier dengan penambahan Object Storage Servers (OSS) untuk beban kerja intensif bandwidth.²² Lustre berkinerja terbaik dengan fabric InfiniBand dan menggerakkan sebagian besar superkomputer dunia. Produk EXAScaler dari DDN mengemas Lustre dengan optimasi performa dan kemampuan manajemen enterprise.

IBM Storage Scale memberikan performa superior dalam operasi intensif metadata.²³ Pendekatan metadata terdistribusi membuat file kecil, memodifikasi atribut, dan menyusun direktori kompleks lebih efisien daripada arsitektur server metadata terpusat milik Lustre.²⁴ Storage Scale menghadirkan performa konsisten di berbagai pola I/O dan terintegrasi ke dalam arsitektur referensi NVIDIA DGX SuperPOD dengan dukungan GPUDirect.²⁵

WekaFS menargetkan beban kerja AI/ML secara spesifik, dirancang sejak awal untuk SSD NVMe daripada diretrofit dari arsitektur disk berputar.²⁶ Metadata terdistribusi WEKA mengeliminasi bottleneck server metadata yang membatasi sistem file paralel legacy.²⁷ Benchmark menunjukkan WekaFS mengungguli FSx for Lustre sebesar 300% atau lebih pada kapasitas serupa, dengan latensi I/O terkadang kurang dari 30% solusi pesaing.²⁸ WekaFS mendukung protokol pNFS, SMB, dan S3, memungkinkan pola akses multiprotokol yang umum dalam pipeline AI.

DDN, Pure Storage, dan VAST Data memimpin lanskap vendor

Tiga vendor penyimpanan mendominasi deployment infrastruktur AI dengan produk yang dirancang khusus untuk beban kerja kluster GPU.

DDN menggerakkan superkomputer AI paling terkenal. Sistem NVIDIA Eos menggabungkan 576 sistem DGX H100 dengan 48 appliance DDN A³I yang menghadirkan 12 petabyte penyimpanan pada throughput empat terabyte per detik dalam kurang dari tiga rak menggunakan hanya 100 kW daya.²⁹ DDN mengumumkan sertifikasi Blackwell pada Maret 2025, mengoptimalkan EXAScaler dan Infinia 2.0 untuk DGX SuperPOD dengan sistem DGX GB200 dan DGX B200.³⁰ Satu DDN AI400X2-Turbo mencapai 10x kebutuhan minimum 1 GBps/GPU untuk operasi baca dan tulis yang dipasangkan dengan DGX B200, menghadirkan hingga 96% utilisasi jaringan.³¹ Kemitraan DDN dengan Yotta untuk inisiatif AI sovereign India menerapkan sistem EXAScaler AI400X3 yang menggerakkan 8.000 GPU NVIDIA B200.³²

Pure Storage memperkenalkan FlashBlade//EXA pada Maret 2025, memproyeksikan performa baca lebih dari 10 terabyte per detik dalam satu namespace.³³ Platform ini menargetkan pelanggan yang menjalankan antara satu hingga puluhan ribu GPU yang membutuhkan throughput penyimpanan 1 TB/detik hingga 50 TB/detik.³⁴ Arsitektur disagregasi FlashBlade//EXA menskalakan data dan metadata secara independen menggunakan node data pihak ketiga, memungkinkan performa paralel masif.³⁵ Pure Storage meraih sertifikasi FlashBlade//S500 dengan NVIDIA DGX SuperPOD, mengintegrasikan desain referensi NVIDIA AI Data Platform dengan dukungan GPUDirect Storage.³⁶

VAST Data mencapai $2 miliar dalam pemesanan perangkat lunak kumulatif pada Mei 2025.³⁷ Arsitektur DASE (Distributed and Shared Everything) menghadirkan paralelisme terobosan untuk kluster 100k+ GPU pada terabyte per detik, mengeliminasi bottleneck data AI.³⁸ VAST mengklaim total cost of ownership lebih dari 50% lebih rendah untuk beban kerja AI yang menuntut melalui efisiensi radikal.³⁹ Platform ini mendukung exabyte penyimpanan all-flash dengan akses standar industri NFS, SMB, S3, dan Kubernetes CSI.⁴⁰ Microsoft Azure mengumumkan integrasi dengan VAST AI Operating System pada November 2025 untuk memperluas pipeline AI on-premises ke infrastruktur cloud yang dipercepat GPU.⁴¹

Arsitektur checkpointing menyeimbangkan kecepatan dan reliabilitas

Checkpointing model menciptakan kebutuhan penyimpanan paling menuntut dalam pelatihan AI. Ukuran checkpoint skalanya sebanding dengan jumlah parameter: sekitar 8 hingga 12 byte per parameter untuk pelatihan mixed-precision berarti model dengan 100 miliar parameter menghasilkan 800GB hingga 1,2TB per checkpoint.⁴² Kebutuhan frekuensi meningkat seiring skala kluster, mencapai checkpoint setiap 1,5 menit untuk deployment dengan 100.000 akselerator.⁴³

Sistem pelatihan modern menggunakan arsitektur checkpointing bertingkat. Checkpoint fast-tier menulis ke penyimpanan NVMe lokal node setiap beberapa menit. Checkpoint mid-tier menyebar ke sistem file bersama setiap 30 menit. Checkpoint durable mencapai object storage seperti Amazon S3 hanya setiap beberapa jam.⁴⁴ Checkpointing asinkron memungkinkan pelatihan berlanjut sementara proses latar belakang mengosongkan penyimpanan lokal ke tier global.⁴⁵

Kebutuhan bandwidth checkpoint global tetap moderat bahkan dalam skala besar. Analisis 85.000 checkpoint di sistem dunia nyata menemukan bandwidth biasanya jauh di bawah 1 TB/s bahkan untuk model dengan triliunan parameter.⁴⁶ Bandwidth checkpoint per GPU menurun seiring ukuran model bertambah karena hanya satu replika data-parallel yang menulis selama checkpointing terlepas dari ukuran total kluster.⁴⁷

Throughput yang dilaporkan bervariasi signifikan di berbagai implementasi. Gemini melaporkan throughput checkpoint 3,13 GB/s. Nebula (DeepSpeed) Microsoft mencapai 1-4 GB/s. Angka-angka ini mencerminkan tradeoff arsitektural antara frekuensi checkpoint, tier penyimpanan, dan overhead pelatihan yang dapat diterima.⁴⁸

Computational storage memindahkan pemrosesan ke data

Perangkat computational storage (CSD) menyematkan fungsi komputasi dalam hardware penyimpanan, memproses data sebelum transfer untuk mengurangi kebutuhan bandwidth I/O.⁴⁹ Arsitektur ini terbukti sangat berharga untuk deployment edge AI yang menghadapi sumber daya komputasi terbatas, anggaran daya ketat, dan kebutuhan latensi real-time.⁵⁰

Aplikasi CSD lanjutan termasuk menjalankan database, model machine learning, dan analitik langsung pada perangkat penyimpanan. Beberapa implementasi mendukung sistem operasi Linux penuh, memungkinkan inferensi AI/ML pada drive itu sendiri.⁵¹ Deployment edge mendapat manfaat dari pemrosesan awal di lapisan penyimpanan, memfilter hasil sebelum transmisi ke prosesor utama.⁵²

Teknologi ini mengatasi kendala unik edge AI. Menjalankan inferensi semakin beralih ke perangkat edge untuk meningkatkan aksesibilitas, kustomisasi, dan efisiensi.⁵³ Cisco meluncurkan Unified Edge pada November 2025, platform komputasi terintegrasi yang menyatukan komputasi, jaringan, penyimpanan, dan keamanan untuk AI real-time

[Konten dipotong untuk terjemahan]

Minta Penawaran_

Ceritakan tentang proyek Anda dan kami akan merespons dalam 72 jam.

> TRANSMISSION_COMPLETE

Permintaan Diterima_

Terima kasih atas pertanyaan Anda. Tim kami akan meninjau permintaan Anda dan merespons dalam 72 jam.

QUEUED FOR PROCESSING