Arsitektur Pipeline Data AI: Menyuplai Pelatihan Skala Petabyte pada 100GB/s
Diperbarui 11 Desember 2025
Pembaruan Desember 2025: Data PreProcessing Service (DPP) Meta kini menghilangkan stall data di seluruh kluster pelatihan skala exabyte. WEKApod mencapai throughput 720GB/s dari 8 node storage yang mendukung 768 GPU H100. SSD NVMe PCIe Gen5 melampaui 14GB/s pembacaan sekuensial menjadi standar untuk storage tier pelatihan. Feature store dan arsitektur caching bertingkat mengurangi latensi akses data dingin hingga 10x.
Meta menemukan bahwa 56% siklus GPU mengalami stall, menunggu data pelatihan.[^1] Perusahaan menyimpan exabyte data pelatihan di Tectonic, sistem file terdistribusi mereka, tetapi tidak memiliki kapasitas storage untuk menyimpan dataset skala petabyte secara lokal di dekat perangkat keras pelatihan.[^2] Solusinya membutuhkan pembangunan Data PreProcessing Service (DPP) yang dapat diskalakan untuk menghilangkan stall data sepenuhnya. Organisasi yang melatih model besar menghadapi tantangan fundamental yang sama: GPU paling bertenaga sekalipun tidak menghasilkan apa-apa saat menunggu data input.
Storage yang menyuplai pelatihan AI menentukan apakah investasi GPU memberikan hasil yang diharapkan. WEKApod mencapai throughput lebih dari 720GB/s dan 18 juta IOPS dengan latensi di bawah 150 mikrodetik, mendukung 768 GPU H100 hanya dari 8 node storage.[^3] Superkomputer RSC Meta menggunakan 46 petabyte cache storage untuk menjaga GPU tetap tersuplai.[^4] Melatih GPT-4 membutuhkan sekitar 25.000 GPU A100 yang memproses 13 triliun token selama 90-100 hari.[^5] Pada skala besar, arsitektur pipeline data menjadi sama kritisnya dengan arsitektur komputasi.
Tantangan pipeline data
Model bahasa besar membutuhkan akses ke petabyte data berkualitas tinggi yang telah diproses. Tanpa storage yang cepat dan andal, GPU yang paling bertenaga sekalipun diam menganggur menunggu input.[^6] Tier performa dari infrastruktur storage memungkinkan aliran data yang mulus melalui tahap-tahap pipeline yang intensif komputasi: normalisasi, tokenisasi, dan pelatihan.
Pipeline machine learning tipikal melibatkan preprocessing data yang dikelola oleh CPU, pelatihan model yang dialihkan ke GPU, dan post-processing yang dikembalikan ke CPU.[^7] Bottleneck terjadi saat mentransfer data antara RAM CPU dan DRAM GPU. Ketidaksesuaian antara throughput storage, bandwidth jaringan, komputasi preprocessing, dan konsumsi GPU menciptakan stall yang membuang kapasitas akselerator yang mahal.
Arsitektur penyimpanan dan ingesti data Meta
Pipeline DSI end-to-end Meta terdiri dari data warehouse sentral yang dibangun di atas storage terdistribusi dan Data PreProcessing Service yang menskalakan preprocessing secara independen dari komputasi pelatihan.[^8] Arsitektur ini memisahkan storage, preprocessing, dan pelatihan menjadi tier yang dapat diskalakan secara terpisah.
Tectonic berfungsi sebagai sistem file terdistribusi skala exabyte Meta, menyediakan infrastruktur storage yang dipisahkan untuk model pelatihan AI.[^9] Perusahaan melatih model pada dataset skala terabyte hingga petabyte tanpa kapasitas storage lokal yang menyamai skala tersebut. Storage yang dipisahkan memungkinkan alokasi sumber daya yang fleksibel tetapi membutuhkan jaringan bandwidth tinggi yang menghubungkan storage ke komputasi.
DPP Master menerima spesifikasi sesi yang berisi tabel dataset, partisi, fitur yang diperlukan, dan operasi transformasi.[^10] Master memecah workload preprocessing di seluruh petabyte data menjadi item kerja independen dan mandiri yang disebut split. DPP Worker meminta split dari Master dan mengeksekusi transformasi preprocessing, memisahkan throughput preprocessing dari kapasitas CPU node pelatihan.
Hierarki storage dan caching
Meta membangun solusi storage bertingkat yang menggabungkan HDD dan SSD, dengan SSD berfungsi sebagai tier caching untuk fitur dengan penggunaan ulang tinggi.[^11] Tidak semua data pelatihan membutuhkan pola akses yang sama: fitur yang sering diakses mendapat manfaat dari flash storage sementara data dingin tetap di media yang dioptimalkan untuk kapasitas.
Strategi caching mengurangi biaya storage tanpa mengorbankan throughput pelatihan. Data panas yang berada di tier cepat melayani mayoritas pembacaan sementara data dingin di-stream dari storage kapasitas selama epoch awal. Memahami pola akses data memungkinkan keputusan tiering yang cerdas yang menyeimbangkan biaya dengan performa.
Teknologi storage untuk pelatihan AI
Teknologi storage yang berbeda melayani peran yang berbeda dalam pipeline data AI. Pilihannya tergantung pada pola akses, kebutuhan kapasitas, dan batasan anggaran.
Parallel file system
Parallel file system seperti Lustre dan GPFS memberikan performa ekstrem dengan konkurensi masif, menjadikannya ideal untuk workload AI yang intensif I/O sinkron.[^12] Sistem ini mendistribusikan data di banyak server storage, menyediakan bandwidth agregat yang berkembang seiring jumlah server.
Google Cloud menawarkan Managed Lustre sebagai cache performa tinggi di atas Cloud Storage, mengakselerasi workload AI yang membutuhkan operasi I/O throughput sangat tinggi dan latensi rendah.[^13] Organisasi mengimpor dan mengekspor data antara Managed Lustre dan Cloud Storage, menggunakan parallel file system sebagai tier performa untuk pelatihan aktif sambil mempertahankan data di object storage untuk durabilitas.
Storage NVMe
SSD NVMe PCIe Gen5 melampaui throughput pembacaan sekuensial 14 GB/s dan menangani jutaan IOPS pembacaan acak.[^14] Teknologi ini menghilangkan storage sebagai bottleneck saat melatih model AI pada puluhan terabyte data. Adopsi PCIe Gen5 sepanjang 2024-2025 menggandakan throughput per-lane menjadi sekitar 4 GB/s per lane, mencapai 64 GB/s dalam konfigurasi x16.
NVMe-oF (NVMe over Fabrics) memperluas performa NVMe melintasi jaringan, memungkinkan arsitektur storage yang dipisahkan yang mempertahankan latensi mendekati lokal. Kluster pelatihan mengakses pool storage NVMe bersama tanpa mengorbankan keunggulan performa drive yang terpasang langsung.
Object storage untuk data dingin
Object storage menyediakan kapasitas hemat biaya untuk dataset skala petabyte yang mentolerir latensi lebih tinggi. Sebuah perusahaan e-commerce besar menyimpan ratusan petabyte data pelatihan di AWS S3, dengan workload pelatihan AI/ML terdistribusi di beberapa region AWS dan data center on-premises.[^15]
Object storage bekerja paling baik untuk pola ingesti batch di mana job pelatihan memuat data ke tier yang lebih cepat sebelum pemrosesan intensif dimulai. Ekonominya mendukung object storage untuk arsip dan backup sementara tier performa menangani I/O pelatihan aktif.
Preprocessing pada skala besar
Preprocessing data mengonsumsi sumber daya komputasi yang signifikan dan sering menjadi bottleneck yang mencegah utilisasi GPU penuh. Pengalaman Meta menunjukkan CPU pada node trainer tidak dapat memproses data cukup cepat untuk melayani GPU, yang memotivasi arsitektur DPP terdistribusi.[^16]
Worker preprocessing terdistribusi
Arsitektur DPP menskalakan worker preprocessing secara independen dari node pelatihan.[^17] Menambah kapasitas preprocessing hanya membutuhkan penambahan instance worker, tidak memodifikasi infrastruktur pelatihan. Pemisahan ini memungkinkan organisasi menyesuaikan ukuran komputasi preprocessing untuk dataset tertentu dan kompleksitas transformasi.
Instance worker mengeksekusi operasi transformasi termasuk pembersihan, normalisasi, tokenisasi, dan ekstraksi fitur. Transformasi kompleks membutuhkan lebih banyak komputasi preprocessing per unit throughput pelatihan. Transformasi sederhana dapat mengimbangi pelatihan dengan sumber daya preprocessing minimal.
Preprocessing terakselerasi
Upaya industri semakin mengeksekusi operasi transformasi preprocessing pada akselerator daripada CPU.[^18] NVIDIA DALI (Data Loading Library) mengalihkan decoding gambar, augmentasi, dan konversi format ke GPU. Preprocessing terakselerasi menghilangkan bottleneck CPU untuk pipeline pelatihan gambar dan video.
Memindahkan preprocessing ke GPU membutuhkan desain pipeline yang cermat untuk menghindari terciptanya bottleneck baru. Memori GPU yang digunakan untuk preprocessing mengurangi memori yang tersedia untuk parameter model dan aktivasi. Tradeoff antara akselerasi preprocessing dan kapasitas pelatihan tergantung pada karakteristik workload.
Feature store
Google merekomendasikan penggunaan Vertex AI Feature Store untuk fitur yang siap untuk online serving.[^19] Feature store melakukan precompute dan cache nilai fitur, menghilangkan komputasi berulang di seluruh run pelatihan. Menjadwalkan job feature engineering untuk secara teratur menghitung nilai fitur baru pada cadence yang diperlukan memastikan data segar tanpa overhead preprocessing real-time.
Feature store terbukti sangat berharga untuk model rekomendasi di mana kompleksitas komputasi fitur melebihi budget waktu per-request. Pelatihan dan inferensi keduanya dapat mengakses fitur yang sudah di-precompute yang sama, menjaga konsistensi antara pengembangan dan produksi.
Arsitektur jaringan untuk pipeline data
Interkoneksi bandwidth tinggi menyediakan fondasi untuk arsitektur storage yang dipisahkan. InfiniBand dan RoCE (RDMA over Converged Ethernet) memberikan latensi ultra-rendah dan throughput tinggi yang esensial untuk pelatihan terdistribusi di seluruh kluster GPU dan akses dataset yang cepat.[^20]
Desain jaringan storage
Jaringan storage harus mencocokkan throughput pembacaan agregat dengan konsumsi pelatihan GPU. Kluster dengan 1.000 GPU H100 yang melatih workload yang haus data mungkin membutuhkan puluhan gigabyte per detik throughput storage yang berkelanjutan. Kapasitas jaringan antara tier storage dan komputasi harus melebihi kebutuhan ini dengan headroom untuk pola burst.
Topologi jaringan mempengaruhi throughput yang dapat dicapai. Topologi fat-tree menyediakan bandwidth bisection penuh tetapi lebih mahal daripada desain yang di-oversubscribe. Workload pelatihan dengan I/O storage yang berat mendapat manfaat dari fabric non-blocking yang menghilangkan kongesti jaringan sebagai bottleneck.
Optimisasi transfer data
Teknik optimisasi transfer data termasuk I/O paralel, prefetching, caching, kompresi, dan optimisasi lokalitas data memastikan pergerakan data yang efisien antara sistem storage dan node komputasi.[^21] Prefetching mengantisipasi kebutuhan data dan menyiapkan data sebelum node komputasi memintanya. Kompresi mengurangi kebutuhan bandwidth jaringan dengan biaya siklus komputasi.
Batching data mengurangi frekuensi transaksi, mengamortisasi overhead per-request di seluruh transfer yang lebih besar.[^22] Filtering data meminimalkan ukuran sampel sebelum dikirim ke GPU, mengurangi baik pembacaan storage maupun transfer jaringan. Kombinasi teknik dapat mengurangi kebutuhan bandwidth storage efektif secara signifikan.
Membangun pipeline data pada skala besar
Organisasi yang menerapkan infrastruktur pelatihan skala petabyte membutuhkan pendekatan terintegrasi untuk storage, preprocessing, dan jaringan yang sesuai dengan kapasitas komputasi GPU.
Perencanaan kapasitas
Perencanaan kapasitas storage harus memperhitungkan pertumbuhan data pelatihan bersamaan dengan penskalaan model. Dataset pelatihan tumbuh seiring organisasi mengakumulasi lebih banyak data dan mengejar model yang lebih besar yang membutuhkan lebih banyak token. Kebutuhan kapasitas bertambah seiring organisasi mempertahankan beberapa versi dataset untuk reprodusibilitas.
Perencanaan throughput terbukti lebih menantang daripada perencanaan kapasitas. Hubungan antara ukuran model, ukuran batch, dan kebutuhan throughput data bervariasi berdasarkan arsitektur dan konfigurasi pelatihan. Benchmarking workload spesifik pada infrastruktur target memberikan kebutuhan throughput yang paling andal.
Keahlian deployment infrastruktur
Kompleksitas infrastruktur pipeline data menyamai atau melebihi kompleksitas infrastruktur komputasi. Sistem storage, jaringan berkecepatan tinggi, dan layanan preprocessing harus terintegrasi dengan mulus dengan kluster GPU. Kesalahan konfigurasi di komponen mana pun menciptakan bottleneck yang membuang investasi GPU.
Jaringan 550 field engineer Introl mengkhususkan diri dalam deployment infrastruktur terintegrasi yang dibutuhkan pelatihan AI skala besar.[^23] Perusahaan ini menduduki peringkat #14 di Inc. 5000 2025 dengan pertumbuhan tiga tahun 9.594%, mencerminkan permintaan akan layanan infrastruktur profesional.[^24] Organisasi yang membangun kluster pelatihan mendapat manfaat dari keahlian deployment yang menangani storage, jaringan, dan komputasi sebagai sistem terintegrasi.
Mengelola deployment yang mencapai 100.000 GPU dengan lebih dari 40.000 mil infrastruktur jaringan serat optik membutuhkan skala operasional yang sesuai dengan inisiatif pelatihan terbesar