Infrastruktur Training vs Inference: Mengoptimalkan Pola Beban Kerja AI yang Berbeda
Diperbarui 8 Desember 2025
Pembaruan Desember 2025: H200 (141GB HBM3e) muncul sebagai andalan training, dengan Blackwell GB200 mulai deployment produksi. Inference beralih ke L40S, L4, dan AMD MI300X untuk efisiensi biaya—MI300X kini mencapai paritas harga-performa dengan H100 untuk inference. Intel Gaudi 3 mendapat traksi di IBM Cloud. Speculative decoding dan continuous batching (vLLM, TensorRT-LLM) mentransformasi ekonomi inference. Kesenjangan training-inference melebar: training membutuhkan interkoneksi 800G+ sementara inference berjalan pada Ethernet komoditas.
Infrastruktur training mengonsumsi jutaan dolar selama berbulan-bulan untuk menciptakan sebuah model, sementara infrastruktur inference menyajikan model tersebut miliaran kali dengan latensi mikrodetik. Satu kali training GPT-4 membutuhkan biaya $100 juta dan memerlukan 25.000 GPU A100 yang berjalan selama 90 hari. Menyajikan model tersebut memerlukan 128.000 GPU yang didistribusikan secara global, dioptimalkan untuk latensi daripada throughput. Pola beban kerja yang secara fundamental berbeda ini menuntut pendekatan infrastruktur yang berbeda yang sering dicampuradukkan oleh organisasi, mengakibatkan biaya 40% lebih tinggi dan utilisasi 60% lebih rendah.
Karakteristik Fundamental Beban Kerja
Beban kerja training menunjukkan paralelisme masif dengan pola sinkronisasi yang teratur. Forward pass memproses batch ribuan contoh secara bersamaan, menghitung gradien yang disinkronkan di semua GPU yang berpartisipasi setiap iterasi. Operasi all-reduce ini memerlukan bandwidth agregat melebihi 1,6Tb/s untuk large language model. Pekerjaan training berjalan terus menerus selama berminggu-minggu atau berbulan-bulan, melakukan checkpointing progres setiap jam. Kegagalan hardware memerlukan deteksi dan pemulihan segera untuk mencegah komputasi yang terbuang.
Beban kerja inference memproses request individu dengan persyaratan latensi milidetik. Ukuran batch biasanya berkisar dari 1 hingga 32, dibatasi oleh constraint latensi daripada kapasitas memori. Pola request mengikuti siklus diurnal dengan variasi 10x antara puncak dan lembah. Distribusi geografis memastikan latensi sub-100ms untuk pengguna global. Kegagalan hardware berdampak langsung pada ketersediaan layanan, memerlukan redundansi dan kemampuan failover cepat.
Pola akses memori berbeda secara dramatis antara beban kerja. Training melakukan akses memori yang teratur dan dapat diprediksi yang dioptimalkan untuk utilisasi bandwidth. Ukuran batch besar mengamortisasi overhead transfer memori di banyak contoh. Bobot model tetap statis sementara aktivasi dan gradien mengalir melalui hierarki memori. Inference menunjukkan pola akses tidak teratur yang bergantung pada sekuens input. Dynamic batching dan panjang sekuens yang bervariasi menciptakan kebutuhan memori yang tidak dapat diprediksi. Key-value caching untuk model transformer mengonsumsi gigabyte per request.
Metrik utilisasi komputasi mengungkapkan perbedaan fundamental. Training mencapai utilisasi GPU 85-95% melalui tuning ukuran batch yang cermat dan optimasi pipeline data. Bandwidth memori menjadi bottleneck untuk model besar, dengan unit komputasi menunggu pergerakan data. Inference jarang melebihi utilisasi 40% karena constraint latensi dan variabilitas request. Ukuran batch kecil kurang memanfaatkan kemampuan pemrosesan paralel. Overhead transfer jaringan dan preprocessing lebih lanjut mengurangi utilisasi efektif.
Pola komunikasi membedakan distributed training dari inference serving. Training memerlukan komunikasi all-to-all untuk sinkronisasi gradien, menghasilkan traffic 100Gb/s yang berkelanjutan antar node. Topologi jaringan sangat mempengaruhi performa training, dengan bottleneck apapun mengurangi throughput keseluruhan. Komunikasi inference sebagian besar tetap client-to-server dengan traffic inter-node minimal kecuali untuk model parallel serving. Load balancer mendistribusikan request ke seluruh node inference secara independen.
Strategi Optimasi Hardware
Pemilihan GPU sangat bervariasi antara deployment training dan inference. Cluster training memprioritaskan GPU NVIDIA H100 dengan memori HBM3 80GB yang mendukung kapasitas model penuh. Bandwidth memori 3,35TB/s memungkinkan komputasi gradien dan pembaruan parameter yang cepat. Interkoneksi NVLink menyediakan bandwidth 900GB/s antar GPU mempercepat operasi kolektif. Organisasi menginvestasikan $30.000 per H100 untuk infrastruktur training, menerima premium untuk performa maksimal.
Deployment inference semakin mengadopsi GPU NVIDIA L40S atau L4 yang dioptimalkan untuk efisiensi biaya. L40S dengan memori 48GB menangani sebagian besar beban kerja inference dengan harga $15.000 per GPU. GPU L4 seharga $5.000 masing-masing unggul untuk deployment edge dan model yang lebih kecil. GPU AMD MI210 memberikan performa inference kompetitif dengan harga 60% dari NVIDIA. Akselerator Intel Gaudi2 mencapai throughput inference serupa untuk model transformer seharga $10.000 per unit. Diversitas ini mengurangi biaya inference sebesar 50% dibandingkan hardware training.
Optimasi hierarki memori berbeda antar beban kerja. Training memerlukan kapasitas HBM maksimal untuk menampung parameter model, state optimizer, dan gradien secara bersamaan. Model 70B parameter memerlukan 840GB untuk mixed precision training termasuk state Adam optimizer. Inference hanya memerlukan bobot model dan memori aktivasi, memerlukan 140GB untuk model yang sama. Pengurangan 6x ini memungkinkan deployment pada GPU yang lebih kecil dan lebih murah.
Kebutuhan CPU bervariasi berdasarkan kebutuhan preprocessing. Cluster training mengalokasikan 32 core CPU per GPU untuk loading data, augmentasi, dan preprocessing. Storage NVMe performa tinggi mengumpankan pipeline training pada 10GB/s per node. Server inference memerlukan sumber daya CPU yang lebih sedikit, biasanya 8-16 core per GPU, berfokus pada routing request dan formatting response. Deployment inference edge dapat menggunakan serving hanya-CPU untuk model di bawah 7B parameter.
Alternatif akselerator menyediakan opsi hemat biaya untuk beban kerja tertentu. Pod Google TPU v4 unggul dalam training skala besar dengan 4.096 chip menghasilkan 1,1 exaflops. Chip AWS Inferentia2 mengoptimalkan inference pada $0,75 per juta token, 70% lebih murah dari serving berbasis GPU. Sistem Cerebras CS-2 mempercepat training untuk model yang muat dalam memori 40GB. Akselerator khusus ini mengurangi biaya ketika pola beban kerja sesuai dengan parameter desain mereka.
Persyaratan Arsitektur Jaringan
Jaringan training menuntut bandwidth maksimal dengan latensi minimal untuk operasi kolektif. Deployment InfiniBand menggunakan switch NDR 400Gb/s memberikan latensi kurang dari 1 mikrodetik untuk operasi RDMA. Topologi fat-tree memastikan komunikasi non-blocking antara pasangan GPU manapun. Desain rail-optimized mendedikasikan jalur jaringan terpisah untuk agregasi gradien dan komunikasi parameter server. Research SuperCluster Meta menggunakan 4-rail InfiniBand menyediakan bandwidth agregat 1,6Tb/s per GPU.
Jaringan inference memprioritaskan distribusi geografis dan konektivitas edge. Integrasi Content Delivery Network (CDN) mengurangi latensi untuk pengguna global. Anycast routing mengarahkan request ke cluster inference terdekat yang tersedia. Ethernet 100Gb/s cukup untuk sebagian besar deployment inference, dengan RoCEv2 mengaktifkan RDMA saat diperlukan. Load balancer mendistribusikan request ke seluruh GPU yang tersedia berdasarkan utilisasi saat ini dan waktu respons.
Pola traffic east-west berbeda secara substansial. Training menghasilkan pertukaran gradien 100TB setiap hari untuk training model besar. Operasi all-reduce menciptakan hot spot yang memerlukan desain jaringan yang cermat. Traffic inference tetap sebagian besar north-south antara client dan server. Model serving menghasilkan traffic respons 1-10GB/s per GPU tergantung pada tingkat request dan ukuran output.
Persyaratan ketahanan jaringan mencerminkan karakteristik beban kerja. Jaringan training mentoleransi interupsi singkat melalui mekanisme pemulihan checkpoint. Outage yang berkepanjangan membuang komputasi mahal, memotivasi jalur jaringan redundan. Jaringan inference memerlukan failover segera untuk mempertahankan ketersediaan layanan. Waktu konvergensi BGP di bawah 1 detik memastikan dampak minimal pada pengguna selama kegagalan.
Pertimbangan keamanan mempengaruhi desain jaringan secara berbeda. Jaringan training beroperasi dalam lingkungan terpercaya, memprioritaskan performa di atas enkripsi. Kontrol akses dataset dan perlindungan checkpoint model memfokuskan upaya keamanan. Jaringan inference menghadapi eksposur internet yang memerlukan enkripsi TLS, perlindungan DDoS, dan autentikasi API. Web Application Firewall menyaring request berbahaya sebelum mencapai server inference.
Pola Desain Sistem Storage
Sistem storage training mengoptimalkan throughput sekuensial berkelanjutan. File system paralel seperti Lustre atau GPFS menyediakan bandwidth agregat 100GB/s untuk streaming dataset. NVMe-oF (NVMe over Fabrics) mengirimkan shard dataset langsung ke memori GPU. Layer caching terdistribusi menggunakan Alluxio atau JuiceFS mempercepat pemrosesan epoch berulang. Infrastruktur training OpenAI mencapai bandwidth storage agregat 1TB/s di seluruh cluster mereka.
Storage checkpoint memerlukan optimasi berbeda. Training run menulis checkpoint 50-100TB setiap 4 jam untuk model besar. Sistem object storage seperti MinIO atau Ceph menangani penulisan checkpoint tanpa mengganggu throughput training. Erasure coding menyediakan toleransi kesalahan dengan overhead storage 20% dibandingkan 200% untuk replikasi. Tiered storage memigrasikan checkpoint lama ke media yang lebih murah sambil mempertahankan checkpoint terbaru pada NVMe untuk pemulihan cepat.
Storage inference berfokus pada kecepatan loading model dan caching. Model dimuat dari object storage saat startup container inference, memerlukan 10-30 detik untuk model 70B parameter. Caching NVMe lokal mempercepat loading model berikutnya menjadi di bawah 2 detik. Cache key-value untuk model transformer bertahan antar request, memerlukan storage berkecepatan tinggi 100GB-1TB per node inference. Redis atau Apache Ignite menyediakan caching terdistribusi untuk konteks bersama di seluruh server inference.
Versioning dataset dan pelacakan lineage mendukung reprodusibilitas training. Data Version Control (DVC) atau Delta Lake melacak modifikasi dataset dari waktu ke waktu. Metadata store mencatat versi dataset yang tepat digunakan untuk setiap training run. Feature store seperti Tecton atau Feast menyediakan fitur konsisten antara training dan inference. Sistem ini mencegah training-serving skew yang menurunkan performa model.
Strategi tiering storage berbeda berdasarkan pola akses. Dataset training bermigrasi melalui tier NVMe → SSD → HDD → Glacier berdasarkan frekuensi akses. Dataset hot tetap pada NVMe menyediakan 7GB/s per drive. Storage inference mempertahankan model pada NVMe tanpa batas waktu karena akses konstan. Data logging dan metrik mengikuti pola tiering tradisional independen dari beban kerja AI.
Strategi dan Pola Scaling
Horizontal scaling untuk training memerlukan pertimbangan cermat overhead komunikasi. Weak scaling mempertahankan ukuran batch konstan per GPU, meningkatkan ukuran batch global dengan ukuran cluster. Strong scaling membagi ukuran batch global tetap ke lebih banyak GPU, meningkatkan time-to-train tetapi mengurangi efisiensi. Linear scaling mencapai efisiensi 90% hingga 512 GPU untuk sebagian besar model. Di luar titik ini, overhead komunikasi mendominasi, mengurangi efisiensi di bawah 70%.
Model parallelism memungkinkan training model yang melebihi kapasitas memori GPU tunggal. Pipeline parallelism membagi model ke seluruh GPU berdasarkan layer, mencapai efisiensi 80% dengan scheduling yang cermat. Tensor parallelism membagi layer individual ke seluruh GPU, memerlukan interkoneksi bandwidth tinggi. Expert parallelism untuk model Mixture-of-Experts menskalakan hingga ribuan GPU. Teknik ini bergabung dalam strategi 3D parallelism, dengan GPT-4 menggunakan ketiga dimensi di 25.000 GPU.
Scaling inference mengikuti pola yang didorong request. Horizontal pod autoscaling di Kubernetes merespons metrik CPU, memori, atau custom. Keputusan scaling mempertimbangkan penalti cold start 10-30 detik untuk loading model. Predictive autoscaling menggunakan pola historis memprovisi kapasitas di muka untuk permintaan yang diantisipasi. Integrasi spot instance mengurangi biaya sebesar 60% untuk beban kerja inference yang toleran terhadap kesalahan.
Strategi distribusi geografis berbeda secara fundamental. Cluster training terpusat di lokasi tunggal
[Konten dipotong untuk terjemahan]