Optimisasi Model Serving: Kuantisasi, Pruning, dan Distilasi untuk Inferensi

Inferensi FP8 kini menjadi standar produksi pada H100/H200, dengan INT4 (AWQ, GPTQ, GGUF) memungkinkan model 70B berjalan pada GPU konsumer. Speculative decoding memberikan throughput 2-3x untuk generasi autoregresif....

Optimisasi Model Serving: Kuantisasi, Pruning, dan Distilasi untuk Inferensi

Optimisasi Model Serving: Kuantisasi, Pruning, dan Distilasi untuk Inferensi

Diperbarui 8 Desember 2025

Update Desember 2025: Inferensi FP8 kini menjadi standar produksi pada H100/H200, dengan INT4 (AWQ, GPTQ, GGUF) memungkinkan model 70B berjalan pada GPU konsumer. Speculative decoding memberikan throughput 2-3x untuk generasi autoregresif. vLLM dan TensorRT-LLM mencapai efisiensi inferensi 5x melalui continuous batching. Ekosistem Llama.cpp memungkinkan inferensi CPU untuk model yang lebih kecil. Model Mixture-of-Experts (Mixtral, DBRX) mengubah ekonomi distilasi—8x7B mencapai kualitas mendekati 70B dengan sebagian kecil komputasi.

Satu permintaan inferensi GPT-3 membutuhkan biaya $0,06 pada presisi penuh tetapi turun menjadi $0,015 setelah optimisasi, pengurangan 75% yang mengubah ekonomi AI dalam skala besar. Teknik optimisasi model serving termasuk kuantisasi, pruning, dan distilasi mengurangi kebutuhan infrastruktur hingga 90% sambil mempertahankan akurasi yang dapat diterima. Teknik-teknik ini menentukan apakah aplikasi AI mencapai profitabilitas atau menguras sumber daya melalui biaya komputasi yang tidak berkelanjutan. Panduan ini membahas strategi implementasi praktis yang diterapkan tim produksi untuk melayani miliaran permintaan inferensi harian secara ekonomis.

Fundamental Kuantisasi dan Implementasi

Kuantisasi mengurangi presisi numerik dari floating-point 32-bit menjadi integer 8-bit, menyusutkan ukuran model sebesar 75% dan mempercepat inferensi 2-4x. Proses ini memetakan nilai floating-point kontinu ke representasi integer diskrit, menukar kehilangan akurasi minimal dengan peningkatan performa substansial. Framework modern mengotomatisasi alur kerja kuantisasi, tetapi memahami mekanisme dasar memungkinkan konfigurasi optimal untuk kasus penggunaan spesifik.

Post-training quantization (PTQ) mengkonversi model yang sudah dilatih tanpa pelatihan ulang, selesai dalam hitungan menit bukan hari. Proses ini mengumpulkan statistik aktivasi menggunakan data kalibrasi representatif, menentukan faktor skala optimal untuk kuantisasi bobot dan aktivasi. TensorRT dari NVIDIA mencapai kuantisasi INT8 dengan degradasi akurasi kurang dari 1% untuk ResNet-50, sambil mengurangi latensi sebesar 71%. Edge TPU Google memerlukan kuantisasi INT8, menjadikan PTQ esensial untuk skenario deployment edge.

Quantization-aware training (QAT) mensimulasikan kuantisasi selama pelatihan, memungkinkan jaringan beradaptasi dengan presisi yang dikurangi. Node kuantisasi palsu yang disisipkan selama forward pass memodelkan efek kuantisasi sambil mempertahankan gradien floating-point untuk backpropagation. Pendekatan ini memulihkan akurasi yang hilang selama PTQ, mencapai performa mendekati floating-point dengan inferensi integer. Implementasi QAT Meta untuk model rekomendasi mempertahankan 99,5% akurasi FP32 sambil memungkinkan peningkatan throughput 3,5x pada server inferensi produksi.

Dynamic quantization mengkuantisasi bobot secara statis tetapi menghitung skala aktivasi secara dinamis per batch, menyeimbangkan performa dan akurasi. Dynamic quantization PyTorch mengurangi ukuran model BERT sebesar 75% dengan peningkatan kecepatan 2x dan kehilangan akurasi yang dapat diabaikan. Teknik ini unggul untuk model dengan distribusi input yang bervariasi di mana kalibrasi statis terbukti tidak memadai. Library Optimum dari Hugging Face mengimplementasikan dynamic quantization untuk model transformer, mencapai pengurangan latensi 40% untuk tugas question-answering.

Strategi mixed precision menerapkan level kuantisasi berbeda pada layer berdasarkan analisis sensitivitas. Layer kritis mempertahankan presisi FP16 sementara layer yang toleran menggunakan INT8 atau bahkan INT4. Neural Engine Apple mengimplementasikan kuantisasi per-channel dengan bobot 4-bit dan aktivasi 8-bit, mencapai pengurangan ukuran 85% untuk model on-device. Alat analisis sensitivitas mengidentifikasi layer di mana kuantisasi agresif menyebabkan degradasi akurasi, memandu alokasi presisi untuk trade-off performa-akurasi yang optimal.

Strategi Pruning untuk Kompresi Model

Structured pruning menghapus seluruh channel, filter, atau attention head, menciptakan model padat yang lebih kecil dan kompatibel dengan hardware standar. Pendekatan ini mengidentifikasi struktur yang paling tidak penting melalui kriteria magnitude, gradien, atau orde kedua, menghapusnya sambil mempertahankan konektivitas model. ASP (Automatic Sparsity) dari NVIDIA mencapai structured sparsity 2:4, di mana dua dari setiap empat bobot adalah nol, memungkinkan throughput 2x pada GPU A100 tanpa kernel khusus.

Magnitude pruning menghilangkan bobot di bawah nilai threshold, menciptakan matriks sparse yang memerlukan mesin eksekusi khusus. Iterative pruning secara bertahap meningkatkan sparsity selama pelatihan, memungkinkan jaringan beradaptasi dengan penghapusan koneksi. Penelitian Google menunjukkan sparsity 90% untuk BERT dengan kehilangan akurasi minimal, mengurangi ukuran model dari 420MB menjadi 42MB. Namun, perkalian matriks sparse memerlukan library khusus seperti cuSPARSE, membatasi fleksibilitas deployment.

Lottery ticket hypothesis memandu pruning dengan mengidentifikasi subjaringan sparse yang dapat dilatih hingga akurasi penuh dari inisialisasi acak. "Tiket kemenangan" ini mempertahankan performa model asli pada 10-20% ukuran asli. Penelitian MIT mengungkapkan tiket kemenangan dapat ditransfer antar dataset, memungkinkan arsitektur yang sudah di-prune untuk domain spesifik. Pendekatan ini memerlukan beberapa iterasi pelatihan tetapi menghasilkan jaringan sparse yang superior dibandingkan pruning pasca-pelatihan.

Channel pruning menargetkan convolutional neural network, menghapus seluruh filter berdasarkan skor kepentingan. Ekspansi Taylor memperkirakan dampak akurasi dari penghapusan channel, memandu keputusan pruning. MobileNetV3 yang di-prune 30% mempertahankan akurasi ImageNet sambil mengurangi latensi 25% pada perangkat mobile. Alat pruning otomatis seperti Neural Network Intelligence (NNI) mengimplementasikan channel pruning dengan pencarian arsitektur, menemukan konfigurasi optimal tanpa intervensi manual.

Attention head pruning secara khusus menargetkan arsitektur transformer, menghapus self-attention head yang redundan. Analisis mengungkapkan banyak head mempelajari pola serupa, memungkinkan penghapusan tanpa kehilangan fungsionalitas. DynaBeRT dari Microsoft memangkas 75% attention head di BERT-base sambil mempertahankan 97% akurasi asli. Teknik ini dikombinasikan dengan layer dropping, menciptakan model adaptif yang menyesuaikan kompleksitas berdasarkan kesulitan input.

Teknik Knowledge Distillation

Knowledge distillation mentransfer pengetahuan dari model teacher besar ke model student yang ringkas, mencapai pengurangan ukuran 10-100x. Student belajar meniru perilaku teacher daripada hanya mencocokkan label ground truth, menangkap batasan keputusan yang bernuansa. Distilasi GPT-3 oleh OpenAI ke model yang lebih kecil menggerakkan tier gratis ChatGPT, mengurangi biaya serving sebesar 85% sambil mempertahankan kualitas percakapan.

Temperature scaling dalam distilasi melunakkan distribusi probabilitas, mengungkapkan dark knowledge dalam prediksi teacher. Temperature yang lebih tinggi mengekspos hubungan antar kelas yang disembunyikan oleh label one-hot. DistilBERT dari Google mencapai 97% performa BERT dengan 40% lebih sedikit parameter dan inferensi 60% lebih cepat. Arsitektur student biasanya mencerminkan struktur teacher pada skala yang dikurangi, meskipun distilasi heterogen memungkinkan transfer pengetahuan lintas-arsitektur.

Feature distillation mencocokkan representasi intermediate di luar prediksi akhir, mentransfer fitur yang dipelajari secara langsung. Student belajar mereproduksi aktivasi teacher pada beberapa layer, menangkap pengetahuan hierarkis. DeiT (Data-efficient Image Transformers) dari Facebook mendistilasi vision transformer dari CNN, mencapai akurasi ImageNet dengan iterasi pelatihan 5x lebih sedikit. Distilasi multi-layer terbukti sangat efektif untuk jaringan dalam di mana output akhir memberikan sinyal pembelajaran yang tidak memadai.

Online distillation melatih student dan teacher secara bersamaan, menghilangkan fase pelatihan teacher terpisah. Collaborative learning antara beberapa student menciptakan teacher ensemble implisit tanpa model besar eksplisit. Online distillation Baidu untuk speech recognition mengurangi waktu pelatihan 40% sambil meningkatkan akurasi student 2%. Pendekatan ini cocok untuk skenario di mana model teacher tidak ada atau persyaratan continuous learning mencegah teacher statis.

Progressive distillation secara bertahap mentransfer pengetahuan melalui model intermediate, menjembatani kesenjangan teacher-student yang besar. Rantai distilasi sekuensial menciptakan batu loncatan dari teacher 175B parameter ke student 1B parameter. Pelatihan constitutional AI dari Anthropic menggunakan progressive distillation untuk mempertahankan properti alignment sambil mengurangi ukuran model 50x. Setiap langkah distilasi berfokus pada kemampuan spesifik, mempertahankan perilaku kritis sambil menyederhanakan yang lain.

Optimisasi Spesifik Hardware

Optimisasi TensorRT untuk GPU NVIDIA menggabungkan layer fusion, kernel auto-tuning, dan kalibrasi presisi. Compiler menggabungkan operasi sekuensial menjadi kernel tunggal, mengurangi lalu lintas memori dan overhead peluncuran kernel. Urutan convolution-ReLU-pooling digabungkan menjadi operasi monolitik, meningkatkan throughput 30%. Optimisasi yang dipandu profil memilih kernel optimal untuk bentuk input spesifik, mencapai speedup 5x untuk inferensi BERT pada GPU T4.

Intel OpenVINO menargetkan CPU x86 dengan vektorisasi dan optimisasi cache untuk inferensi tanpa GPU. Toolkit ini mengimplementasikan kuantisasi INT8 dengan instruksi VNNI pada prosesor Ice Lake, mencapai peningkatan throughput 4x. Optimisasi graf menghapus operasi redundan dan melipat konstanta, mengurangi komputasi 20%. Amazon men-deploy OpenVINO untuk inferensi CPU mencapai $0,002 per seribu inferensi, 90% lebih murah daripada serving GPU untuk model kecil.

Apple Core ML mengoptimasi untuk Neural Engine dan Metal Performance Shaders di seluruh perangkat iOS. Framework ini mengimplementasikan jalur float 16-bit dan integer 8-bit yang dioptimasi untuk Apple Silicon. Kompilasi on-device mengadaptasi model ke kemampuan hardware spesifik, memilih presisi optimal dan strategi eksekusi. iPhone 15 Pro mencapai 35 TOPS memungkinkan inferensi Stable Diffusion real-time melalui optimisasi Core ML.

Kompilasi Edge TPU memerlukan batasan arsitektur spesifik dan pendekatan kuantisasi. Model harus menggunakan TensorFlow Lite dengan kuantisasi INT8 dan operasi yang didukung. Compiler mempartisi model antara Edge TPU dan CPU berdasarkan kompatibilitas operasi. Edge TPU Google mencapai 4 TOPS pada konsumsi daya 2W, memungkinkan analisis video real-time pada perangkat embedded. Coral Dev Board menjalankan MobileNet pada 400 FPS hanya mengonsumsi total daya sistem 2,5W.

Optimisasi AMD ROCm memanfaatkan library MIOpen dan graph fusion untuk akselerator seri MI. Framework ini mengimplementasikan kernel FlashAttention yang mengurangi kebutuhan bandwidth memori 50% untuk model transformer. Library composable kernel memungkinkan pola fusi kustom spesifik untuk arsitektur AMD. Deployment Stability AI pada MI250X mencapai 80% performa NVIDIA A100 dengan biaya 60% melalui optimisasi ROCm.

Integrasi Pipeline Optimisasi

Pipeline optimisasi end-to-end menggabungkan beberapa teknik untuk kompresi dan akselerasi maksimum. Framework DeepSpeed Compression dari Microsoft mengorkestrasikan pruning, kuantisasi, dan distilasi dalam alur kerja terpadu. Sistem ini mencapai kompresi model 10x dengan pengurangan latensi 3x untuk model GPT. Pencarian hyperparameter otomatis mengidentifikasi konfigurasi kompresi optimal yang menyeimbangkan berbagai tujuan.

Framework A/B testing mengevaluasi dampak optimisasi pada metrik bisnis di luar akurasi. Netflix melacak metrik engagement saat men-deploy model rekomendasi yang dioptimasi, memastikan kompresi tidak mengurangi kepuasan pengguna. Strategi rollout bertahap menguji model yang dioptimasi pada segmen pengguna kecil sebelum deployment penuh. Dashboard metrik membandingkan model yang dioptimasi dan baseline di seluruh dimensi latensi, biaya, dan kualitas. Platform Michelangelo dari Uber secara otomatis mengembalikan optimisasi yang mendegradasi KPI bisnis melampaui threshold.

Optimisasi berkelanjutan mengadaptasi model terhadap perubahan persyaratan dan kemampuan hardware. Pipeline pelatihan ulang otomatis menggabungkan teknik optimisasi baru saat muncul. ONNX Runtime dari Facebook secara otomatis menerapkan teknik optimisasi baru saat tersedia.

Minta Penawaran_

Ceritakan tentang proyek Anda dan kami akan merespons dalam 72 jam.

> TRANSMISSION_COMPLETE

Permintaan Diterima_

Terima kasih atas pertanyaan Anda. Tim kami akan meninjau permintaan Anda dan merespons dalam 72 jam.

QUEUED FOR PROCESSING