Optimisasi Model Serving: Kuantisasi, Pruning, dan Distilasi untuk Inferensi
Inferensi FP8 kini menjadi standar produksi pada H100/H200, dengan INT4 (AWQ, GPTQ, GGUF) memungkinkan model 70B berjalan pada GPU konsumer. Speculative decoding memberikan throughput 2-3x untuk generasi autoregresif....
None