Speculative Decoding: Mencapai Percepatan Inferensi LLM 2-3x
Speculative decoding berkembang dari riset menjadi standar produksi. NVIDIA mendemonstrasikan peningkatan throughput 3,6x pada GPU H200. vLLM dan TensorRT-LLM menyertakan dukungan native. Draft model ...