Speculative Decoding: เร่งความเร็ว LLM Inference ได้ 2-3 เท่า
Speculative decoding พัฒนาจากงานวิจัยสู่มาตรฐานการผลิตจริง NVIDIA แสดงให้เห็นการปรับปรุง throughput 3.6 เท่าบน GPU H200 vLLM และ TensorRT-LLM รองรับ native support โดย Draft models เสนอ 5-8 tokens ที่...