Speculative Decoding: Đạt Tốc Độ Suy Luận LLM Nhanh Hơn 2-3 Lần
Speculative decoding đang trưởng thành từ nghiên cứu thành tiêu chuẩn sản xuất. NVIDIA chứng minh cải thiện thông lượng 3.6x trên GPU H200. vLLM và TensorRT-LLM tích hợp hỗ trợ native. Draft model đề ...