Спекулятивне декодування: досягнення прискорення інференсу LLM у 2-3 рази
Спекулятивне декодування переходить від дослідницької стадії до виробничого стандарту. NVIDIA демонструє покращення пропускної здатності у 3,6 рази на GPU H200. vLLM та TensorRT-LLM включають нативну ...