Décodage spéculatif : Obtenir une accélération de 2 à 3x pour l'inférence LLM
Le décodage spéculatif passe du stade de la recherche à celui de standard de production. NVIDIA démontre des améliorations de débit de 3,6x sur les GPU H200. vLLM et TensorRT-LLM incluent un support n...