Decodificación Especulativa: Logrando una Aceleración de 2-3x en Inferencia de LLM
La decodificación especulativa está madurando de investigación a estándar de producción. NVIDIA demuestra mejoras de rendimiento de 3.6x en GPUs H200. vLLM y TensorRT-LLM incluyen soporte nativo. Los ...