Decodificação Especulativa: Alcançando Aceleração de 2-3x na Inferência de LLMs
A decodificação especulativa está amadurecendo de pesquisa para padrão de produção. A NVIDIA demonstra melhorias de throughput de 3,6x em GPUs H200. vLLM e TensorRT-LLM incluem suporte nativo. Modelos...