Speculative Decoding: 2-3-fache LLM-Inferenzbeschleunigung erreichen
Speculative Decoding reift vom Forschungsthema zum Produktionsstandard. NVIDIA demonstriert 3,6-fache Durchsatzverbesserungen auf H200-GPUs. vLLM und TensorRT-LLM bieten native Unterstützung. Draft-Mo...