Speculative Decoding: 2-3x Snelheidsverbetering voor LLM-Inferentie
Speculative decoding evolueert van onderzoek naar productiestandaard. NVIDIA demonstreert 3,6x doorvoerverbeteringen op H200 GPU's. vLLM en TensorRT-LLM bieden native ondersteuning. Draft models stell...