स्पेक्युलेटिव डिकोडिंग: LLM इनफरेंस में 2-3x स्पीडअप प्राप्त करना
स्पेक्युलेटिव डिकोडिंग रिसर्च से प्रोडक्शन स्टैंडर्ड बनने की ओर अग्रसर। NVIDIA ने H200 GPUs पर 3.6x थ्रूपुट सुधार प्रदर्शित किया। vLLM और TensorRT-LLM में नेटिव सपोर्ट शामिल। ड्राफ्ट मॉडल 5-8 टोकन प्र...