Оптимізація обслуговування моделей: квантизація, прунінг та дистиляція для інференсу
FP8 інференс тепер є виробничим стандартом на H100/H200, а INT4 (AWQ, GPTQ, GGUF) дозволяє запускати 70B моделі на споживчих GPU. Спекулятивне декодування забезпечує 2-3x приріст пропускної здатності для авторегресивної генерації....
None