Optimisation du déploiement de modèles : Quantification, élagage et distillation pour l'inférence
L'inférence FP8 est désormais standard en production sur H100/H200, tandis que l'INT4 (AWQ, GPTQ, GGUF) permet d'exécuter des modèles 70B sur des GPU grand public. Le décodage spéculatif offre un débit 2-3x supérieur pour la génération autorégressive....
None