Optimización del Servicio de Modelos: Cuantización, Poda y Destilación para Inferencia
La inferencia FP8 es ahora estándar en producción en H100/H200, con INT4 (AWQ, GPTQ, GGUF) permitiendo modelos de 70B en GPUs de consumo. La decodificación especulativa ofrece 2-3x de rendimiento para generación autorregresiva....
None