Otimização de Serviço de Modelos: Quantização, Poda e Destilação para Inferência
Inferência FP8 agora é padrão de produção em H100/H200, com INT4 (AWQ, GPTQ, GGUF) permitindo modelos de 70B em GPUs de consumidor. Decodificação especulativa entregando 2-3x de throughput para geração autorregressiva....
None