การเพิ่มประสิทธิภาพการให้บริการโมเดล: Quantization, Pruning และ Distillation สำหรับ Inference
FP8 inference กลายเป็นมาตรฐานการใช้งานจริงบน H100/H200 โดย INT4 (AWQ, GPTQ, GGUF) ทำให้สามารถรันโมเดล 70B บน GPU สำหรับผู้บริโภคได้ Speculative decoding ให้ throughput เพิ่มขึ้น 2-3 เท่าสำหรับการสร้างข้อมูลแบบ autoregressive....
None