模型服务优化:推理场景下的量化、剪枝与蒸馏技术
FP8 推理现已成为 H100/H200 的生产标准,INT4(AWQ、GPTQ、GGUF)使 70B 模型能够在消费级 GPU 上运行。推测解码为自回归生成带来 2-3 倍的吞吐量提升……
None
FP8 推理现已成为 H100/H200 的生产标准,INT4(AWQ、GPTQ、GGUF)使 70B 模型能够在消费级 GPU 上运行。推测解码为自回归生成带来 2-3 倍的吞吐量提升……
Tell us about your project and we'll respond within 72 hours.
Thank you for your inquiry. Our team will review your request and respond within 72 hours.