モデルサービング最適化:推論のための量子化、プルーニング、蒸留
FP8推論がH100/H200で本番標準となり、INT4(AWQ、GPTQ、GGUF)によりコンシューマー向けGPUで70Bモデルの実行が可能に。投機的デコーディングが自己回帰生成で2〜3倍のスループットを実現....
None
FP8推論がH100/H200で本番標準となり、INT4(AWQ、GPTQ、GGUF)によりコンシューマー向けGPUで70Bモデルの実行が可能に。投機的デコーディングが自己回帰生成で2〜3倍のスループットを実現....
Tell us about your project and we'll respond within 72 hours.
Thank you for your inquiry. Our team will review your request and respond within 72 hours.