Optimierung des Modell-Servings: Quantisierung, Pruning und Destillation für Inferenz
FP8-Inferenz ist jetzt Produktionsstandard auf H100/H200, wobei INT4 (AWQ, GPTQ, GGUF) 70B-Modelle auf Consumer-GPUs ermöglicht. Speculative Decoding liefert 2-3x Durchsatz für autoregressive Generierung....
None