GPU-Performance-Tuning: Maximierung des Durchsatzes für LLM-Training und Inferenz
FP8-Training ist jetzt produktionsreif auf H100/H200 und Blackwell und liefert 2x höheren Durchsatz gegenüber FP16 bei gleichwertiger Genauigkeit. Flash Attention 3, optimiert für die Hopper-Architektur, erreicht 1,5-2x...
None