Optimisation des performances GPU : Maximiser le débit pour l'entraînement et l'inférence des LLM
L'entraînement FP8 est désormais prêt pour la production sur H100/H200 et Blackwell, offrant un débit 2x supérieur au FP16 avec une précision équivalente. Flash Attention 3 optimisé pour l'architecture Hopper atteint une accélération de 1,5-2x...
None