GPU Performance Tuning: Maximaliseren van Doorvoer voor LLM Training en Inferentie
FP8-training is nu productieklaar op H100/H200 en Blackwell, met 2x doorvoer ten opzichte van FP16 bij gelijkwaardige nauwkeurigheid. Flash Attention 3 geoptimaliseerd voor Hopper-architectuur behaalt 1,5-2x...
None