Penyetelan Performa GPU: Memaksimalkan Throughput untuk Pelatihan dan Inferensi LLM
Pelatihan FP8 kini siap produksi pada H100/H200 dan Blackwell, memberikan throughput 2x lipat dibanding FP16 dengan akurasi setara. Flash Attention 3 dioptimalkan untuk arsitektur Hopper mencapai percepatan 1,5-2x...
None