การปรับแต่งประสิทธิภาพ GPU: การเพิ่ม Throughput สูงสุดสำหรับการฝึกและ Inference ของ LLM
การฝึก FP8 พร้อมใช้งานจริงแล้วบน H100/H200 และ Blackwell ให้ throughput 2 เท่าเมื่อเทียบกับ FP16 โดยมีความแม่นยำเทียบเท่ากัน Flash Attention 3 ที่ปรับแต่งสำหรับสถาปัตยกรรม Hopper ให้ความเร็วเพิ่มขึ้น 1.5-2 เท่า...
None