ضبط أداء وحدات معالجة الرسومات: تعظيم الإنتاجية لتدريب واستدلال نماذج اللغة الكبيرة
أصبح تدريب FP8 جاهزًا للإنتاج على H100/H200 وBlackwell، محققًا ضعف الإنتاجية مقارنة بـ FP16 بدقة مكافئة. Flash Attention 3 المُحسَّن لمعمارية Hopper يحقق تسريعًا بمقدار 1.5-2 ضعف...
None