GPUパフォーマンスチューニング:LLMのトレーニングと推論におけるスループット最大化
FP8トレーニングがH100/H200およびBlackwellで本番環境対応となり、FP16と同等の精度で2倍のスループットを実現。Hopperアーキテクチャ向けに最適化されたFlash Attention 3が1.5〜2倍の高速化を達成...
None
FP8トレーニングがH100/H200およびBlackwellで本番環境対応となり、FP16と同等の精度で2倍のスループットを実現。Hopperアーキテクチャ向けに最適化されたFlash Attention 3が1.5〜2倍の高速化を達成...
Tell us about your project and we'll respond within 72 hours.
Thank you for your inquiry. Our team will review your request and respond within 72 hours.