GPU 性能调优：最大化 LLM 训练和推理吞吐量

FP8 训练现已在 H100/H200 和 Blackwell 上投入生产，在保持同等精度的同时实现了比 FP16 高 2 倍的吞吐量。针对 Hopper 架构优化的 Flash Attention 3 实现了 1.5-2 倍的加速。vLLM 0.6+ 和 TensorRT-LLM 通过连续批处理和推测解码实现了 3-5 倍的推理吞吐量提升...

Blake Crosley

Mar 03, 2026 2 min read Disclaimer

GPU 性能调优：最大化 LLM 训练和推理吞吐量

更新于 2025 年 12 月 8 日

2025 年 12 月更新： FP8 训练现已在 H100/H200 和 Blackwell 上投入生产，在保持同等精度的同时实现了比 FP16 高 2 倍的吞吐量。针对 Hopper 架构优化的 Flash Attention 3 实现了 1.5-2 倍的加速。vLLM 0.6+ 和 TensorRT-LLM 通过连续批处理和推测解码实现了 3-5 倍的推理吞吐量提升。torch.compile 配合 Triton 后端现已成为 PyTorch 2.4+ 的默认配置。NVIDIA NeMo Framework 2.0 提供端到端优化的训练流水线。

一个完美配置的 8-GPU 节点可达到 98% 的理论 FLOPS，而配置不当的相同系统仅能达到 43%，每年浪费 38 万美元在未充分利用的硬件上。¹ MLPerf 基准测试显示，顶级参与者从相同的 H100 GPU 中提取的吞吐量比中位数高 2.3 倍，这完全归因于软件优化而非硬件优势。² 理论性能与实际性能之间的差距困扰着每个 AI 团队，一个错误配置的参数可能使训练时间翻倍或推理成本增加两倍。掌握 GPU 性能调优的组织能够比使用默认配置的竞争对手快 60% 完成模型训练，并以低 40% 的每 token 成本提供推理服务。

NVIDIA 的优化指南涵盖了不同框架、内核和配置，共计 1,200 页，但由于复杂性和时间限制，大多数团队实施的可用优化不到 20%。³ 一个典型的 LLM 训练运行涉及超过 300 个可调参数，影响内存分配、内核调度、通信模式和数值精度。每个参数以非线性方式相互作用：增加批量大小可提高 GPU 利用率，但可能触发内存不足错误或降低收敛性。优化空间变得如此庞大，以至于穷举搜索不可行，需要在性能提升和工程投入之间取得平衡的系统方法。

内存带宽瓶颈限制 LLM 性能

现代 LLM 在达到计算极限之前就已遇到内存瓶颈。H100 的 3.35TB/s 内存带宽服务于 1,979 TFLOPS 的计算能力，形成 591:1 的计算与内存比。⁴ LLM 推理每生成一个 token 都需要重复读取模型权重，使内存带宽成为约束瓶颈。一个 700 亿参数的模型在 FP16 精度下仅权重就需要 140GB，几乎耗尽整个 H100 内存，为激活值和 KV 缓存留下极少空间。

内存优化从理解访问模式开始。顺序读取可达到理论带宽的 95%，而随机访问下降到 15%。LLM 呈现混合模式：权重读取保持顺序，但注意力机制对键值缓存产生不规则访问。优化内存布局可显著提高吞吐量。行优先与列优先存储在某些操作中可使内存访问效率相差 4 倍。将张量填充对齐到 128 字节边界可将带宽利用率从 72% 提升到 91%。⁵

Flash Attention 通过融合操作和减少 HBM 访问彻底改变了内存效率。标准注意力机制将中间矩阵写入 HBM，为临时数据消耗带宽。Flash Attention 在 SRAM 分块中计算注意力，将内存流量减少 10-20 倍。⁶ 该优化为 GPT-3 等模型实现了 4 倍更长的上下文长度和 2.4 倍更快的训练速度。实现需要根据 GPU 架构仔细选择分块大小：由于 SRAM 容量增加，H100 的最优分块大小与 A100 不同。

批量大小优化平衡吞吐量和收敛性

更大的批量可提高 GPU 利用率，但会对模型收敛产生不可预测的影响。每个 GPU 在由 Tensor Core 维度决定的特定批量大小倍数下运行效率最高。H100 Tensor Core 以 16x16 矩阵分块处理 FP16 操作，使可被 16 整除的批量大小达到最优。⁷ 批量大小 127 仅达到 61% 的利用率，而批量大小 128 可达到 94%。这种显著差异源于硬件调度与 2 的幂次维度完美对齐。

梯度累积使大有效批量大小在不超出内存限制的情况下成为可能。使用批量大小 2048 进行训练可能超出内存，但在 32 个批量大小为 64 的步骤中累积梯度可实现等效结果。该技术在保持数学等价性的同时适应内存限制。由于梯度同步频率降低，通信开销略有增加。智能实现将梯度计算与通信重叠，完全隐藏延迟。

动态批量大小适应 LLM 训练中变化的序列长度。当序列长度变化时，固定批量大小会在填充 token 上浪费计算。动态批处理高效打包序列，将吞吐量提高 20-35%。⁸ 由于内存分配变得不可预测，实现复杂度增加。带池化的预分配策略在保持性能的同时防止碎片化。

混合精度训练在不损失精度的情况下加速

与 FP32 相比，FP16 训练将吞吐量翻倍，同时通过仔细的数值管理维持模型质量。Tensor Core 在 H100 GPU 上 FP32 可达到 312 TFLOPS，而 FP16 可达到 989 TFLOPS。⁹ 3.2 倍的计算优势结合 2 倍的内存节省，支持更大的模型或批量大小。自动混合精度（AMP）框架透明地处理精度管理，但理解内部机制可实现更好的优化。

损失缩放防止 FP16 训练中的梯度下溢。梯度经常低于 FP16 可表示的最小值（5.96e-8），表现为零并停止学习。¹⁰ 将损失乘以 2^16 可将梯度移入 FP16 的可表示范围。动态损失缩放根据梯度统计调整乘数，防止下溢和溢出。最优缩放因子因模型架构和数据集而异。

FP32 主权重副本在以 FP16 计算时保持更新精度。对大权重的小梯度更新在 FP16 算术中会消失。以 FP32 维护权重可精确累积更新。开销增加了权重 50% 的内存，但计算成本可忽略不计。高级实现使用随机舍入注入适当噪声，在某些情况下改善收敛。

内核融合消除内存瓶颈

单独启动的 GPU 内核会为中间结果产生内存流量。一个简单的层归一化涉及均值、方差、减法、除法和缩放的单独内核。每个内核从 HBM 读取并写入，消耗 5 倍的必要带宽。融合内核在寄存器和共享内存中计算整个操作，仅在输入和输出时访问 HBM。

自定义内核针对特定模型架构进行优化。标准 GEMM 内核处理通用矩阵乘法，但错过了 transformer 块中的优化机会。针对注意力、前馈网络和层归一化的专用内核将吞吐量提高 30-50%。¹¹ 开发需要 CUDA 专业知识和特定架构调优。Apex 和 TransformerEngine 等库为常见操作提供优化内核。

编译框架通过图优化自动实现内核融合。PyTorch 的 torch.compile 分析计算图并自动生成融合内核。¹² XLA 同样优化 TensorFlow 和 JAX 模型。编译开销在长训练运行中摊销。初始编译需要几分钟，但后续迭代运行快 20-40%。配置文件引导优化通过针对观察到的输入形状进行专门化，进一步提高性能。

分布式训练的通信优化

多 GPU 训练需要仔细优化通信模式。NCCL（NVIDIA 集合通信库）提供优化的原语，但需要正确配置。环形 allreduce 理论上实现带宽最优通信，但实际实现受同步开销影响。树算法减少小消息的延迟，而环算法最大化大传输的吞吐量。

网络拓扑感知显著提高通信效率。通过 NVLink 连接的 GPU 实现 900GB/s 双向带宽，而 PCIe 限制在 64GB/s。¹³ 将频繁通信的 GPU 放置在 NVLink 连接的节点上的策略可将通信时间减少 5 倍。分层 allreduce 在通过 InfiniBand 进行节点间通信之前，先通过 NVLink 执行本地归约。

梯度压缩以最小的精度代价减少通信量。仅传输 top-k 梯度或量化为 INT8 可将流量减少 100-1000 倍。¹⁴ 误差反馈机制将截断的梯度累积用于后续迭代。压缩比取决于模型稀疏性和梯度分布。自适应方案根据训练阶段调整压缩，在关键收敛期间使用较少压缩。

Introl 的性能工程团队已在我们的全球服务区域优化了超过 10,000 个 GPU 部署，始终为 LLM 工作负载实现理论性能的 85-95%。¹⁵ 我们的优化手册将部署时间缩短 40%，同时确保从第一天起就最大化硬件利用率。

推理特定优化

推理优化与训练优化有本质区别。对于面向用户的应用，延迟比吞吐量更重要。内存带宽成为瓶颈而非计算。服务成本主导总费用，使效率至关重要。

键值缓存管理决定推理效率。每次 token 生成都会读取整个 KV 缓存，消耗与序列长度成比例的内存带宽。PagedAttention 虚拟化 KV 缓存内存，将浪费从 60% 降至 5% 以下。¹⁶ 该技术为长序列实现 4 倍更高的吞吐量。实现需要仔细的内存池管理和请求调度。

量化减少模型大小和带宽需求。INT8 量化将内存使用减半，同时对大多数模型保持 FP16 99% 的精度。¹⁷ INT4 实现 4 倍压缩，保留 97% 的精度。量化感知训练产生对降低精度具有鲁棒性的模型。训练后量化对许多模型有效，但需要选择校准数据集。

连续批处理通过在有容量时立即启动新请求来最大化推理吞吐量。静态批处理等待所有请求完成后才启动新请求，在短序列上浪费资源。连续批处理将可变长度请求的吞吐量提高 2.5 倍。¹⁸ 由于动态内存管理和调度要求，实现复杂度增加。

实际优化结果

案例研究 1：金融服务 LLM 训练 - 模型：700 亿参数自定义架构 - 硬件：64x H100 GPU - 基线：847 tokens/秒/GPU - 优化：Flash Attention、混合精度、梯度累积 - 结果：1,923 tokens/秒/GPU（2.27 倍提升） - 训练时间从 18 天缩短到 8 天 - 成本节省：每次训练运行 24 万美元

案例研究 2：医疗推理系统 - 模型：130 亿参数医疗助手 - 硬件：8x A100 GPU - 基线：142ms/token 延迟，820 tokens/秒吞吐量 - 优化：PagedAttention、INT8 量化、连续批处理 - 结果：47ms 延迟，2,140 tokens/秒（2.6 倍吞吐量） - 每百万 token 成本：$0.73 → $0.28

案例研究 3：电商推荐引擎 - 模型：1750 亿参数 MoE 模型 - 硬件：128x H100 GPU - 基线：43% MFU（模型 FLOPS 利用率） - 优化：专家并行、内核融合、拓扑感知放置 - 结果：71% MFU（1.65 倍提升） - 实

[内容因翻译需要被截断]

GPU 性能调优：最大化 LLM 训练和推理吞吐量

内存带宽瓶颈限制 LLM 性能

批量大小优化平衡吞吐量和收敛性

混合精度训练在不损失精度的情况下加速

内核融合消除内存瓶颈

分布式训练的通信优化

推理特定优化

实际优化结果

You Might Also Like

MLOps基础设施：模型训练与部署的CI/CD流水线

保护AI基础设施：GPU部署的零信任架构

Claude Code CLI：权威技术参考指南

申请报价_

请求已收到_