AMD MI350与GPU竞争格局
更新于2025年12月11日
2025年12月更新: OpenAI将持有AMD最多10%股份以确保6GW GPU供应。MI350出货配备288GB HBM3e(相比Blackwell的180GB),8TB/s带宽。Microsoft Azure在MI300X上运行生产环境的Copilot工作负载。Oracle部署16,384-GPU MI300X超级集群。随着NVIDIA替代方案获得认可,AMD的ROCm软件栈达到企业级成熟度。
OpenAI宣布与AMD建立合作伙伴关系,包括持有公司最多10%的股份,以确保多达六千兆瓦GPU的供应。¹ AMD于2025年10月签署协议,为Oracle的云基础设施供应AI芯片。² Microsoft Azure现在在AMD Instinct MI300X上运行专有和开源模型的生产环境。³ 虽然NVIDIA保持80%到95%的AI GPU市场份额,但AMD已确立自己作为企业在推理工作负载和成本优化方面越来越多考虑的可信替代方案。⁴
MI350系列于2025年第三季度发布,其规格在纸面上挑战NVIDIA的Blackwell:288GB HBM3e内存、8TB/s带宽,并声称AI性能比竞争加速器高2.2倍。⁵ 对企业基础设施规划者来说,问题是AMD的硬件优势和不断改进的软件栈是否足以证明从NVIDIA成熟生态系统的转变是合理的。
MI350规格和定位
AMD Instinct MI350系列采用1850亿个晶体管和288GB HBM3e内存。⁶ 基于第四代AMD CDNA架构构建,MI350系列提供扩展的数据类型支持,包括用于AI推理、训练和HPC工作负载的MXFP6和MXFP4。⁷ 旗舰MI355X平台相比上一代MI300X提供高达4倍的峰值理论性能。⁸
内存容量提供了AMD最明显的硬件优势。MI355X的288GB HBM3e超过了NVIDIA Hopper H200的141GB和Blackwell B200的180GB。⁹ 内存带宽达到8TB/s,相比H200的4.8TB/s和B200的7.7TB/s。¹⁰
MI355X的功耗达到1,400瓦,与Blackwell Ultra的要求相匹配。¹¹ 相似的功耗配置意味着在这个性能层级,供应商之间的基础设施要求不会有本质差异。
AMD测试MI355X与NVIDIA B200和GB200平台的对比,测量Llama2-70B微调的训练吞吐量和Llama 3.1-405B的推理吞吐量。¹² 基准测试显示具有竞争力的性能,尽管实际结果很大程度上取决于软件优化。
MI350于2025年第三季度向合作伙伴和超大规模数据中心出货。¹³ AMD的年度加速器刷新周期继续,MI400系列已确认在2026年开发。¹⁴ Helios AI参考设计在全机架架构中集成了MI400 GPU、EPYC Venice CPU和Pensando Vulcano NIC。¹⁵
云服务提供商加速采用
IBM Cloud将在2025年上半年添加AMD Instinct MI300X GPU。¹⁶ 这一合作使AMD加速器能够在IBM的watsonx AI平台和Red Hat Enterprise Linux AI推理中获得支持。¹⁷ 企业重点针对寻求NVIDIA替代方案用于生产AI工作负载的客户。
Microsoft Azure在瑞典和爱尔兰地区推出了MI300X支持的AI集群,以支持定制Copilot工作负载。¹⁸ Microsoft在生产环境中运行AMD专有模型表明软件成熟度已达到企业要求。
Oracle Cloud Infrastructure的计算超级集群实例支持单个集群中多达16,384个MI300X GPU。¹⁹ 这种规模能够训练和部署具有数千亿参数的模型。²⁰ Oracle的部署专注于医疗和基因组AI用例,其中AMD的内存容量提供优势。²¹
Vultr和Oracle Cloud的胜利展示了AMD加速器技术背后日益增长的势头。²² Lenovo、Dell和SuperMicro宣布了基于MI300的产品。²³ 供应商生态系统现在支持企业级AMD。
Cohere在AMD Instinct MI300X上部署其Command模型,通过高吞吐量和数据隐私为企业级LLM推理提供动力。²⁴ AI模型提供商的采用验证了AMD在推理工作负载中的地位。
软件生态系统趋于成熟
软件生态系统历史上限制了AMD的采用。CUDA的根深蒂固使NVIDIA成为默认选择。这种情况在2025年发生了重大变化。
PyTorch 3.1提供对训练和推理的原生ROCm支持。²⁵ 包括DeepSpeed和Hugging Face Accelerate在内的流行库添加了AMD特定的性能标志。²⁶ 开发人员越来越习惯直接为MI300X环境构建。²⁷
企业AI团队将推理工作负载迁移到AMD以降低成本而不牺牲性能。²⁸ 成本差异对推理比训练更重要,因为推理持续运行并主导长期支出。
NVIDIA的CUDA仍提供更广泛的开发者采用和更成熟的工具。²⁹ 生产环境中的实际性能通常偏向NVIDIA,这是由于生态系统优化而非原始硬件能力。³⁰ 组织必须权衡成本节约与为AMD优化所需的工程投资。
AMD收购Untether AI的AI硬件和软件工程师增强了编译器、内核开发和芯片设计能力。³¹ 这项投资加强了AMD在推理市场的地位,在该市场CUDA的护城河正在缩窄。³²
市场动态和份额
NVIDIA在2025年维持80%到95%的AI GPU市场份额。³³ 来自Wells Fargo的数据显示NVIDIA在AI加速器中的份额保持在80%到90%之间。³⁴ NVIDIA在数据中心GPU领域持有超过90%的份额,大多数基础AI代码都基于CUDA构建。³⁵
AMD 2025年第三季度数据中心收入达到43亿美元。³⁶ NVIDIA截至2025年7月底的单季度数据中心收入达到411亿美元。³⁷ 收入差距展示了市场领导者之间的规模差异。
JPR数据显示NVIDIA控制94%的独立GPU市场,而AMD控制约6%。³⁸ AMD的份额仍然是遥远的第二,尽管市场扩张足够快,两家供应商都在增长。
AMD在数据中心AI GPU的市场份额自2023年第一季度以来稳步增长。³⁹ 2025年第一季度,NVIDIA大规模的Blackwell产品开始量产,而AMD的应对产品直到2025年第三季度才到达,AMD的份额暂时下降。⁴⁰ 随着每个供应商发布新一代产品,竞争周期将继续。
AMD的战略机遇
AMD在推理市场开辟了一个利基市场,在该市场NVIDIA的CUDA护城河较窄。⁴¹ 推理最终将变得比训练更大,使AMD处于市场长期增长轨迹的有利位置。⁴²
AMD的方法专注于战略性选择的机会,而不是试图在所有细分市场与NVIDIA匹敌。⁴³ 这一策略在快速扩张的市场中增长AMD的份额,同时避免在NVIDIA优势最强的领域直接竞争。⁴⁴
OpenAI合作伙伴关系代表了重大验证。OpenAI潜在的2000亿美元承诺购买多达六千兆瓦AMD GPU表明对AMD路线图的信心。⁴⁵ 这笔交易为AMD提供了一个影响企业认知的标杆客户。
AMD的激进定价策略削弱了NVIDIA,尽管仅靠定价AMD还未能在市场份额增长方面匹敌NVIDIA。⁴⁶ 竞争硬件、改进软件和有利定价的组合为注重成本的企业创造了机会。
企业部署考虑因素
评估AMD的组织应考虑其工作负载组合。训练工作负载,特别是那些具有广泛CUDA依赖性的,仍然偏向NVIDIA。推理工作负载为AMD采用提供了更多机会,转换成本较低。
内存容量优势对大型模型很重要。MI350的288GB能够在需要多个NVIDIA GPU的模型上实现单GPU处理。内存优势为运行最大模型的组织降低了基础设施复杂性。
不应低估软件投资要求。虽然ROCm有了大幅改进,但习惯于CUDA的团队需要时间和资源来为AMD优化。学习曲线影响新部署的生产时间。
多供应商策略提供风险缓解。既认证NVIDIA又认证AMD的组织可以谈判更好的价格,避免供应约束,并为每种工作负载类型选择最优硬件。支持两个平台的投资对大型部署是值得的。
基于云的AMD访问降低了采用障碍。IBM、Microsoft、Oracle和其他提供商提供AMD实例,能够在不采购硬件的情况下进行测试。组织可以在承诺基础设施采购之前验证AMD在其工作负载上的性能。
快速决策框架
AMD vs NVIDIA选择:
| 如果您的工作负载是... | 考虑 | 理由 |
|---|---|---|
| 具有CUDA依赖性的训练 | NVIDIA | 生态系统成熟度、工具 |
| 大规模推理 | AMD MI350 | 成本节约、内存优势 |
| 内存绑定的大型模型 | AMD MI350/355X | 288GB vs 180GB (B200) |
| 多供应商风险缓解 | 两者都用 | 供应多样化 |
| 基于云的评估 | AMD (IBM, Azure, Oracle) | 无需采购即可测试 |
规格比较:
| 规格 | AMD MI355X | NVIDIA B200 | NVIDIA H200 |
|---|---|---|---|
| HBM内存 | 288 GB | 180 GB | 141 GB |
| 内存带宽 | 8 TB/s | 7.7 TB/s | 4.8 TB/s |
| TDP | 1,400W | 1,000W | 700W |
| 架构 | CDNA 4 | Blackwell | Hopper |
| 市场份额 | ~6% | ~80-95% | ~80-95% |
关键要点
对基础设施架构师: - AMD MI350提供288GB HBM3e——比B200的180GB多60% - ROCm软件栈在2025年大幅成熟——PyTorch 3.1提供原生支持 - 推理工作负载提供从NVIDIA转换的最低成本 - 云提供商(IBM、Azure、Oracle)无需硬件采购即可测试
对采购团队: - OpenAI的10% AMD股份表明长期供应信心 - AMD定价削弱NVIDIA但未转化为等同的市场份额增长 - 多供应商策略实现更好的谈判筹码和供应弹性 - 内存容量优势能够实现更大模型的单GPU处理
对战略规划: - NVIDIA保持80-95%市场份额——AMD是可信替代方案,而非替代品 - 推理市场最终将超过训练——AMD的目标细分市场 - AMD优化需要软件投资——纳入TCO分析考虑 - MI400系列确认2026年推出——路线图可见性改善规划
在可预见的未来,AMD将仍然是NVIDIA的遥远第二。⁴⁷ 然而,庞大且不断增长的AI市场意味着即使是少数份额也代表着可观的收入,并确立AMD作为可行的企业选择。随着市场发展,发展AMD专业知识的组织为成本优化和供应多样化做好准备。
参考文献
-
Tech Research Online. "NVIDIA vs AMD (2025): GPUs, AI & Market Share." 2025. https://techresearchonline.com/blog/nvidia-vs-amd-the-gpu-battle-for-ai-dominance/
-
36Kr. "AMD's Aggressive Pricing Stabs Intel but Fails to Outperform NVIDIA." 2025. https://eu.36kr.com/en/p/3541331537719433
-
AMD Newsroom. "AMD Unveils Vision for an Open AI Ecosystem." June 2025. https://www.amd.com/en/newsroom/press-releases/2025-6-12-amd-unveils-vision-for-an-open-ai-ecosystem-detai.html
-
Tech Research Online. "NVIDIA vs AMD (2025)."
-
AMD. "AMD Instinct MI350 Series GPUs." 2025. https://www.amd.com/en/products/accelerators/instinct/mi350.html
-
Kontronn. "AMD Instinct MI350 Officially Announced: 185 Billion Transistors and 288GB HBM