AMD MI350与GPU竞争格局
更新于2025年12月11日
2025年12月更新: OpenAI入股AMD最高达10%,以确保6GW的GPU供应。MI350配备288GB HBM3e内存(相比Blackwell的180GB),带宽达8TB/s。Microsoft Azure正在MI300X上运行生产级Copilot工作负载。Oracle部署了16,384个GPU的MI300X超级集群。随着NVIDIA替代方案获得认可,AMD的ROCm软件栈已达到企业级成熟度。
OpenAI宣布与AMD建立合作伙伴关系,包括入股AMD最高达10%,以确保最多6吉瓦的GPU供应。¹ AMD于2025年10月签署协议,为Oracle云基础设施供应AI芯片。² Microsoft Azure现已在AMD Instinct MI300X上运行专有和开源模型的生产工作负载。³ 尽管NVIDIA仍占据AI GPU市场80%至95%的份额,但AMD已确立自己作为可靠替代方案的地位,越来越多的企业在推理工作负载和成本优化方面开始考虑AMD。⁴
MI350系列于2025年第三季度发布,规格在纸面上挑战NVIDIA的Blackwell:288GB HBM3e内存、8TB/s带宽,并声称AI性能是竞争对手加速器的2.2倍。⁵ 对于企业基础设施规划者来说,问题在于AMD的硬件优势和不断改进的软件栈是否足以支撑从NVIDIA成熟生态系统的迁移。
MI350规格与市场定位
AMD Instinct MI350系列拥有1850亿个晶体管和288GB HBM3e内存。⁶ 基于第四代AMD CDNA架构,MI350系列提供扩展的数据类型支持,包括用于AI推理、训练和HPC工作负载的MXFP6和MXFP4。⁷ 旗舰MI355X平台的峰值理论性能比上一代MI300X提升高达4倍。⁸
内存容量是AMD最明显的硬件优势。MI355X的288GB HBM3e超过了NVIDIA Hopper H200的141GB和Blackwell B200的180GB。⁹ 内存带宽达到8TB/s,相比H200的4.8TB/s和B200的7.7TB/s。¹⁰
MI355X的功耗达到1400瓦,与Blackwell Ultra的要求相当。¹¹ 相似的功耗特性意味着在这个性能级别上,两家供应商的基础设施要求差异不大。
AMD针对NVIDIA B200和GB200平台测试了MI355X,测量了Llama2-70B微调的训练吞吐量以及Llama 3.1-405B的推理吞吐量。¹² 基准测试显示性能具有竞争力,但实际结果很大程度上取决于软件优化。
MI350于2025年第三季度向合作伙伴和超大规模数据中心发货。¹³ AMD年度加速器更新周期继续进行,MI400系列已确认于2026年开发。¹⁴ Helios AI参考设计在全机架架构中集成了MI400 GPU、EPYC Venice CPU和Pensando Vulcano网卡。¹⁵
云服务提供商采用加速
IBM Cloud将于2025年上半年增加AMD Instinct MI300X GPU。¹⁶ 此次合作使IBM的watsonx AI平台和Red Hat Enterprise Linux AI推理能够支持AMD加速器。¹⁷ 企业级定位针对那些寻求NVIDIA替代方案用于生产AI工作负载的客户。
Microsoft Azure在瑞典和爱尔兰区域推出了MI300X支持的AI集群,以支持定制Copilot工作负载。¹⁸ Microsoft在生产环境中使用AMD运行专有模型,表明软件成熟度已达到企业要求。
Oracle云基础设施的Compute Supercluster实例在单个集群中支持最多16,384个MI300X GPU。¹⁹ 这种规模支持数千亿参数模型的训练和部署。²⁰ Oracle的部署专注于医疗保健和基因组AI用例,在这些领域AMD的内存容量优势得以体现。²¹
Vultr和Oracle Cloud的成功案例展示了AMD加速器技术日益增长的势头。²² 联想、戴尔和超微宣布推出基于MI300的产品。²³ 供应商生态系统现已在企业级规模上支持AMD。
Cohere在AMD Instinct MI300X上部署其Command模型,以高吞吐量和数据隐私性提供企业级LLM推理。²⁴ AI模型提供商的采用验证了AMD在推理工作负载方面的地位。
软件生态系统趋于成熟
软件生态系统历来限制了AMD的采用。CUDA的根深蒂固使NVIDIA成为默认选择。这种情况在2025年发生了重大变化。
PyTorch 3.1为训练和推理提供原生ROCm支持。²⁵ 包括DeepSpeed和Hugging Face Accelerate在内的流行库添加了AMD特定的性能优化选项。²⁶ 开发者越来越习惯直接为MI300X环境进行开发。²⁷
企业AI团队将推理工作负载迁移到AMD,以降低成本而不牺牲性能。²⁸ 对于推理而言,成本差异比训练更重要,因为推理持续运行并主导长期支出。
NVIDIA的CUDA仍然拥有更广泛的开发者采用和更成熟的工具链。²⁹ 由于生态系统优化而非原始硬件能力,生产环境中的实际性能通常倾向于NVIDIA。³⁰ 组织必须权衡成本节省与为AMD优化所需的工程投入。
AMD从Untether AI收购AI硬件和软件工程师,增强了编译器、内核开发和芯片设计能力。³¹ 这项投资加强了AMD在推理市场的地位,而在该市场CUDA的护城河正在收窄。³²
市场动态与份额
NVIDIA在2025年保持着AI GPU市场80%至95%的份额。³³ 富国银行的数据显示,NVIDIA在AI加速器领域的份额保持在80%至90%之间。³⁴ NVIDIA在数据中心GPU领域占据超过90%的份额,大多数基础AI代码都是基于CUDA构建的。³⁵
AMD在2025年第三季度的数据中心收入达到43亿美元。³⁶ 截至2025年7月底,NVIDIA单季度数据中心收入达到411亿美元。³⁷ 收入差距展示了市场领导者之间的规模差异。
JPR数据显示,NVIDIA控制着94%的独立GPU市场,而AMD控制约6%。³⁸ AMD的份额仍然远居第二,尽管市场扩张速度足够快,两家供应商都在增长。
自2023年第一季度以来,AMD在数据中心AI GPU市场的份额稳步增长。³⁹ 2025年第一季度,NVIDIA大规模Blackwell产能爬坡开始,而AMD的应对产品要到2025年第三季度才会到来,AMD的份额暂时下降。⁴⁰ 随着各供应商发布新一代产品,竞争周期将继续。
AMD的战略机遇
AMD在推理市场开辟了一个利基市场,在该市场NVIDIA的CUDA护城河相对较窄。⁴¹ 推理最终将超过训练,使AMD在市场长期增长轨迹中占据有利位置。⁴²
AMD的策略专注于战略性选择的机会,而不是试图在所有细分市场与NVIDIA匹敌。⁴³ 这一战略在快速扩张的市场中增加了AMD的份额,同时避免了在NVIDIA优势最强的领域进行直接竞争。⁴⁴
与OpenAI的合作是一项重大认可。OpenAI对最高6吉瓦AMD GPU的潜在2000亿美元承诺,表明其对AMD路线图的信心。⁴⁵ 这笔交易为AMD提供了一个影响企业认知的标杆客户。
AMD激进的定价策略低于NVIDIA,尽管仅靠定价并未使AMD在市场份额增长方面达到与NVIDIA相当的水平。⁴⁶ 竞争性的硬件、不断改进的软件和有利的定格的结合,为注重成本的企业创造了机会。
企业部署考量
评估AMD的组织应考虑其工作负载组合。训练工作负载,特别是那些具有大量CUDA依赖的工作负载,仍然倾向于NVIDIA。推理工作负载为AMD采用提供了更多机会,且切换成本较低。
内存容量优势对大型模型很重要。MI350的288GB使单GPU能够处理需要多个NVIDIA GPU的模型。对于运行最大模型的组织,内存优势降低了基础设施复杂性。
软件投资需求不应被低估。虽然ROCm有了实质性改进,但习惯于CUDA的团队需要时间和资源来为AMD进行优化。学习曲线影响新部署的投产时间。
多供应商策略提供风险缓解。同时认证NVIDIA和AMD的组织可以协商更好的价格,避免供应限制,并为每种工作负载类型选择最佳硬件。对于大规模部署,支持两个平台的投资是值得的。
基于云的AMD访问降低了采用门槛。IBM、Microsoft、Oracle和其他提供商提供AMD实例,无需硬件采购即可进行测试。组织可以在承诺购买基础设施之前,验证AMD在其工作负载上的性能。
快速决策框架
AMD与NVIDIA选择:
| 如果您的工作负载是... | 考虑 | 理由 |
|---|---|---|
| 具有CUDA依赖的训练 | NVIDIA | 生态系统成熟度、工具链 |
| 规模化推理 | AMD MI350 | 成本节省、内存优势 |
| 内存受限的大型模型 | AMD MI350/355X | 288GB vs 180GB (B200) |
| 多供应商风险缓解 | 两者皆可 | 供应多元化 |
| 基于云的评估 | AMD (IBM, Azure, Oracle) | 无需采购即可测试 |
规格比较:
| 规格 | AMD MI355X | NVIDIA B200 | NVIDIA H200 |
|---|---|---|---|
| HBM内存 | 288 GB | 180 GB | 141 GB |
| 内存带宽 | 8 TB/s | 7.7 TB/s | 4.8 TB/s |
| TDP | 1,400W | 1,000W | 700W |
| 架构 | CDNA 4 | Blackwell | Hopper |
| 市场份额 | ~6% | ~80-95% | ~80-95% |
关键要点
对于基础设施架构师: - AMD MI350提供288GB HBM3e——比B200的180GB多60% - ROCm软件栈在2025年显著成熟——PyTorch 3.1提供原生支持 - 推理工作负载从NVIDIA切换的成本最低 - 云服务提供商(IBM、Azure、Oracle)支持无需采购硬件即可测试
对于采购团队: - OpenAI入股AMD 10%表明长期供应信心 - AMD定价低于NVIDIA,但尚未转化为相应的市场份额增长 - 多供应商策略可实现更好的谈判杠杆和供应弹性 - 内存容量优势支持更大模型的单GPU处理
对于战略规划: - NVIDIA保持80-95%的市场份额——AMD是可靠的替代方案,而非替代品 - 推理市场最终将超过训练——这是AMD的目标细分市场 - AMD优化需要软件投资——应纳入TCO分析 - MI400系列确认于2026年推出——路线图可见性改善规划
在可预见的未来,AMD仍将远远落后于NVIDIA。⁴⁷ 然而,庞大且不断增长的AI市场意味着即使是少数份额也代表着可观的收入,并使AMD确立为可行的企业选择。开发AMD专业知识的组织将在市场演进过程中为成本优化和供应多元化做好准备。
参考文献
-
Tech Research Online. "NVIDIA vs AMD (2025): GPUs, AI & Market Share." 2025. https://techresearchonline.com/blog/nvidia-vs-amd-the-gpu-battle-for-ai-dominance/
-
36Kr. "AMD's Aggressive Pricing Stabs Intel but Fails to Outperform NVIDIA." 2025. https://eu.36kr.com/en/p/3541331537719433
-
AMD Newsroom. "AMD Unveils Vision for an Open AI Ecosystem." June 2025. https://www.amd.com/en/newsroom/press-releases/2025-6-12-amd-unveils-vision-for-an-open-ai-ecosystem-detai.html
-
Tech Research Online. "NVIDIA vs AMD (2025)."
-
AMD. "AMD Instinct MI350 Series GPUs." 2025. https://www.amd.com/en/products/accelerators/instinct/mi350.html
-
Kontronn. "AMD Instinct MI350 Officially Announced: 185 Billion Transistors and 288GB HBM
[内容因翻译需要被截断]