NVIDIA NIM 与推理微服务:企业级 AI 部署
更新于 2025 年 12 月 11 日
2025 年 12 月更新: NIM 相比原生 H100 部署实现 2.6 倍更高吞吐量(Llama 3.1 8B 上达到 1,201 vs 613 tokens/秒)。Cloudera 报告性能提升 36 倍。NIM 1.4(2024 年 12 月)达到比之前版本快 2.4 倍。DeepSeek-R1 作为预览微服务加入(2025 年 1 月)。生产就绪的 AI 推理可通过单个容器在 5 分钟内完成部署。
部署大型语言模型曾经需要数周的基础设施工作、自定义优化脚本,以及一支精通推理调优这门"黑魔法"的机器学习工程师团队。NVIDIA 在 2024 年 6 月改变了这一局面,向全球 2800 万开发者开放了 NIM(NVIDIA 推理微服务)。[^1] 结果是什么?企业现在可以使用单个容器在五分钟内部署生产就绪的 AI 推理。[^2] 对于急于将 AI 投入运营的企业来说,NIM 代表了从"如何让推理运行起来"到"如何在整个业务中快速扩展推理"的根本性转变。
数据说明一切。在 H100 系统上运行 Llama 3.1 8B 时,NIM 相比原生部署实现 2.6 倍更高吞吐量,达到每秒 1,201 个 token,而没有 NIM 优化时仅为每秒 613 个 token。[^3] Cloudera 在将 NIM 集成到其 AI 推理服务后报告了 36 倍的性能提升。[^4] 这些提升意义重大,因为一旦模型投入生产,推理成本就会主导 AI 预算,而更广泛的 AI 推理市场在 2024 年已达到 970 亿美元,预计到 2030 年将超过 2500 亿美元。[^5]
NIM 的实际交付能力
NVIDIA NIM 将优化的推理引擎、预调优的模型配置和云原生部署工具打包到容器中,可在任何运行 NVIDIA GPU 的地方运行。该平台抽象了传统上困扰推理部署的复杂性:选择正确的推理引擎、优化批处理大小、配置内存分配以及针对特定硬件配置进行调优。[^6]
每个 NIM 容器都捆绑了 NVIDIA 最强大的推理软件,包括 Triton Inference Server 和 TensorRT-LLM,并针对特定模型架构进行了预配置。[^7] 开发者通过行业标准 API 与 NIM 交互,可直接插入现有应用框架,如 LangChain、LlamaIndex 和 Haystack。[^8] 容器暴露与 OpenAI 兼容的端点,这意味着团队无需重写应用代码即可切换到 NIM。
2024 年 12 月发布的 NIM 1.4 进一步提升了性能,开箱即用的推理改进达到比之前版本快 2.4 倍。[^9] NVIDIA 的基准测试显示,NIM 在各种场景下始终比开源推理引擎快 1.5 倍到 3.7 倍,在企业部署中常见的高并发级别下差距更大。[^10]
支持的模型和基础设施
NIM 支持企业实际部署的模型。目录包括 Meta 的 Llama 系列、Mistral 变体和 NVIDIA 自己的 Nemotron 模型,2025 年 1 月还新增了 DeepSeek-R1 作为预览微服务。[^11] 运行微调模型的企业可通过 NIM 的多 LLM 容器进行部署,该容器支持使用 HuggingFace 或 NVIDIA NeMo 训练的 LoRA 适配器。[^12]
基础设施的灵活性解决了企业的一个真正痛点。NIM 可在 DGX 系统、DGX Cloud、NVIDIA 认证系统和 RTX 工作站上运行。[^13] 团队可以在工作站上进行原型开发,在云实例上验证,然后部署到本地数据中心,而无需更改推理代码。
真正重要的性能基准
企业基础设施团队最关注两个指标:以每 token 成本衡量的总拥有成本,以及以首 token 时间(TTFT)和 token 间延迟(ITL)衡量的用户体验。[^14]
吞吐量和延迟改进
在单个 H100 SXM GPU 上运行 Llama 3.1 8B Instruct 并发 200 个请求时,使用 FP8 精度的 NIM 实现了:
| 指标 | 启用 NIM | 未启用 NIM | 改进幅度 |
|---|---|---|---|
| 吞吐量 | 1,201 tokens/s | 613 tokens/s | 2.6 倍 |
| Token 间延迟 | 32ms | 37ms | 快 13% |
| 首 Token 时间 | 已优化 | 基准值 | 快 4 倍 |
2.5 倍的吞吐量提升和 4 倍更快的 TTFT 直接转化为基础设施成本节省。[^15] 运行相同工作负载需要更少的 GPU,或者现有 GPU 集群可以处理显著更多的请求。
真实企业成果
Cloudera 在 2024 年 10 月宣布其由 NIM 驱动的 AI 推理服务,展示了使用 NVIDIA 加速计算实现的 36 倍 LLM 性能提升。[^16] 这些提升来自 NIM 的运行时优化、智能模型表示和工作负载特定的优化配置文件——企业内部开发同等能力可能需要数月时间。[^17]
在生产环境中部署 NIM
NVIDIA 根据组织需求提供三种部署路径:
API 目录:团队可直接从 NVIDIA 的 API 目录(build.nvidia.com)开始使用预构建的优化模型。开发者无需配置基础设施即可测试推理能力。[^18]
NGC 注册表:企业从 NVIDIA 的 NGC 注册表下载 NIM 容器,部署在自己的基础设施上。容器包含运行优化推理所需的一切。[^19]
自定义模型:多 LLM 兼容的 NIM 容器支持 HuggingFace 模型和本地训练的模型,使企业能够以 NIM 的优化优势部署专有或微调模型。[^20]
安全与合规架构
部署 AI 的企业面临严格的安全要求,NIM 直接解决了这些问题。NVIDIA AI Enterprise 许可支持在隔离环境、私有云或完全本地安装中进行部署,同时保持对开源模型的安全性、信任和控制。[^21]
NIM 部署的安全最佳实践与标准 Web 服务架构相同:配置 TLS 终止、设置适当的入口路由并实施负载均衡。[^22] NVIDIA 为 NGC 托管的模型发布模型签名,并为企业安全系统提供 VEX 记录进行漏洞关联。[^23] 基于角色的访问控制、加密和审计功能满足受监管行业的合规要求。
Kubernetes 原生运维
GitHub 上的 nim-deploy 仓库提供了生产 Kubernetes 部署的参考实现。[^24] NVIDIA 的 NIM Operator 管理 Kubernetes 集群中 LLM NIM、文本嵌入 NIM 和重排序 NIM 的生命周期。[^25]
Cisco 的 FlashStack RAG 管道展示了在 Red Hat OpenShift 容器平台上运行 NIM 的经过验证的企业架构,配合 Portworx Enterprise 存储。[^26] 该参考设计涵盖了从持久存储到 GPU 调度的完整技术栈。
企业采用浪潮
主要技术供应商在 2024 年和 2025 年初将 NIM 集成到其平台中,为企业客户创造了多种部署选项。
云服务商集成
AWS、Google Cloud 和 Microsoft Azure 都通过其 AI 平台提供 NIM。SageMaker、Google Kubernetes Engine 和 Azure AI 都支持 NIM 部署,为企业提供运行推理工作负载的位置灵活性。[^27]
Oracle 在 2025 年 3 月宣布通过 OCI 控制台原生提供 NVIDIA AI Enterprise,包括超过 160 种 AI 工具,包括 NIM 微服务。[^28] 这一集成表明超大规模云服务商将 NIM 视为企业 AI 的基础设施。
平台合作伙伴关系
Red Hat 在 2025 年 5 月发布了在 OpenShift AI 上运行 NIM 的详细指南。[^29] Nutanix 将 NIM 集成到 GPT-in-a-Box 2.0 中,使企业能够在整个企业和边缘构建可扩展的生成式 AI 应用。[^30] VMware、Canonical 和其他基础设施提供商同样支持 NIM 部署。
生产中的企业部署
客户名单堪称科技行业名人录。Lowe's 使用 NIM 驱动的推理微服务为员工和客户提升体验。[^31] Siemens 将 NIM 与运营技术集成,用于车间 AI 工作负载。[^32] Box、Cohesity、Datastax、Dropbox 和 NetApp 都是 NIM 的早期采用者。[^33]
Hippocratic AI、Glean、Kinetica 和 Redis 部署 NIM 来驱动其生成式 AI 推理工作负载。[^34] 这些公司选择 NIM 是因为内部构建同等优化能力需要大量工程投资和持续维护。
物理基础设施与软件优化的交汇
NIM 解决了推理优化的软件挑战,但大规模部署 NIM 需要与软件能力相匹配的物理基础设施。GPU 集群需要适当的电力分配、冷却系统和网络架构来维持 NIM 实现的吞吐量。
管理 10,000+ GPU 部署的企业面临随规模扩大而复杂化的基础设施挑战。Introl 的 550 名现场工程师网络正是专注于 NIM 驱动推理所需的高性能计算部署。[^35] 该公司以三年 9,594% 的增长率在 2025 年 Inc. 5000 榜单中排名第 14 位,反映了对专业 GPU 基础设施服务的需求。[^36]
在全球范围内部署 NIM 需要跨多个地区的覆盖。Introl 在北美、欧洲中东非洲、亚太和拉丁美洲的 257 个地点运营,将工程师部署在企业需要 GPU 基础设施支持的地方。[^37] 无论企业是在新加坡、法兰克福还是北弗吉尼亚运行推理,物理基础设施专业知识决定了理论上的 NIM 性能能否转化为实际的生产吞吐量。
软件优化与物理部署的交汇对推理工作负载最为重要。训练运行可以容忍一些基础设施不一致,但服务于面向用户的应用的推理要求一致的低延迟性能。为 NIM 优化的 GPU 集群需要适当的机架配置、支持高带宽 GPU 间通信的光纤连接,以及在持续推理负载下保持热稳定性的冷却系统。
Introl 管理着多达 100,000 个 GPU 的部署,拥有超过 40,000 英里的光纤网络基础设施。[^38] 对于在数百或数千个 GPU 上部署 NIM 的企业来说,专业的基础设施部署确保硬件能够达到 NIM 软件优化所实现的性能水平。
构建 2025 年及以后的推理基础设施
NVIDIA 持续扩展 NIM 功能。2025 年 1 月推出了用于 AI 防护栏的新推理微服务 NVIDIA NeMo Guardrails,帮助企业提高智能代理 AI 应用的准确性、安全性和控制。[^39] 防护栏 NIM 满足了 AI 代理从实验转向生产时的关键企业需求。
2025 年 3 月的 IBM 合作伙伴关系扩展了 watsonx 与 NIM 的集成,并引入了使用 NVIDIA Blueprints 的 IBM Consulting AI 服务。[^40] Synopsys 和 NVIDIA 在 2024 年 12 月宣布扩大多年期合作伙伴关系,NVIDIA 投资 20 亿美元推进将 Synopsys AgentEngineer 与 NIM 微服务相结合的智能代理 AI 工作流。[^41]
经济效益有利于优化推理
AI 推理市场的增长源于企业将模型从开发推向生产。MarketsandMarkets 预测该市场到 2030 年将达到 2549.8 亿美元,年复合增长率为 19.2%。[^42] AI 推理服务器具体而言将从 2024 年的 246 亿美元增长到 2034 年预计的 1332 亿美元。[^43]
NIM 在
[内容因翻译需要而截断]