通过阿里云计算巢部署 NVIDIA NIM，加速企业大语言模型 SaaS 化

在人工智能飞速发展的今天，大语言模型（LLM）为各个行业带来了全新的场景和机遇。诸如客户服务数字人、计算机辅助药物研发的生成式虚拟筛选，基于检索增强生成（RAG）的企业多模态 PDF 数据提取，网络安全流数据过滤、处理和分类优化等工作流，正在无缝集成和运行在定制化的企业 AI 应用，企业还能够基于专有业务数据和用户反馈数据，不断优化 AI 应用。同时，企业也面临着如何高效、安全地部署 LLM

NVIDIA AI技术专区

23人浏览 · 2025-02-05 16:20:56

NVIDIA AI技术专区 · 2025-02-05 16:20:56 发布

同时，企业也面临着如何高效、安全地部署 LLM 的挑战。阿里云计算巢基于 NVIDIA 加速计算技术，通过阿里云云市场为企业和开发者提供 NVIDIA AI Enterprise 软件套件，其包含了 NVIDIA NIM™ Agent Blueprint、NVIDIA NIM 和 NVIDIA NeMo™ 等企业级 AI 开发工作流和 AI 开发工具链。其中，NVIDIA NIM 提供可靠、高性能的 LLM 推理服务，结合阿里云计算巢实现一站式云上部署，助力企业加速实现 LLM 的 SaaS 化。

本文以 Llama3 为例，介绍该方案的整体架构和部署方式。

NVIDIA NIM：易于使用的预构建容器工具

NVIDIA NIM 微服务是一套易于使用的预构建容器工具，目的是帮助企业客户在云、数据中心和工作站上安全、可靠地部署高性能 AI 模型。作为 NVIDIA AI Enterprise 的一部分，NIM 具备以下核心优势：

安全、灵活的部署：NIM 在不同环境的 CUDA GPU 加速基础设施和 Kubernetes 发行版中经过严格验证和基准测试，它支持企业在云、数据中心、工作站上安全可靠地部署高性能的 AI 推理，只需 5 分钟即可完成部署。
加速产品上市：企业通过预构建、持续维护的微服务，能够快速将产品推向市场，缩短开发周期。
开发者友好：开发者使用标准 API 和几行代码即可轻松将 NIM 集成到企业级 AI 应用程序中。
优化的推理引擎：NIM 基于 Triton™ 推理服务器、TensorRT、TensorRT-LLM 和 PyTorch 等强大的推理引擎构建，提供行业领先的吞吐率、延迟和 token 生成速度，确保服务响应更快。
企业级支持：NIM 采用企业级基础容器构建，提供严格的验证、定期安全更新，适合企业生产环境部署。

阿里云计算巢：专为服务商及其客户打造的云集成 PaaS 平台

阿里云计算巢服务是一个开放给企业应用服务商（包括：企业应用服务商、IT 集成服务商、交付服务商和管理服务提供商等）及其用户的服务管理 PaaS 平台，提供软件上云的“一站式”解决方案。

阿里云计算巢能提供软件的交付、部署、运维流程标准化的服务，支持软件和资源的一体化交付，真正实现了软件的开箱即用。

阿里云计算巢服务集成了阿里云一系列底层产品能力，通过通用的应用管控框架、租户管理框架，帮助服务商提升服务的交付效率、管理效率和服务能力，在提升用户满意度的同时降低运营成本；并为用户提供了统一管理多种应用服务的平台，提升用户使用服务的效率和安全性，降低用户获取服务和管理服务的成本。

方案介绍

下图展示了通过阿里云计算巢快速部署 NVIDIA NIM 的整体架构。以 Llama3 为例，我们通过计算巢来创建、管理 LLM 推理服务：在阿里云容器服务 ACK （容器服务 Kubernetes 版）集群上，我们使用阿里云 ACK 的云原生 AI 套件，集成开源推理服务框架 KServe，来部署 NVIDIA NIM。

同时，结合 ACK 的 Prometheus 和 Grafana 监控服务，快速搭建监控大盘，实时观测推理服务状态；利用 NVIDIA NIM 提供丰富的监控指标，如 num_requests_waiting，配置推理服务弹性扩缩容策略。

这里列出的云上资源，以及阿里云弹性计算服务（ECS）、专有网络（VPC）等基础资源，都可以通过计算巢来轻松配置，一键拉起，最终实现一个云上高性能、可实时观测、极致弹性的大语言模型推理服务。用户只需要根据该服务创建实例，便可部署该服务。

图 1. 通过阿里云计算巢快速部署 NVIDIA NIM 架构图（图片来源于阿里云）

部署流程

参考NVIDIA NIM 文档，生成 NVIDIA NGC API Key，用于访问需要部署的模型镜像。以本文用到的 Llama-3-8B-Instruct为例，可以通过 NVIDIA NGC 目录来获取。同时，请阅读并承诺遵守 Llama 模型的自定义可商用开源协议。
在阿里云计算巢服务目录中找到“基于 NVIDIA NIM 快速部署 LLM 模型推理服务”，并进入实例部署页面。（https://computenest.console.aliyun.com/service/detail/cn-hangzhou/service-8cd0757070b848a399e4）。如下图所示，主要配置服务的基本信息和云上资源，以及第一步中获取的 NVIDIA NGC API Key，需要填写在下图相应位置。

图 2. 在阿里云计算巢创建服务实例（图片来源于阿里云官网）

因为服务部署在阿里云 ACK 集群之上，这里也包含了 Kubernetes 配置：

图 3. 阿里云 ACK 集群上 Kubernetes 选项页面（图片来源于阿里云官网）

按照页面提示完成所有配置之后，点击下一步：确认订单，在这里确认第 2 步配置的服务实例信息和价格预览。

图 4. 确认服务实例信息和价格预览（图片来源于阿里云官网）

部署过程中，用户需要创建和访问阿里云资源，当阿里云账号属于 RAM 账号时，需要开通以下权限，页面上也有开通这些权限的入口。

权限策略名称	备注
AliyunECSFullAccess	管理云服务器服务（ECS）的权限
AliyunBSSReadOnlyAccess	只读访问费用中心（BSS）的权限
AliyunCSFullAccess	管理容器服务（CS）的权限
AliyunVPCFullAccess	管理专有网络（VPC）的权限
AliyunROSFullAccess	管理资源编排服务（ROS）的权限
AliyunSLBFullAccess	管理负载均衡服务（SLB）的权限
AliyunComputeNestUserFullAccess	管理计算巢服务（ComputeNest）的用户侧权限
AliyunECSFullAccess	管理云服务器服务（ECS）的权限

点击立即创建，开始部署。过程中会涉及阿里云资源的创建、NIM 模型镜像的拉取等。拉取过程的日志，可通过”点击资源 tab-> 找到 ACK 集群->页面左侧的工作负载->无状态”来查看。部署完成后，进入服务实例详情查看使用说明。通过 curl 发送 HTTP 请求访问推理服务，修改 content 字段，便可自定义和推理服务交互的内容。

图5. 服务实例详情页面截图（图片来源于阿里云官网）

通过阿里云的云市场获取 NVIDIA AI Enterprise 使用该方案

NVIDIA NIM 是 NVIDIA AI Enterprise 的一部分，正式使用时须获得 NVIDIA AI Enterprise 的许可证授权。现在，企业用户可以通过阿里云云市场获取 NVIDIA AI Enterprise 来使用该方案。阿里云市场提供了概念验证（PoC）测试服务和购买 NVIDIA AI Enterprise 许可证，共两个下单页面。

PoC 测试服务（https://market.aliyun.com/products/201214006/cmgj00067281.html）

提供 90 天 NVIDIA AI Enterprise PoC License，暨 90 天免费试用，而使用时须支付阿里云计算资源的费用。

通过阿里云的云市场购买 NVIDIA AI Enterprise 许可证（https://market.aliyun.com /products/201214006/cmfw00067311.html）

该页面提供的信息仅供参考，用户需要通过该页面的“NVIDIA 服务咨询”钉钉来沟通采购，最终通过云市场官网推送下单链接获取 NVIDIA AI Enterprise 许可证。

总结

本文介绍了通过阿里云计算巢快速部署 NVIDIA NIM 的方案收益和部署方式，该方案充分利用了 NIM 的安全与高性能的无缝 AI 推理功能，以及计算巢的软件一站式上云和交付能力，从而打造极致弹性、高性能、可实时观测的云上 LLM 推理服务。更多 LLM 上云部署参考示例请查看 NVIDIA NGC 目录。欢迎大家体验和试用。