视频录播和讲义下载｜大模型 PD 分离推理秒级配置寻优与 K8s 多组件编排

NVIDIA 面向数据中心多节点环境的开源分布式推理服务框架 Dynamo 的组件 AIConfigurator 和 Grove，分享它们分别如何解决 PD 分离架构下大模型推理的两个核心落地难题：在庞大配置空间中高效寻优，以及在 Kubernetes 上优雅编排多组件推理服务。P/D 分离的抉择，到 Prefill/Decode 资源的配比，再到并行策略的设定，庞大的参数空间使得人工调优如同大海

NVIDIA AI 技术专区

106人浏览 · 2026-02-04 09:53:32

NVIDIA AI 技术专区 · 2026-02-04 09:53:32 发布

内容介绍：

本次线上研讨会聚焦 NVIDIA 面向数据中心多节点环境的开源分布式推理服务框架 Dynamo 的组件 AIConfigurator 和 Grove，分享它们分别如何解决 PD 分离架构下大模型推理的两个核心落地难题：在庞大配置空间中高效寻优，以及在 Kubernetes 上优雅编排多组件推理服务。

扫描二维码即可获取注册或登录研讨会落地页链接，能够观看录播回放，并在落地页面下载讲义 PDF 文件。

时间：录播已上线

通过本次在线研讨会您将了解以下内容：

演讲一：NVIDIA Dynamo AIConfigurator：秒级锁定最优解 - LLM 推理服务的自动化配置寻优引擎

演讲人：刘一鸣

NVIDIA 资深解决方案架构师

在大模型落地过程中，部署配置直接决定了成本与性能。然而，从是否采用 P/D 分离的抉择，到 Prefill/Decode 资源的配比，再到并行策略的设定，庞大的参数空间使得人工调优如同大海捞针，往往耗时数天。我们该如何打破这一瓶颈？

本演讲将介绍 AIConfigurator。通过结合实测数据与对自回归推理迭代的建模，实现了对主流推理框架的自动化配置寻优。它不仅能回答上述所有架构难题，更将配置探索周期从 “天级” 压缩至 “秒级”，帮助开发者在最短的时间内获得最优的部署性能。

演讲二：NVIDIA Dynamo Grove：开源的分布式推理高效扩展 Kubernetes API

演讲人：王俊飞

NVIDIA 系统解决方案架构师

本演讲将系统讲解 Grove 的原语，通过实际部署示例演示其工作流程，并介绍产品路线图，助您高效掌握 Grove。

随着 AI 技术不断演进，推理服务的部署形态已从早期 “单一模型、单 Pod 运行” 的模式，发展为包含 prefill、decode、vision encoder 等多个组件的复杂系统。这种演进促使部署管理的焦点从 “简单扩展副本数” 转向 “如何将多个组件协同编排为一个完整的推理服务。为此，NVIDIA 推出了 Grove — 一套完全开源的 Kubernetes API，提供多级自动扩缩容、层级调度、拓扑感知等高级能力，旨在简化复杂 AI 工作负载的编排与管理。目前，Grove 已与 NVIDIA Dynamo 深度集成，共同为用户提供开箱即用的生产级推理部署体验。