视频录播和讲义下载|大模型 PD 分离推理秒级配置寻优与 K8s 多组件编排
NVIDIA 面向数据中心多节点环境的开源分布式推理服务框架 Dynamo 的组件 AIConfigurator 和 Grove,分享它们分别如何解决 PD 分离架构下大模型推理的两个核心落地难题:在庞大配置空间中高效寻优,以及在 Kubernetes 上优雅编排多组件推理服务。P/D 分离的抉择,到 Prefill/Decode 资源的配比,再到并行策略的设定,庞大的参数空间使得人工调优如同大海
内容介绍:
本次线上研讨会聚焦 NVIDIA 面向数据中心多节点环境的开源分布式推理服务框架 Dynamo 的组件 AIConfigurator 和 Grove,分享它们分别如何解决 PD 分离架构下大模型推理的两个核心落地难题:在庞大配置空间中高效寻优,以及在 Kubernetes 上优雅编排多组件推理服务。
扫描二维码即可获取注册或登录研讨会落地页链接,能够观看录播回放,并在落地页面下载讲义 PDF 文件。

时间:录播已上线
通过本次在线研讨会您将了解以下内容:
演讲一:NVIDIA Dynamo AIConfigurator:秒级锁定最优解 - LLM 推理服务的自动化配置寻优引擎

演讲人:刘一鸣
NVIDIA 资深解决方案架构师
在大模型落地过程中,部署配置直接决定了成本与性能。然而,从是否采用 P/D 分离的抉择,到 Prefill/Decode 资源的配比,再到并行策略的设定,庞大的参数空间使得人工调优如同大海捞针,往往耗时数天。我们该如何打破这一瓶颈?
本演讲将介绍 AIConfigurator。通过结合实测数据与对自回归推理迭代的建模,实现了对主流推理框架的自动化配置寻优。它不仅能回答上述所有架构难题,更将配置探索周期从 “天级” 压缩至 “秒级”,帮助开发者在最短的时间内获得最优的部署性能。
演讲二:NVIDIA Dynamo Grove:开源的分布式推理高效扩展 Kubernetes API

演讲人:王俊飞
NVIDIA 系统解决方案架构师
本演讲将系统讲解 Grove 的原语,通过实际部署示例演示其工作流程,并介绍产品路线图,助您高效掌握 Grove。
随着 AI 技术不断演进,推理服务的部署形态已从早期 “单一模型、单 Pod 运行” 的模式,发展为包含 prefill、decode、vision encoder 等多个组件的复杂系统。这种演进促使部署管理的焦点从 “简单扩展副本数” 转向 “如何将多个组件协同编排为一个完整的推理服务。为此,NVIDIA 推出了 Grove — 一套完全开源的 Kubernetes API,提供多级自动扩缩容、层级调度、拓扑感知等高级能力,旨在简化复杂 AI 工作负载的编排与管理。目前,Grove 已与 NVIDIA Dynamo 深度集成,共同为用户提供开箱即用的生产级推理部署体验。
参考资料
1. Dynamo AIConfigurator GitHub:
https://github.com/ai-dynamo/aiconfigurator
2. Dynamo Grove GitHub:
https://github.com/ai-dynamo/grove
更多推荐





所有评论(0)