内容介绍:

本次线上研讨会聚焦 NVIDIA 面向数据中心多节点环境的开源分布式推理服务框架 Dynamo 的组件 AIConfigurator 和 Grove,分享它们分别如何解决 PD 分离架构下大模型推理的两个核心落地难题:在庞大配置空间中高效寻优,以及在 Kubernetes 上优雅编排多组件推理服务。

扫描二维码即可获取注册或登录研讨会落地页链接,能够观看录播回放,并在落地页面下载讲义 PDF 文件。

图片

时间:录播已上线

通过本次在线研讨会您将了解以下内容:

演讲一:NVIDIA Dynamo AIConfigurator:秒级锁定最优解 - LLM 推理服务的自动化配置寻优引擎

演讲人:刘一鸣

NVIDIA 资深解决方案架构师

在大模型落地过程中,部署配置直接决定了成本与性能。然而,从是否采用 P/D 分离的抉择,到 Prefill/Decode 资源的配比,再到并行策略的设定,庞大的参数空间使得人工调优如同大海捞针,往往耗时数天。我们该如何打破这一瓶颈?

本演讲将介绍 AIConfigurator。通过结合实测数据与对自回归推理迭代的建模,实现了对主流推理框架的自动化配置寻优。它不仅能回答上述所有架构难题,更将配置探索周期从 “天级” 压缩至 “秒级”,帮助开发者在最短的时间内获得最优的部署性能。

演讲二:NVIDIA Dynamo Grove:开源的分布式推理高效扩展 Kubernetes API

图片

演讲人:王俊飞

NVIDIA 系统解决方案架构师

本演讲将系统讲解 Grove 的原语,通过实际部署示例演示其工作流程,并介绍产品路线图,助您高效掌握 Grove。

随着 AI 技术不断演进,推理服务的部署形态已从早期 “单一模型、单 Pod 运行” 的模式,发展为包含 prefill、decode、vision encoder 等多个组件的复杂系统。这种演进促使部署管理的焦点从 “简单扩展副本数” 转向 “如何将多个组件协同编排为一个完整的推理服务。为此,NVIDIA 推出了 Grove — 一套完全开源的 Kubernetes API,提供多级自动扩缩容、层级调度、拓扑感知等高级能力,旨在简化复杂 AI 工作负载的编排与管理。目前,Grove 已与 NVIDIA Dynamo 深度集成,共同为用户提供开箱即用的生产级推理部署体验。

参考资料

1. Dynamo AIConfigurator GitHub:  

https://github.com/ai-dynamo/aiconfigurator

2. Dynamo Grove GitHub: 

https://github.com/ai-dynamo/grove

Logo

分享最新的 NVIDIA AI Software 资源以及活动/会议信息,精选收录AI相关技术内容,欢迎大家加入社区并参与讨论。

更多推荐