视频分析 AI 智能体的时代已经到来。

视频是现代数字行业的标志性特征之一,占全球数据流量的 50% 以上。它不仅在媒体行业占据主导地位,对各行业的企业也日趋重要,是全球规模最大、最普遍的数据源之一。然而,其中只有不到 1% 的视频数据会被用于深入分析。

全球近一半的 GDP 产生自实体行业,包括能源、汽车和电子产品。由于劳动力短缺、制造业回流以及自动化需求的增长,视频分析 AI 智能体将发挥更重要的作用,在物理世界和数字世界之间搭建桥梁。

为了加速这些智能体的开发,NVIDIA 打造了用于视频搜索与总结 (VSS)的 AI Blueprint,该蓝图由 NVIDIA Metropolis 平台驱动,现已全面推出,可为开发者提供构建和部署高性能 AI 智能体的工具,用于分析大量实时和存档视频。

视觉语言模型 (VLM) 驱动的一系列视觉 AI 智能体和生产力助手即将上线。结合强大的计算机视觉模型与超智能大语言模型 (LLM),这些视频分析 AI 智能体可助力企业轻松查看、搜索并总结海量视频。通过实时分析视频或处理 TB (terabytes) 级录制视频,视频分析 AI 智能体正在众多行业释放前所未有的价值和机遇。

制造业和仓储企业正在通过 AI 智能体提高人员安全性和生产效率。例如,智能体可以帮助分配叉车资源和调配人员岗位,实现效率最大化。在智慧城市领域,视频分析 AI 智能体被用于缓解交通拥堵并提升安全性,其应用场景还在持续扩展。

用于创建多样化视频分析 AI 智能体群的 Blueprint

VSS 蓝图基于 NVIDIA Metropolis 平台构建,由 NVIDIA VILA 和 NVIDIA Llama Nemotron 等 VLM 和 LLM、NVIDIA NeMo Retriever 微服务以及检索增强生成 (RAG) 驱动,RAG 可将 LLM 与公司的企业数据结合起来。

VSS 蓝图集成了 NVIDIA AI Enterprise 软件平台,包括用于 VLM、LLM 的 NVIDIA NIM 微服务,以及用于 RAG 的先进 AI 框架。通过 VSS 蓝图,用户总结视频的速度比实时观看快 100 倍。例如,60 分钟的视频可在不到 1 分钟的时间内用文字总结出来。

VSS 蓝图具有一系列强大的功能,旨在提供强大的视频理解能力、性能和可扩展能力。

它可以同时处理数百个实时视频流或多组视频片段。除了视觉理解,它还支持音频转录。在音频至关重要的场景中,将语音转换为文本可增强理解,例如训练视频、主题演讲或团队会议等。

行业领导者部署视频分析 AI 智能体,推动实现商业价值

从全球领先制造商到智慧城市和体育赛事联盟,所有组织都在使用 VSS 蓝图开发 AI 智能体以优化运营。

领先的电子制造公司 Pegatron 使用 VSS 蓝图来研究运营程序并对员工进行最佳实践培训。公司还将该蓝图集成到 PEGAAi 平台中,以便组织构建 AI 智能体,从而优化制造流程。

这些智能体可以提取并分析大量视频,实现自动监控、异常检测、视频搜索和事件报告等高级功能。Pegatron 的 Visual Analytics Agent 可用于理解印刷电路板组装的操作程序,并识别正确或错误的操作。迄今为止,这些智能体将 Pegatron 的人力成本降低了 7%,并将不良率降低了 67%。

其他领先的半导体和电子制造商正在构建 AI 智能体和数字孪生,从而优化其规划和运营应用。

高雄市正在使用由其合作伙伴 Linker Vision 开发的统一智慧城市视觉 AI 应用,以缩短事件响应时间。此前,废物管理、交通运输和应急响应等城市部门因孤岛式基础设施相互隔离,关键信息无法互通导致响应速度延迟。

Linker Vision 的 AI 应用由 VSS 蓝图驱动,其智能体能够结合实时视频分析与生成式 AI 技术,不仅可以检测视觉元素,还能够解析并生成对洪水、交通事故等复杂城市事件的态势描述。

目前,Linker Vision 为 12 个城市部门提供及时洞察,并计划在 2026 年前将城市摄像头从 3 万台增加至超 5 万台。这些洞察正在提升城市服务的态势感知能力和数据驱动决策水平,并将事件响应时间缩短高达 80%。

北美职业冰球联盟 (NHL) 将 VAST InsightEngine 与 VSS 蓝图相结合,可简化并加速视觉 AI 工作流,管理大量比赛视频。

通过 VAST InsightEngine,NHL 能够实现在亚秒级时间内对 PB (petabytes) 级视频的检索,支持对比赛精彩瞬间和高光时刻的近实时提取。AI 驱动的代理式工作流通过自动剪辑、标记和组合视频内容,进一步提高了内容创作效率,确保素材的便捷访问与高效利用。

NHL 未来或将启用实时 AI 逻辑推理功能,在比赛时动态生成定制化洞察,例如选手运动数据、比赛战术分析或预想建议。这种全流程自动化体系或将彻底改变赛事内容的生成、编排以及分发方式,为 AI 体育内容制作树立新标杆。

西门子正在使用其 Industrial Copilot for Operations 帮助工厂车间人员执行设备维护任务、故障处理和能效调优。这一生成式 AI 助手可根据运营和技术文档数据,对设备错误进行实时解析。

该 copilot 融合了 VSS 组件,如 VLM、LLM 和 NVIDIA NeMo 微服务。Industrial Copilot 实现了快速决策,减少了宕机时间。西门子报告中显示其生产率提高了 30%,并有望达到 50%。

由不断扩展的合作伙伴生态系统提供支持,创建复杂的 AI 智能体

NVIDIA 的合作伙伴正在使用 VSS 蓝图为其工作流加速构建代理式 AI 视频分析功能,将开发时间从数月缩短到数周。

智能视频分析领域的领导者 Superb AI 在仁川机场部署了一个智能化机场运营方案,以实现在几周内缩短乘客等候时间。在马来西亚,解决方案提供商 ITMAX 正在借助 VSS 蓝图为吉隆坡构建先进的视觉 AI 智能体,以改善城市整体管理水平并缩短事件响应时间。

在广告领域,PYLER 仅在几周内就将 VSS 蓝图集成到其品牌安全 (AiD) 和广告定向投放 (AiM) 解决方案中。三星电子通过 AiD 和 AiM 解决方案,实现了与品牌调性和产品定位精准匹配的高价值广告投放,显著提升了广告效益。比亚迪通过定向投放情境关联且内容积极的广告,将广告点击率提高了 4 倍,而韩亚金融集团 (Hana Financial Group) 则超额达成了多个品牌活动目标。

Fingermark 是 Eyecue 的应用提供商,后者是快餐店使用的实时计算机视觉平台。Fingermark 正在将 VSS 蓝图添加到 Eyecue 中,通过规模化视频片段分析生成清晰且可操作的洞察,从而洞悉得来速(Drive-Thru)等待时间、服务瓶颈或员工相关事件。

访问 NVIDIA 官网了解 VSS 蓝图,并阅读技术博客,了解更多详细信息。

观看 NVIDIA 创始人兼首席执行官黄仁勋的 COMPUTEX 主题演讲,了解更多 NVIDIA GTC 台北会议详情。

Logo

分享最新的 NVIDIA AI Software 资源以及活动/会议信息,精选收录AI相关技术内容,欢迎大家加入社区并参与讨论。

更多推荐