Video Grounding不太好找到较好的中文翻译,grounding有“接地、基础”等意思。
对于video grounding
输入:一个query(文本),以及一段视频。
返回:文本所描述的活动的开始时间和结束时间

乍一看这不就是TAL(temporal activity localization)么?!实际上不是的,VG是需要理解文本的,相当于CLIP与TAL的结合。
我们看一下英文描述:
请添加图片描述

Figure 1. An illustrative example of the video grounding task.Given a video and a query, the video grounding task aims to identify the starting and ending time of the video segment described by the query. One key challenge of this task is how to leverage dense supervision upon sparsely annotated starting and ending frames.

截图来自:Dense Regression Network for Video Grounding

Logo

分享最新的 NVIDIA AI Software 资源以及活动/会议信息,精选收录AI相关技术内容,欢迎大家加入社区并参与讨论。

更多推荐