大模型开源项目 | 多模态大模型VideoGPT+：集成图像和视频编码器以增强视频理解

VideoGPT+，用于解决视频理解中的空间和时间信息结合问题。具体来说，VideoGPT+采用了图像编码器和视频编码器的双编码器设计，分别捕捉空间细节和时间上下文。图像编码器使用CLIP模型（ViT-L/14），视频编码器使用InternVideo-v2模型。为了捕捉细粒度的时间动态，VideoGPT+采用了分段采样策略，将视频分割成多个小段，并对每段的帧进行编码。相比均匀采样，分段采样减少了自

Code1994

1160人浏览 · 2024-09-23 09:28:40

Code1994 · 2024-09-23 09:28:40 发布

VideoGPT+： 结合图像和视频编码器的优点，通过自适应池化策略提升视频理解性能，并在多个基准测试中表现优异。

项目地址：https://github.com/mbzuai-oryx/VideoGPT-plus

在这里插入图片描述

一、引言

现有的视频理解模型在处理视频时，依赖于图像编码器或视频编码器，但各有局限性。图像编码器擅长捕捉帧序列的丰富空间细节，但缺乏显式的时间上下文；视频编码器提供时间上下文，但受计算限制，通常只能处理稀疏的低分辨率帧，导致上下文和空间理解有限。

如何在视频理解中有效结合图像编码器的空间细节和视频编码器的时间上下文；如何在保证效率的同时，捕捉细粒度的时间动态。

该问题的研究相关工作有：早期的图像对话模型如BLIP-2、MiniGPT-4和LLaVA等；扩展这些模型到视觉定位任务的尝试；以及视频对话模型如Video-ChatGPT、Video-LLaMA等。这些工作大多使用预训练的视频编码器，但受计算限制，效果有限。
在这里插入图片描述

VideoGPT+与各种SoTA模型在多个视频基准测试中的性能比较。VideoGPT+在视频对话基准测试中展示了比各种模型更好的性能：VCGBench和MVBench，零样本视频问答：MSVD-QA、MSRVTT-QA、ActivityNet-QA。还评估了VCGBench-Diverse，该测试涵盖了18个广泛的视频类别（包括密集字幕、空间理解和推理）。

二、方法概述

VideoGPT+，用于解决视频理解中的空间和时间信息结合问题。 具体来说，

双编码器设计： VideoGPT+采用了图像编码器和视频编码器的双编码器设计，分别捕捉空间细节和时间上下文。图像编码器使用CLIP模型（ViT-L/14），视频编码器使用InternVideo-v2模型。

分段采样策略： 为了捕捉细粒度的时间动态，VideoGPT+采用了分段采样策略，将视频分割成多个小段，并对每段的帧进行编码。相比均匀采样，分段采样减少了自注意力计算复杂度，同时确保视频编码器在每个小段内高效捕捉时间线索。

视觉适配器模块： 为了整合图像和视频特征，VideoGPT+引入了一个视觉适配器模块，通过投影和池化操作，将图像和视频特征映射到共同的空间，减少计算复杂度。

大语言模型： 最后，VideoGPT+将图像编码器和视频编码器的特征拼接起来，输入到大语言模型（如Phi-3-Mini-3.8B）中进行处理，生成对视频问题的综合响应。

在这里插入图片描述

实验细节

数据集： 实验使用了多个数据集，包括VideoInstruct100K、VCG+112K、VideoChat和WebVid等。VideoInstruct100K通过半自动注释管道生成75K指令调优问答对，VCG+112K通过改进的注释管道生成112K问答对。

训练设置： 训练分为两个预训练阶段和一个指令调优阶段。预训练阶段分别在CC-595K数据集上训练图像编码器和视频编码器，指令调优阶段使用LoRA进行微调。

采样策略： 在VCGBench、VCGBench-Diverse和零样本问答任务中，从视频中采样16帧；在MVBench任务中，采样8帧。

评估指标： 在VCGBench上，评估信息的正确性、细节导向、上下文理解、时间理解和一致性；在VCGBench-Diverse上，额外评估密集视频字幕生成、空间理解和视觉推理能力；在MVBench上，评估20个细粒度时间理解任务；在零样本问答任务上，评估四个开放数据集的准确性和得分。

三、实验结果分析

1、定量评估

VCGBench： VideoGPT+在VCGBench上的平均得分为3.28，超过了之前最好的方法（Video-ChatGPT），提升了0.25（5%）。

VCGBench-Diverse： VideoGPT+在VCGBench-Diverse上的平均得分为2.47，超过了所有之前的方法。在密集字幕生成、空间理解和视觉推理能力方面，分别达到了1.38、2.80和3.63的得分，显著提升了空间和时间理解。

MVBench： VideoGPT+在MVBench上的平均得分为58.7%，比之前的最佳方法（VideoChat2）提升了7.6%。在14个任务中取得了最佳结果，并在4个任务中排名第二。

零样本问答： VideoGPT+在四个零样本问答数据集上的表现均优于之前的方法，显示了其在未见视频中的适应能力和生成准确上下文相关响应的能力。

2、定性分析

对 VideoGPT+ 在多个任务和领域的性能进行全面评估。

在这里插入图片描述

四、提炼关键问题

问题1：VideoGPT+是如何利用分段采样策略来捕捉细粒度的时间动态的？

VideoGPT+ 采用了分段采样策略，将视频分割成多个小段，并对每段的帧进行编码。具体来说，输入视频被分成K个段，每个段包含T/K帧。每个段被下采样到低分辨率n×h×w×c进行视频编码。相比均匀采样，分段采样更好地与双编码器设计对齐，使视频编码器能够在每个段内高效捕捉丰富的temporal cues。分段采样策略确保了模型能够在不增加计算复杂性的情况下，捕捉到视频中的细粒度时间动态。

问题2：VideoGPT+中的视觉适配器模块是如何促进图像和视频特征集成的？

VideoGPT+ 引入了一个视觉适配器模块，用于促进图像和视频特征的集成。该模块首先对图像和视频编码器的输出嵌入进行投影，分别通过独立的视觉语言（V-L）投影层Wg和Wh，将这些多维特征映射到语言空间。投影层是可训练的，而视觉编码器保持冻结状态，从而保留了丰富的预训练表示。投影后的嵌入被重塑回网格形式，并经过一个2×2的自适应令牌池化操作，该操作在局部和全局特征的空间维度上操作，减少了令牌长度，使得更大的视觉上下文能够适应相同的LLM上下文窗口。最终，池化的嵌入被连接起来，形成一个包含详细空间表示和全面时间上下文的序列，输入到LLM中进行处理。

问题3：VideoGPT+在VCGBench-Diverse基准上的表现如何，与其他方法相比有哪些优势？

VideoGPT+ 在VCGBench-Diverse基准上的平均得分为2.47，超过了所有之前的方法。具体来说，VideoGPT+在详细字幕、空间理解和视觉推理能力方面分别达到了1.38、2.80和3.63的得分。与其他方法相比，VideoGPT+的优势在于其双编码器设计，结合了图像编码器的空间细节和视频编码器的时间上下文；轻量级视觉适配器模块有效地将图像和视频特征映射到共同空间；分段采样策略保留了细粒度的时间动态。这些设计使得VideoGPT+在处理多样化视频内容和复杂推理任务时表现出色。

五、项目部署

安装基础依赖环境

conda create --name=videogpt_plus python=3.11
conda activate videogpt_plus

git clone https://github.com/mbzuai-oryx/VideoGPT-plus
cd VideoGPT-plus

pip install torch==2.1.2 torchvision==0.16.2 --index-url https://download.pytorch.org/whl/cu118
pip install transformers==4.41.0

pip install -r requirements.txt

export PYTHONPATH="./:$PYTHONPATH"

此外，安装FlashAttention可用于进行训练

pip install ninja

git clone https://github.com/HazyResearch/flash-attention.git
cd flash-attention
python setup.py install

六、如何学习大模型？

学习AI大模型是一个系统的过程，需要从基础开始，逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源，包括：AI大模型全套学习路线图（从入门到实战）、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等，资料免费分享！

1. 成长路线图&学习规划

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

这里，我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的，我们精选了一系列深入探讨大模型技术的书籍和学习文档，它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。（书籍含电子版PDF）

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说，书籍这些纯文字类的学习教材会觉得比较晦涩难以理解，因此，我们提供了丰富的大模型视频教程，以动态、形象的方式展示技术概念，帮助你更快、更轻松地掌握核心知识。

在这里插入图片描述

4. 大模型项目实战

学以致用 ，当你的理论知识积累到一定程度，就需要通过项目实战，在实际操作中检验和巩固你所学到的知识，同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

5. 大模型面试题

面试不仅是技术的较量，更需要充分的准备。

在你已经掌握了大模型技术之后，就需要开始准备面试，我们将提供精心整理的大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包，有需要的小伙伴可以微信扫描下方CSDN官方认证二维码，免费领取【保证100%免费】

如有侵权，请联系删除

NVIDIA AI技术专区

分享最新的 NVIDIA AI Software 资源以及活动/会议信息，精选收录AI相关技术内容，欢迎大家加入社区并参与讨论。

更多推荐

CUDA学习（一）——如何查看自己CUDA版本？

NVIDIA AI技术专区

DeepSeek-V3 模型到底强在哪，以及如何运行它？

近日，“杭州深度求索”推出了其最新的大型语言模型DeepSeek V3，这是一款强大的专家混合（Mixture-of-Experts, MoE）架构语言模型，总参数量达到671B，每个token激活的参数量为37B。经过综合测试它的性能已经比肩GPT-4o、Claude。这个消息在AI圈像一个新年烟花一样炸开。本文将来看看这个新的模型的特性，以及与其它模型的指标对比。然后在最后，我们在 H800