GPT4Point：首个点云多模态大模型 | CVPR 2024

由上海人工智能实验室（上海AI实验室）、香港大学、复旦大学、上海交通大学及香港中文大学联合提出首个点云多模态大模型GPT4Point，相关成果论文入选本届CVPR Highlight论文名单。GPT4Point能够在仅输入点云而不借助图片的情况下，完成3D物体识别、理解、问答等任务，并将点云的理解与生成结合在了一起，使得多模态大模型具备了对3D生成的控制能力。论文链接：https://arxiv.

风度78

852人浏览 · 2024-07-08 12:00:31

风度78 · 2024-07-08 12:00:31 发布

由上海人工智能实验室（上海AI实验室）、香港大学、复旦大学、上海交通大学及香港中文大学联合提出首个点云多模态大模型GPT4Point，相关成果论文入选本届CVPR Highlight论文名单。

GPT4Point能够在仅输入点云而不借助图片的情况下，完成3D物体识别、理解、问答等任务，并将点云的理解与生成结合在了一起，使得多模态大模型具备了对3D生成的控制能力。

论文链接：
https://arxiv.org/pdf/2312.02980
代码链接（点击“阅读原文”直达）：
https://github.com/Pointcept/GPT4Point

项目主页：

https://gpt4point.github.io

对于3D物体的理解和问答在具身智能、增强现实等AI应用领域占据重要地位。当前，图片-多模态大模型（MLLMs）在2D图像-文本理解和生成任务中表现优异，但在3D世界理解和生成方面的能力仍存在不足。现有模型主要聚焦于图像和文本的组合，缺乏对3D几何信息的准确解释。

如下图中下半部分中的“四面脸”所示。图片-多模态大模型（2D-MLLMs）因只能接受单个角度的输入，因而给出了错误的回答。为提升模型对3D信息理解的准确性，研究团队提出了点云多模态大模型（3D-MLLMs）GPT4Point。

方法解析

模型结构

借鉴图片-多模态大模型（2D-MLLMs）的发展历程，联合团队将创新点云多模态大模型（3D-MLLMs）的研究分成三个阶段：

- 点云的自监督骨干网络：

借鉴PointBERT，PointMAE等工作，通过Transformer得到一个点云骨干（Transformer-Based Backbone）。在模型中，仅仅使用冻结的点编码器（Point Encoder）得到点云的特征。

- 点云模态和文字模态的融合：

将点云特征和文本特征对齐并融合，进行一系列如分类等简单的任务。点云编码器处理点云以获得点云特征标记。同时，输入文本通过点Q-Former的文本标记器进行标记，生成文本特征标记。这些标记作为Point Q-Former(FQ)的输入，促进了点云和文本数据的融合。

- 融合特征输入到大语言模型（LLMs）中完成3D物体的问答：

第三阶段将融合或对齐后的特征输入到大语言模型（LLMs）中，从而完成对于3D物体的问答。对应阶段二。即将Q-Former之后的特征通过一个全连接层后接入到LLMs中。

数据集引擎

在解决模型结构后，联合团队构建了一个大型点云-文本数据集。基于Objaverse及Objaverse-XL数据集，研究人员通过组合和筛选，构建出了拥有1M个3D物体的数据集，并得到其对应点云作为模型的输入。

3D物体的文字标注需要借助图片-多模态大模型完成，为进一步降低标注成本，同时提高标注质量，联合团队提出了自动层级点云-文本标注引擎Pyramid-XL。其标注过程分为以下阶段：

- 单视图描述（第一级/Level-1）：

使用视觉语言模型BLIP-2从单视图渲染图像生成简洁的描述，长度约为10个词。

- 多视图描述（第二级/Level-2）：

通过ChatGPT综合多个第一级描述，创建综合的多视图描述，长度约为30个词。

- 视觉语言模型指令描述和问答对（第三级/Level-3）：

利用文本描述中CLIP得分最高的视图，使用高级视觉语言模型生成详细的密集描述及相应的问答数据集。

实验结果

3D点云理解

下图示例定性展示了GPT4Point的3D理解和3D问答效果。可以发现，GPT4Point能够准确理解3D物体的几何形状和颜色，并带来更便捷的交互体验。

为了进行进一步的量化分析，研究人员借鉴BLIP-2，制定了定量指标。在1000个由Objaverse-XL和LVIS交集组成的测试集上测试表明，GPT4Point整体优于图片-多模态大模型，具备更加全面得解读3D物体的能力。

可控的3D点云生成

相较于理解和问答，3D点云生成则是与之互逆的过程。研究人员发现，提升3D点云的理解能力，对于3D生成能力同样具有提升作用。通过创新结构，研究人员将Point Q-Former得到的特征插入到和文本Tokens一起送入CLIP中，并将输出的CLS Tokens进一步传递至Point-E。如下图所示，在均使用Point-E作为生成模型的情况下，直接从文本或单张图片生成3D物体存在缺陷。对比之下，即使使用低质量的点云，同样可保证高质量可控的3D物体生成。