729f0d1b000fd3e65913ce55d52c1b70.png

由上海人工智能实验室(上海AI实验室)、香港大学、复旦大学、上海交通大学及香港中文大学联合提出首个点云多模态大模型GPT4Point,相关成果论文入选本届CVPR Highlight论文名单。

GPT4Point能够在仅输入点云而不借助图片的情况下,完成3D物体识别、理解、问答等任务,并将点云的理解与生成结合在了一起,使得多模态大模型具备了对3D生成的控制能力。

论文链接:
https://arxiv.org/pdf/2312.02980
代码链接(点击“阅读原文”直达):
https://github.com/Pointcept/GPT4Point

项目主页:

https://gpt4point.github.io

90f7b3dfb21667d0feeb501c29e784ab.png

对于3D物体的理解和问答在具身智能、增强现实等AI应用领域占据重要地位。当前,图片-多模态大模型(MLLMs)在2D图像-文本理解和生成任务中表现优异,但在3D世界理解和生成方面的能力仍存在不足。现有模型主要聚焦于图像和文本的组合,缺乏对3D几何信息的准确解释。

如下图中下半部分中的“四面脸”所示。图片-多模态大模型(2D-MLLMs)因只能接受单个角度的输入,因而给出了错误的回答。为提升模型对3D信息理解的准确性,研究团队提出了点云多模态大模型(3D-MLLMs)GPT4Point。

2644bb625a3342feb87d7a03e5e8d3c9.png

方法解析

模型结构

借鉴图片-多模态大模型(2D-MLLMs)的发展历程,联合团队将创新点云多模态大模型(3D-MLLMs)的研究分成三个阶段:

- 点云的自监督骨干网络:

借鉴PointBERT,PointMAE等工作,通过Transformer得到一个点云骨干(Transformer-Based Backbone)。在模型中,仅仅使用冻结的点编码器(Point Encoder)得到点云的特征。

- 点云模态和文字模态的融合:

将点云特征和文本特征对齐并融合,进行一系列如分类等简单的任务。点云编码器处理点云以获得点云特征标记。同时,输入文本通过点Q-Former的文本标记器进行标记,生成文本特征标记。这些标记作为Point Q-Former(FQ)的输入,促进了点云和文本数据的融合。

- 融合特征输入到大语言模型(LLMs)中完成3D物体的问答:

第三阶段将融合或对齐后的特征输入到大语言模型(LLMs)中,从而完成对于3D物体的问答。对应阶段二。即将Q-Former之后的特征通过一个全连接层后接入到LLMs中。

aaa3a02d9b7f015edbfd4de3aa271d4d.png

数据集引擎

在解决模型结构后,联合团队构建了一个大型点云-文本数据集。基于Objaverse及Objaverse-XL数据集,研究人员通过组合和筛选,构建出了拥有1M个3D物体的数据集,并得到其对应点云作为模型的输入。

40d83b8bc7c29e8f349e8443b253824a.png

3D物体的文字标注需要借助图片-多模态大模型完成,为进一步降低标注成本,同时提高标注质量,联合团队提出了自动层级点云-文本标注引擎Pyramid-XL。其标注过程分为以下阶段:

- 单视图描述(第一级/Level-1):

使用视觉语言模型BLIP-2从单视图渲染图像生成简洁的描述,长度约为10个词。

- 多视图描述(第二级/Level-2):

通过ChatGPT综合多个第一级描述,创建综合的多视图描述,长度约为30个词。

- 视觉语言模型指令描述和问答对(第三级/Level-3):

利用文本描述中CLIP得分最高的视图,使用高级视觉语言模型生成详细的密集描述及相应的问答数据集。

实验结果

3D点云理解

下图示例定性展示了GPT4Point的3D理解和3D问答效果。可以发现,GPT4Point能够准确理解3D物体的几何形状和颜色,并带来更便捷的交互体验。

7c17b5105ff8ee46445d3cca0a0c8900.png

34e6ebc527dd6f8d305f57c73164e0a6.png

874f63e38df8b53bff5d3315843cd812.png

为了进行进一步的量化分析,研究人员借鉴BLIP-2,制定了定量指标。在1000个由Objaverse-XL和LVIS交集组成的测试集上测试表明,GPT4Point整体优于图片-多模态大模型,具备更加全面得解读3D物体的能力。

f3c8ec73a08bb65d560e5571cd04702e.png

可控的3D点云生成

相较于理解和问答,3D点云生成则是与之互逆的过程。研究人员发现,提升3D点云的理解能力,对于3D生成能力同样具有提升作用。通过创新结构,研究人员将Point Q-Former得到的特征插入到和文本Tokens一起送入CLIP中,并将输出的CLS Tokens进一步传递至Point-E。如下图所示,在均使用Point-E作为生成模型的情况下,直接从文本或单张图片生成3D物体存在缺陷。对比之下,即使使用低质量的点云,同样可保证高质量可控的3D物体生成。

f4e930a95eb4fe24d2c52c547354a776.png

Logo

NVIDIA官方入驻,分享最新的官方资源以及活动/会议信息,精选收录AI相关技术内容,欢迎大家加入社区并参与讨论。

更多推荐