GPT4Point:首个点云多模态大模型 | CVPR 2024
由上海人工智能实验室(上海AI实验室)、香港大学、复旦大学、上海交通大学及香港中文大学联合提出首个点云多模态大模型GPT4Point,相关成果论文入选本届CVPR Highlight论文名单。GPT4Point能够在仅输入点云而不借助图片的情况下,完成3D物体识别、理解、问答等任务,并将点云的理解与生成结合在了一起,使得多模态大模型具备了对3D生成的控制能力。论文链接:https://arxiv.
由上海人工智能实验室(上海AI实验室)、香港大学、复旦大学、上海交通大学及香港中文大学联合提出首个点云多模态大模型GPT4Point,相关成果论文入选本届CVPR Highlight论文名单。
GPT4Point能够在仅输入点云而不借助图片的情况下,完成3D物体识别、理解、问答等任务,并将点云的理解与生成结合在了一起,使得多模态大模型具备了对3D生成的控制能力。
论文链接:
https://arxiv.org/pdf/2312.02980
代码链接(点击“阅读原文”直达):
https://github.com/Pointcept/GPT4Point
项目主页:
https://gpt4point.github.io
对于3D物体的理解和问答在具身智能、增强现实等AI应用领域占据重要地位。当前,图片-多模态大模型(MLLMs)在2D图像-文本理解和生成任务中表现优异,但在3D世界理解和生成方面的能力仍存在不足。现有模型主要聚焦于图像和文本的组合,缺乏对3D几何信息的准确解释。
如下图中下半部分中的“四面脸”所示。图片-多模态大模型(2D-MLLMs)因只能接受单个角度的输入,因而给出了错误的回答。为提升模型对3D信息理解的准确性,研究团队提出了点云多模态大模型(3D-MLLMs)GPT4Point。
方法解析
模型结构
借鉴图片-多模态大模型(2D-MLLMs)的发展历程,联合团队将创新点云多模态大模型(3D-MLLMs)的研究分成三个阶段:
- 点云的自监督骨干网络:
借鉴PointBERT,PointMAE等工作,通过Transformer得到一个点云骨干(Transformer-Based Backbone)。在模型中,仅仅使用冻结的点编码器(Point Encoder)得到点云的特征。
- 点云模态和文字模态的融合:
将点云特征和文本特征对齐并融合,进行一系列如分类等简单的任务。点云编码器处理点云以获得点云特征标记。同时,输入文本通过点Q-Former的文本标记器进行标记,生成文本特征标记。这些标记作为Point Q-Former(FQ)的输入,促进了点云和文本数据的融合。
- 融合特征输入到大语言模型(LLMs)中完成3D物体的问答:
第三阶段将融合或对齐后的特征输入到大语言模型(LLMs)中,从而完成对于3D物体的问答。对应阶段二。即将Q-Former之后的特征通过一个全连接层后接入到LLMs中。
数据集引擎
在解决模型结构后,联合团队构建了一个大型点云-文本数据集。基于Objaverse及Objaverse-XL数据集,研究人员通过组合和筛选,构建出了拥有1M个3D物体的数据集,并得到其对应点云作为模型的输入。
3D物体的文字标注需要借助图片-多模态大模型完成,为进一步降低标注成本,同时提高标注质量,联合团队提出了自动层级点云-文本标注引擎Pyramid-XL。其标注过程分为以下阶段:
- 单视图描述(第一级/Level-1):
使用视觉语言模型BLIP-2从单视图渲染图像生成简洁的描述,长度约为10个词。
- 多视图描述(第二级/Level-2):
通过ChatGPT综合多个第一级描述,创建综合的多视图描述,长度约为30个词。
- 视觉语言模型指令描述和问答对(第三级/Level-3):
利用文本描述中CLIP得分最高的视图,使用高级视觉语言模型生成详细的密集描述及相应的问答数据集。
实验结果
3D点云理解
下图示例定性展示了GPT4Point的3D理解和3D问答效果。可以发现,GPT4Point能够准确理解3D物体的几何形状和颜色,并带来更便捷的交互体验。
为了进行进一步的量化分析,研究人员借鉴BLIP-2,制定了定量指标。在1000个由Objaverse-XL和LVIS交集组成的测试集上测试表明,GPT4Point整体优于图片-多模态大模型,具备更加全面得解读3D物体的能力。
可控的3D点云生成
相较于理解和问答,3D点云生成则是与之互逆的过程。研究人员发现,提升3D点云的理解能力,对于3D生成能力同样具有提升作用。通过创新结构,研究人员将Point Q-Former得到的特征插入到和文本Tokens一起送入CLIP中,并将输出的CLS Tokens进一步传递至Point-E。如下图所示,在均使用Point-E作为生成模型的情况下,直接从文本或单张图片生成3D物体存在缺陷。对比之下,即使使用低质量的点云,同样可保证高质量可控的3D物体生成。
更多推荐
所有评论(0)