论文分享 | 多模态 3D 目标检测
多模态3D目标检测器利用具有几何感知能力的激光雷达点云和语义丰富的RGB图像的优势,来提升检测性能。然而,这些模态之间存在的固有异质性,包括不均衡的收敛性和模态对齐问题,带来了巨大挑战。同时,面向检测的特征尺寸较大,也限制了现有融合策略在3D检测任务中捕捉长距离依赖关系的能力。本文介绍了一种快速且有效的多模态3D目标检测器,融合了本文提出的实例级对比蒸馏(ICD)框架和交叉线性注意力融合模块(CL
题目:Efficient Multimodal 3D Object Detector via Instance-Level Contrastive Distillation
概述
多模态3D目标检测器利用具有几何感知能力的激光雷达点云和语义丰富的RGB图像的优势,来提升检测性能。然而,这些模态之间存在的固有异质性,包括不均衡的收敛性和模态对齐问题,带来了巨大挑战。同时,面向检测的特征尺寸较大,也限制了现有融合策略在3D检测任务中捕捉长距离依赖关系的能力。本文介绍了一种快速且有效的多模态3D目标检测器,融合了本文提出的实例级对比蒸馏(ICD)框架和交叉线性注意力融合模块(CLFM)。ICD通过基于目标感知的对比蒸馏,使实例级图像特征与激光雷达特征表示对齐,确保细粒度的跨模态一致性。同时,CLFM提出了一种高效且可扩展的融合策略,增强了大规模多模态鸟瞰图(BEV)特征中的跨模态全局交互。在KITTI和nuScenes 3D目标检测基准测试中进行的大量实验,证明了本文方法的有效性。值得注意的是,本文的3D目标检测器在实现卓越效率的同时,性能超越了当前最先进的(SOTA)方法。
方法
本文提出一种高效的多模态3D目标检测器,核心在于实例级对比蒸馏(ICD)框架和交叉线性注意力融合模块(CLFM),整体架构如图1所示。本文的模型包括四个部分:激光雷达分支和图像分支,分别提取激光雷达和图像特征;提出的具有空间对准的潜在跨模态融合模块以空间对准的方式融合激光雷达和图像在每个阶段的特征;三维目标检测头根据所述多级融合特征生成三维目标检测结果。
图1.本文提出的方法概述。
2.1 预处理
运用基于激光雷达的增强策略处理点云数据,采用基于深度的CutMix方法维持图像和点云的初步对齐,通过ICD过程中的软学习实现实例级旋转增强的对齐。将RGB图像和体素化的激光雷达点云分别输入2D和3D骨干网络,获取图像特征和激光雷达特征。激光雷达点云经动态体素特征编码器、3D稀疏卷积等操作,形成空间BEV特征图;图像特征经Depth Net预测深度分布,生成平截头体点云,再经BEV池化得到语义丰富的BEV特征图。此外,预训练Voxel - RCNN模型作为基于激光雷达的教师网络,其参数在训练过程中冻结,用于生成与图像BEV特征图通道维度相同的BEV特征。
2.2 实例级对比蒸馏(ICD)
为解决模态间收敛速度不同导致的问题,本文引入知识蒸馏框架。基于真实边界框生成2D锚点,裁剪教师网络和学生网络的实例特征并池化为统一尺寸,避免压缩或回归操作破坏空间上下文。采用归一化温度缩放交叉熵损失,计算实例嵌入之间的相似度矩阵,构建实例级对比损失,在训练中动态调整蒸馏温度,促进细粒度空间学习,增强图像编码器捕捉3D空间旋转的能力,实现模态间的软对齐,有效监督实例级知识转移,确保平衡收敛,防止多模态检测器性能下降。
图2.(a) CutMix和GT采样确保了输入阶段的多模态对齐,同时保留了2D视角遮挡。(b)旋转上下文锚点查询图像BEV特征,通过实例级特征蒸馏实现3D旋转的软对齐。
2.3 交叉线性注意力融合(CLFM)
鉴于基于BEV的3D目标检测中,大尺寸BEV特征图限制了计算密集型交叉注意力的使用,本文提出基于线性注意力的融合模块CLFM。对两个分支的BEV特征进行线性投影和卷积操作,再经SiLU激活函数处理。通过线性投影生成查询、键和值,利用elu激活函数和RoPE处理查询和键,引入长距离建模中的遗忘门效应。采用双向融合策略,近似传统自注意力机制,将计算复杂度下降,实现高效的多模态融合。最后通过哈达玛积和线性操作整合低级特征和融合特征,经Conv1×1促进跨通道交互,生成融合的BEV表示。
图3.交叉线性注意力融合模块在知识蒸馏框架中的架构。
2.4 损失函数
将融合后的特征输入检测头,用于预测最终结果。损失函数由分类损失、回归损失和对比蒸馏损失构成。分类损失采用特定方式,通过调整权重因子和聚焦参数,降低容易分类样本的权重;回归损失使用特定的损失函数来监督预测的 3D 边界框;将 ICD 过程中的对比蒸馏损失与前两者相加,得到总体损失函数,用于对模型进行优化。
结果
本文选用 KITTI 和 nuScenes 数据集进行实验。KITTI 数据集包含 7481 个训练帧和 7518 个测试帧,将训练数据进一步划分为 3712 个训练帧和 3769 个验证帧,采用 3D 平均精度(AP)作为评估指标,针对汽车、行人、自行车分别设置不同的 IoU 阈值。nuScenes 数据集规模较大,包含 700 个训练场景、150 个验证场景和 150 个测试场景,每帧包含点云和 6 个校准图像,评估指标为平均精度均值(mAP)和 nuScenes 检测分数(NDS),mAP 通过计算十个类别在不同距离阈值下的平均值得到,NDS 则综合了 mAP 和其他属性指标。
表1.在KITTI验证集的性能比较。
表2.在NuScenes验证数据集上的性能比较。
图4.本文的方法与SOTA方法在多类别KITTI三维目标检测任务上的定性结果对比。
图5.在KITTI基准测试中,本文的方法在多类3D物体检测上达到了最高的mAP,运行速度达到了71ms。
paper 2
题目:SSLFusion: Scale & Space Aligned Latent Fusion Model for Multimodal 3D Object Detection
概述
基于深度神经网络的多模态 3D 目标检测已取得显著进展。然而,由于从 2D 图像和 3D 点云提取的特征在尺度和空间信息上存在不对齐的问题,该领域仍面临挑战。现有方法通常在单阶段聚合多模态特征,然而,利用多阶段跨模态特征对于检测不同尺度的物体至关重要。因此,这些方法往往难以有效地整合不同尺度和模态的特征,从而限制了检测精度。此外,现有方法中常用的基于查询-键-值(QKV)的交叉注意力操作虽然有助于通过捕捉非局部上下文来推断物体的位置和存在,但这种方法往往会增加计算复杂度。为应对这些挑战,本文提出了 SSLFusion,一种全新的尺度与空间对齐潜在融合模型,它由尺度对齐融合策略(SAF)、3D 到 2D 空间对齐模块(SAM)和潜在跨模态融合模块(LFM)组成。SAF 通过在多个层次上聚合图像和点云的特征,缓解了模态间的尺度不对齐问题。SAM 旨在通过将 3D 坐标信息融入 2D 图像特征,缩小图像和点云特征之间的模态差距。此外,LFM 在潜在空间中捕获跨模态非局部上下文,而无需使用基于 QKV 的注意力操作,从而降低了计算复杂度。在 KITTI 和 DENSE 数据集上的实验表明,本文的 SSLFusion 优于当前最先进的方法。在 KITTI 测试集的中等难度水平上,与最先进的方法 GraphAlign 相比,本文的方法在 3D 平均精度(AP)上获得了 2.15% 的绝对增益。
方法
SSLFusion 模型包含四个主要部分。一是图像分支,利用 2D 骨干网络(如 ResNet50+FPN)提取多级别图像特征图;二是 LiDAR 分支,通过多阶段 3D 稀疏卷积和 3D 金字塔融合来处理点云数据;三是潜在跨模态融合模块(LFM)与空间对齐部分,负责融合图像分支的特征和 3D 骨干网络中各阶段 3D 稀疏卷积的体素特征;四是 3D 目标检测头,基于多阶段潜在跨模态融合模块输出的多级别融合特征,生成 3D 目标的位置和分类分数。
图1.本文提出的方法总体架构。
2.1 尺度对齐融合
多数现有方法在融合阶段忽视或较少关注尺度对齐问题。本文提出的尺度对齐融合策略,旨在解决这一问题。在 2D 或 3D 卷积骨干网络中,不同阶段的特征包含来自不同感受野的信息。该策略通过在每个阶段依次融合 2D 和 3D 分支的特征,对齐感受野信息,避免错误信息融合(可结合图 3 理解,不同层级的图像特征和体素的对齐融合关系,浅层 3D 体素特征与深层图像特征融合可能引入噪声,而尺度对应融合能减少这种情况)。此外,受特征金字塔网络和 voxel - FPN 启发,设计了 3D 金字塔融合块。它在 3D 稀疏卷积骨干网络之后,利用稀疏卷积权重进行层间上采样,并建立侧向连接,将上采样的 3D 特征与骨干网络对应层级相加,有效融合图像特征,减少信息损失,增强多尺度信息,且不会增加模型参数数量,保证了计算效率。
图2.不同层次图像特征和体素的对齐融合描述。
(a)和(b)展示了图像中远处物体的像素与三维主干第一阶段的体素之间的对齐关系。包含在远处物体中的体素更少,并且它们的数量随着3D卷积的下采样而进一步减少。©和(d)分别表示图像骨干对目标获得的第一级和第四级图像特征的特征关注。从图中可以看出,第1级的图像特征对于远距离物体具有前景特征,而第4级只有背景特征。因此,将阶段1的体素与阶段4的图像特征在3D中融合会引入噪声特征。
2.2 3D 到 2D 空间对齐
尽管尺度对齐融合策略缓解了跨空间模态融合中的尺度不对齐问题,但由于 2D 和 3D 空间的固有差异,仍存在一些不对齐情况。受前人方法启发,本文引入 3D 到 2D 空间对齐方法。该方法通过编码与图像特征对应的体素中心位置,将 3D 空间位置信息融入 2D 特征中。具体操作是先将图像特征图上采样到原始图像大小,再通过相关计算得到对应的稀疏图像特征,接着生成 3D 深度嵌入,与稀疏图像特征相乘,得到深度引导的稀疏图像特征,以此缩小两种模态之间的空间差距。
2.3 潜在跨模态融合
现有深度特征融合方法常使用基于 QKV 的跨模态注意力机制,计算复杂度较高。本文提出潜在跨模态融合策略,以降低融合阶段的时空复杂度。在获取 3D 到 2D 空间对齐的稀疏图像特征和相应体素特征后,先将它们输入共享参数的连体多层感知器(Siamese MLPs),提取连体表示特征。然后,将这些特征输入高效跨模态交互(ECMI)模块。ECMI 模块受 LatentGNN 启发,引入两组潜在特征构建增强的跨模态图,通过消息传递等操作在潜在空间中进行跨模态交互,更新输入特征。最后,结合学习到的注意力权重,对交互后的特征进行融合,得到最终的融合特征。该过程无需维护完整的亲和矩阵,计算复杂度低,相比基于 QKV 的交叉注意力操作有显著提升。
图3.具有3d到2d空间对齐的潜在跨模态融合模块结构
结果
数据集
KITTI 数据集:这是常用的多模态 3D 目标检测数据集,包含 7481 个训练样本和 7518 个测试样本,涵盖 RGB 图像、LiDAR 点云、3D 边界框标注和物体类别信息。由于测试集无真实标注,将训练样本拆分为 3712 个训练集样本和 3769 个验证集样本。
DENSE 数据集:该数据集用于评估算法在恶劣天气条件下的性能。按照 60%、15% 和 25% 的比例划分训练集、验证集和测试集,并过滤掉相机视野内 LiDAR 点数少于 3000 的帧。训练集包含多种天气条件,测试集主要关注所有天气和浓雾两种条件,分别有 2998 个场景和 88 个场景。
表1.本文的模型与最先进的模型在KITTI测试和验证集上的比较。
表2.骑自行车者和行人类别的KITTI 验证集的性能比较。
表3.在Car类的DENSE测试集上的性能比较。
总结
第一篇文章提出了一种新的实例级对比蒸馏框架,结合交叉线性注意力融合模块来构建高效高性能的多模态三维目标检测器。实例级对比蒸馏框架促进了激光雷达和图像模式之间的有效知识转移,确保在统一的BEV空间中进行细粒度对齐。同时,交叉线性注意力融合模块引入了一种可扩展且高效的融合策略,能够在线性复杂度下计算特征之间的远程依赖关系。
第二篇文章提出了SSLFusion,这是一种用于多模态3D目标检测的新方法,专注于对齐2D图像和3D点云特征之间的尺度和空间差异。SSLFusion利用多阶段融合策略,集成了两种模式的功能,确保更连贯和有区别的表示。SSLFusion的关键贡献是ScaleAligned融合策略,该策略通过在检测流程的每个阶段融合两种模式特征来减轻尺度不校准。3D到2D空间对齐模块通过将3D空间信息归因于2D特征来减少多式联运差距。此外,潜在跨模态融合模块通过引入潜在空间,高效捕获非局部上下文,大大减少了计算时间,提高了检测精度。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
更多推荐
所有评论(0)