# 如何像人一样理解交通场景?大步迈向智慧交通

笔者是做规划的,所以下面思考是从规划角度出发。目前learning-based方法,尤其是end2end特别流行。这种直接从传感器数据到trajectory或最终的控制信号的方式,相较于传统模块化方法能够一定程度上减少人工调试成本,且直接将最终的规控作为优化目标,减少了算力浪费。

在end2end方法的众多网络结构中,基本遵循范式:传感器数据->特征提取->场景编码->规划结果输出。往往交通场景中存在大量的动静态障碍物,静态障碍物还好说,动态障碍物的行为则存在大量不确定性,极大程度影响最后的规划结果。所以,上述范式中的场景编码尤为重要,如果能很好地捕捉各个动静态交通要素之间的时空耦合关系,则自然而然利于最后规划结果的输出,反之亦然。

目前的一些方法,大多数直接提取动静态交通场景要素如人、车、车道线和道路边界等特征,然后使用Transformer隐式进行时空建模。这种让模型自己去学习交通要素复杂耦合关系的思路确实比较直观,但可能会存在泛化能力不足的问题。今天分享的这篇文章,针对上述问题,提出了一种比较新颖的解决思路,事先根据人类先验知识建立场景关系图,然后再通过数据驱动,学习图中各个要素的注意力权重,这种显示构建交通要素时空耦合关系图的方式能在一定程度上给我们带来一些启发。

文章主要贡献

Fig.1. 以风险评估任务为例。(a)数据驱动模型通过CNN、Transformer等通用结构提取抽象时空特征。(b)人类驾驶员可以快速识别关键实例和空间关系,并根据他们的常识进一步理解交互关系。(c)在驾驶员认知的基础上,交通专家对驾驶场景的理解更加细粒度和全面,研究各类交通实例的行为模式和内在关联。(d)HKTSG共同利用人类驾驶员和交通专家的知识,在分层框架内指导数据驱动的学习过程,以实现更全面、更可靠的态势感知。

  1. 受人类认知启发,作者提出了一个分层知识引导的交通场景图表示学习框架,用于智能车辆。该框架充分利用了通用领域知识特定领域知识来引导动态交通场景的整个认知过程。

  2. 构建了针对行人和车辆的特定图,引导学习过程捕捉每种交通实例类型的运动模式内在关联

  3. 将全局环境的视觉特征整合到局部实例级场景图中,实现了对行人、车辆、道路、环境动态的全面而鲁棒的理解。

  4. 在两个典型的驾驶场景理解任务上实现了该框架,并进行了大量的实验来验证其有效性。实验结果证明该方法在多个数据集:IESG, Non-IESG, 571-Honda, 和1043-Carla上实现了SOTA表现。

详解HKTSG

问题定义

Fig.2. HKTSG框架。HKTSG包括两个阶段:知识引导的场景图生成和数据驱动的场景图学习。在第一阶段,全局图、行人图和车辆图是通过人类驾驶员和交通专家的知识引导生成的。在第二阶段,HKTSG通过分层空间-领域交互学习、时域交互学习和全局感知的视觉表示进行推理。

知识引导的场景图

Fig.3. 实例之间的关系

关系分为两大类:距离(Distance)和位置(Position),距离又包含静态(Static)和动态(Dynamic),位置又包含方向(Orientation)和归属关系(Affiliation)。

静态距离直接由实例之间的BEV坐标计算得到,有very near、near和visable等,动态距离则是根据相邻帧的实例间距离变化计算,有getting close to、getting away from和passing by等。方向关系根据实例之间的航向角计算,有direct front、sidely front和direct rear等。归属关系根据实例与车道的位置关系计算,有is in。Fig.4. 展示了(a)和(b)两种典型场景下建立的场景图。(上述建立关系图的方式适用于全局、车辆和行人场景图。) whaosoft aiot http://143ai.com

Fig.4. 场景图展示

数据驱动的场景图学习

经过上述知识引导的场景图,一个实例间基本框架已经构建完成,接下来需要在这个框架基础上学习实例间动态的时空交互关系 。这里采用数据驱动的方法,具体地分为分层的空域交互学习时域依赖学习,对应Fig.2. 的右半部分。

分层的空域交互学习

时域交互学习

实验

作者在两种任务的场景理解上评估模型:行人碰撞预测(pedestrian collision prediction)和主观风险评估(subjective risk assessment)。前者预测自车与行人发生潜在碰撞的场景,后者则定性评估了交通场景中的潜在风险。这两种任务都有助于自动驾驶系统规避风险,提高驾驶的安全性和有效性。

定量结果

数据集。作者在 IESG、Non-IESG、571-Honda和1043-Carla数据集上进行了实验。指标。精度(accuracy ,Acc),曲线下面积( area under the curve,AUC)和F1分数(F1 score,F1)。

对比实验

对比的Baseline有CNN-LSTM、MRGCN-Mean、MRGCN-LSTM-last、MRGCN+LSTM-attn、MRGIN和PCRA。如Table I和Table II所示,我们在IESG和Non-IESG数据集上进行了行人碰撞预测任务的测试,在571-honda-sg1043-carla-sg数据集上进行了主观风险评估测试。可以看到,HKTSG在两种任务上均达到SOTA水平。

Table I. 在数据集IESG和Non-IESG上的结果

Table II. 在数据集571-Honda和571-Honda上的结果

消融实验

Table III. 分层场景图(HIERARCHICAL SCENE GRAPH DESIGN)的消融

可视化

可视化结果如Fig.5. 所示,在两种场景下的结果,场景图中每个节点具有不同的注意力权重。

ig.5. 以两种行人安全关键场景为例的节点注意权可视化。颜色较深的节点表示它们在风险评估中更重要

 # 自动驾驶系统:全景概览

从Gartner官方的最新技术成熟度曲线可以看出,自动驾驶目前处在技术发展的中后段,正逐渐走向普及应用的成熟期。

自动驾驶,已经成为汽车的一个重要的功能属性,或许不久的将来,人们的生活将离不开自动驾驶功能。

因此,为了和大家一起更全面深入的学习和理解自动驾驶系统,“雪岭飞花”计划编写一个系列文章,一共十篇,涵盖自动驾驶系统架构,感知系统,控制系统,执行系统,支持系统,开发体系,以及目前主要主机厂和科技公司的自动驾驶产品方案,以及系统特点。

00 编写方案

自动驾驶系统产业链长,系统复杂,相关的论文浩如烟海。因此,即便是分为十篇文章,每篇万字以上,也很难讲的很深。“雪岭飞花”结合多年一线的工作经验,以及业内多位资深专家的支持,尽量把每个方面最精华的内容提炼出来,尝试用最通俗易懂的方式做一些介绍。

该系列文章是希望描述自动驾驶的全景图主要追求“广”,而不是“深”。同时,在“广”的基础上,尽量覆盖各技术点的关键点。而对于每个具体技术点的深入描述,在后续的其他文章系列中再做展开。

因此本系列文章,对于下面情况可能会带来帮助:

  • 初出校门的大学生或者希望转行到自动驾驶的职场人:将本系列文章作为可选就业方向的索引,结合自己专业和优势,选择适合的从业方向。

  • 投资经理:了解目标公司所在赛道的竞争态势和优势对比,以及所在行业的上下游,协助分析投资价值。

  • 相关行业产品经理:了解本公司产品在市场上的定位和竞争优势,对于定义或者调整产品策略做参考。

  • 其他对于自动驾驶感兴趣的行业内外专家:了解自动驾驶全景图,熟悉自动驾驶行业的体系结构和发展现状,协助洞察可能的合作机会。

对于下面情况,可能没有太大帮助:

  • 细分领域的研发工程师:如果想了解某个具体技术点的深入专业分析,本系列文件无法提供太多帮助。建议直接阅读相关论文,或者可以留言或者私信,在雪岭飞花专家微信群中交流,协助对接对应领域的专家。

  • 没有自动驾驶背景的一般汽车消费者。文章会有一定的专业深度,有些内容需要一定的专业背景可能才能理解。如果仅仅是希望买一辆具备自动驾驶功能的汽车,可以直接在体验店进行实车的功能体验,体验店的用户主理会有更适合的自动驾驶功能介绍。

定义:

  1. 自动驾驶的概念:文中提到的“自动驾驶”,涵盖L0到L5的驾驶辅助、高级驾驶辅助、智能驾驶、自动驾驶、无人驾驶。在一定语境情况下,“自动驾驶”上述其他几个名词含义相通,除非必要,否则文中不做特别区分。

  2. 自动驾驶的搭载对象:系列文章所描述的自动驾驶系统主要是应用在普通消费者的乘用车上,并非是面向矿区、园区或者港口无人车等。不过,由于其技术方案有一定的通用性,需要的话,读者可以做一些选择性的参考。

初步规划的十篇文章,主要提纲如下。

01 第一篇:自动驾驶:系统架构

第一部分:描述自动驾驶的基本概念、分级、应用场景以及常见自动驾驶功能的介绍,例如ACC,AEB,LKA,ICC,NOA等。

第二部分:云管端架构方案,不同级别自动驾驶功能的系统架构,尤其重点介绍L3级自动驾驶系统方案,包括冗余系统设计、功能安全策略等。

第三部分:智能汽车电子电器架构的演进路线,舱驾融合的技术方案,以及工程化挑战。

02 第二篇:自动驾驶:感知系统

主要介绍自动驾驶的感知系统(传感器),感知是自动驾驶系统的眼睛,其性能会决定整个自动驾驶系统性能的上限。

第一部分:车外目标感知单元,包括摄像头、毫米波雷达、激光雷达、超声波雷达等。

毫米波雷达和激光雷达在之前的文章中介绍的较多,本篇会将之前的内容做汇总和提炼,同时站在整个感知系统的角度,补充新的交叉内容。

第二部分:高精地图(“先验”感知)、定位和惯导系统(自车感知)的应用现状和目前发展趋势。

第三部分:讨论自动驾驶的感知系统发展趋势,“纯视觉路线”是终极解决方案吗?“激光雷达路线”和“高精地图”真的能“去”吗?

03 第三篇:自动驾驶:控制系统硬件

介绍自动驾驶系统的“大脑”:域控制器。域控制器是整个自动驾驶系统的核心,也是最为复杂的部分,因此分硬件和软件两篇介绍。

第一部分:介绍域控制器的硬件架构,域集中和舱驾融合需求下的硬件方案。

第二部分:域控制器主控SoC芯片的主要玩家、Roadmap和技术特点。包括英伟达(Orin、Thor),高通(8650、8775、8797),地平线(J3、J5、J6),Mobileye(EQ5、EQ6),华为(MDC510、610、810),黑芝麻(A1000L,A1000Pro),芯驰科技等。

第三部分:电源管理、MCU、SerDes、Switch等关键器件介绍。

04 第四篇:自动驾驶:控制系统软件

控制系统软件是自动驾驶系统的“灵魂”。

第一部分:软件架构、操作系统和中间件解决方案。

第二部分:感知软件,包括BEV、Transformer、Occupancy Network等最新发展现状。

第三部分:规控软件,常见的规划算法和控制算法介绍。端到端大模型的应用介绍。

05 第五篇:自动驾驶:执行系统

第一部分:驱动系统架构方案,混合动力/纯电系统的分类,优劣势以及应用现状。汽车增程器和驱动电机特点、发展现状和主要玩家。

第二部分:动力电池发展现状和主要玩家,全固态电池原理和发展趋势。

第三部分:线控制动、线控转向、主动悬架产品特点和技术发展现状。

06 第六篇:自动驾驶:支持系统

第一部分:云端设计架构,OTA方案,无线通信,DSSAD数据记录系统等。

第二部分:域内关键技术,包括电子配电、时间同步、时间敏感网络、LVDS、车载以太网技术方案和发展。

第三部分:自动驾驶中的诊断技术,汽车功能安全、预期功能安全和信息安全,安全刷写和安全启动技术方案。

07 第七篇:自动驾驶:开发体系

第一部分:整车开发流程,自动驾驶系统的开发流程介绍。汽车智能化对于开发体系带来的挑战,瀑布还是敏捷?

第二部分:自动驾驶系统中的数据闭环系统。

第三部分:自动驾驶真值系统的构建方法,硬件在软、软件在环、控制器在环等测试方法,自动驾驶智驾性能评价体系。

08 第八篇:自动驾驶:主要玩家(传统主机厂)

主要介绍下面玩家的自动驾驶方案:

一汽、东风(岚图)、长安(深蓝、阿维塔),上汽(乘用车、智己、五菱、华域)、北汽(极狐、享界)、广汽(埃安、昊铂)、比亚迪(腾势、仰望)、吉利(极氪、极越、亿咖通、吉咖智能、福瑞泰克)、长城(毫末)、奇瑞(大卓智能)、赛力斯(问界)、江淮(X6平台)等;

以及,奔驰、宝马、大众/奥迪、丰田、本田等;

09 第九篇:自动驾驶:主要玩家(新势力主机厂)

主要介绍下面玩家的自动驾驶方案:特斯拉(FSD)、蔚来(NOP)、小鹏(XNGP)、理想(AD Max)、零跑、哪吒、小米等。

10 第十篇:自动驾驶:主要玩家(方案供应商)

主要介绍下面玩家的自动驾驶方案:华为(ADS)、Momenta(Mpolit、MSD)、卓驭科技(成行)、百度 Appolo、知行科技(iDC)、宏景智驾、轻舟智航(轻舟乘风)、元戎启行(DeepRoute-Driver)、Pony(小马识途)、商汤绝影、畅行智驾、德赛西威、均联智行、易航智能、纽劢科技(MaxDrive)、魔视智能(MagicPilot)、旷视科技等。

 # 汇总特征增强/量产部署/高效标注三大主题

近年来,自动驾驶因其在减轻驾驶员负担和提高驾驶安全方面的潜力而越来越受到关注。基于视觉的三维占用预测是一种新兴的感知任务,适用于具有成本效益的自动驾驶感知系统,它可以根据图像输入预测自动驾驶汽车周围三维体素网格的空间占用状态和语义。尽管许多研究已经证明,与以物体为中心的感知任务相比,3D占用预测具有更大的优势,但仍缺乏专门针对这一快速发展的领域的综述。本文首先介绍了基于视觉的三维占用预测的背景,并讨论了这项任务中的挑战。其次,我们从特征增强、部署友好性和标签效率三个方面全面调查了基于视觉的3D占用预测的进展,并深入分析了每类方法的潜力和挑战。最后总结了当前的研究趋势,并提出了一些鼓舞人心的未来展望。

开源链接:https://github.com/zya3d/Awesome-3D-Occupancy-Prediction

总结来说,本文的主要贡献如下:

  • 据我们所知,这篇论文是第一篇针对基于视觉的自动驾驶3D占用预测方法的全面综述。

  • 本文从特征增强、计算友好和标签高效三个角度对基于视觉的三维占用预测方法进行了结构总结,并对不同类别的方法进行了深入分析和比较。

  • 本文提出了基于视觉的3D占用预测的一些鼓舞人心的未来展望,并提供了一个定期更新的github存储库来收集相关论文、数据集和代码。

图3显示了基于视觉的3D占用预测方法的时序概述,图4显示了相应的分层结构分类法。

相关背景

真值生成

生成GT标签是3D占用预测的一个挑战。尽管许多3D感知数据集,如nuScenes和Waymo,提供了激光雷达点分割标签,但这些标签是稀疏的,难以监督密集的3D占用预测任务。Wei等人已经证明了使用密集占用作为GT的重要性。最近的一些研究集中在使用稀疏激光雷达点分割注释生成密集的3D占用注释,为3D占用预测任务提供一些有用的数据集和基准。

3D占用预测任务中的GT标签表示3D空间中的每个体素是否被占用以及被占用体素的语义标签。由于三维空间中有大量的体素,因此很难手动标记每个体素。一种常见的做法是对现有的3D点云分割任务的地面实况进行体素化,然后根据体素中点的语义标签通过投票生成3D占用预测的GT。然而,通过这种方式生成的地面实况是稀疏的。如图1所示,在道路等未标记为已占用的地方,仍有许多已占用的体素。监督具有这种稀疏地面实况的模型将导致模型性能下降。因此,一些工作研究如何自动或半自动生成高质量的密集3D占用注释。

如图2所示,生成密集的三维占用注释通常包括以下四个步骤:

  • 取连续的原始激光雷达帧,将激光雷达点分割为静态背景和动态前景。

  • 在静态背景上叠加连续的激光雷达帧,并基于定位信息进行运动补偿,以对齐多帧点云,从而获得更密集的点云。在动态前景上叠加连续的激光雷达帧,根据目标帧和目标id对齐动态前景的点云,使其更加密集。注意,尽管点云相对密集,但体素化后仍有一些间隙,需要进一步处理。

  • 合并前景和背景点云,然后对它们进行体素化,并使用投票机制来确定体素的语义,从而产生相对密集的体素注释。

  • 通过后处理对上一步中获得的体素进行细化,以实现更密集、更精细的注释,作为GT。

数据集

在本小节中,我们介绍了一些常用于3D占用预测的开源、大规模数据集,表1中给出了它们之间的比较。

NUYv2数据集由来自各种室内场景的视频序列组成,由Microsoft Kinect的RGB和Depth相机拍摄。它包含1449对密集标记的对齐RGB和深度图像,以及来自3个城市的407024个未标记帧。虽然主要用于室内使用,不适合自动驾驶场景,但一些研究已将该数据集用于3D占用预测。

SemanticKITTI是一个广泛用于3D占用预测的数据集,包括来自KITTI数据集的22个序列和43000多个帧。它通过覆盖未来的帧、分割体素和通过点投票分配标签来创建密集的3D占用注释。此外,它通过追踪光线来检查汽车的每个位姿,传感器可以看到哪些体素,并在训练和评估过程中忽略不可见的体素。然而,由于它是基于KITTI数据集的,因此它只使用来自前置摄像头的图像作为输入,而后续数据集通常使用多视图图像。如表2所示,我们在SemanticKITTI数据集上收集了现有方法的评估结果。

NuScenes占用率是基于户外环境的大规模自动驾驶数据集NuScenes构建的3D占用率预测数据集。它包含850个序列、200000个帧和17个语义类别。数据集最初使用增强和净化(AAP)管道生成粗略的3D占用标签,然后通过手动增强来细化标签。此外,它还引入了OpenOccupancy,这是周围语义占用感知的第一个基准,以评估先进的3D占用预测方法。

随后,Tian等人在nuScenes和Waymo自动驾驶数据集的基础上,进一步构建了用于3D占用预测的Occ3D nuScene斯和Occ3D Waymo数据集。他们引入了一种半自动标签生成管道,该管道利用现有的标记3D感知数据集,并根据其可见性识别体素类型。此外,他们还建立了大规模3D占用预测的Occ3d基准,以加强不同方法的评估和比较。如表2所示,我们在Occ3D nuScenes数据集上收集了现有方法的评估结果。

此外,与Occ3D裸体和裸体占用类似,OpenOcc也是一个基于裸体数据集为3D占用预测构建的数据集。它包含850个序列、34149个帧和16个类。请注意,该数据集提供了八个前景目标的额外注释,这有助于下游任务,如运动规划。        whaosoft aiot http://143ai.com 

关键挑战

尽管近年来基于视觉的三维占用预测取得了重大进展,但它仍然面临着来自特征表示、实际应用和注释成本的限制。对于这项任务,有三个关键挑战:(1)从2D视觉输入中获得完美的3D特征是困难的。基于视觉的3D占有率预测的目标是仅从图像输入实现对3D场景的详细感知和理解,然而图像中固有的深度和几何信息的缺失对直接从中学习3D特征表示提出了重大挑战。(2)三维空间中繁重的计算负载。3D占用预测通常需要使用3D体素特征来表示环境空间,这不可避免地涉及用于特征提取的3D卷积等操作,这大大增加了计算和内存开销,并阻碍了实际部署。(3)昂贵的细粒度注释。3D占用预测涉及预测高分辨率体素的占用状态和语义类别,但实现这一点通常需要对每个体素进行细粒度的语义注释,这既耗时又昂贵,给这项任务带来了瓶颈。

针对这些关键挑战,基于视觉的自动驾驶三维占用预测研究工作逐步形成了特征增强、部署友好和标签高效三条主线。特征增强方法通过优化网络的特征表示能力来缓解3D空间输出和2D空间输入之间的差异。部署友好的方法旨在通过设计简洁高效的网络架构,显著降低资源消耗,同时确保性能。即使在注释不足或完全不存在的情况下,高效标签方法也有望实现令人满意的性能。接下来,我们将围绕这三个分支全面概述当前的方法。

特征增强方法

基于视觉的3D占用预测的任务涉及从2D图像空间预测3D体素空间的占用状态和语义信息,这对从2D视觉输入获得完美的3D特征提出了关键挑战。为了解决这个问题,一些方法从特征增强的角度改进了占用预测,包括从鸟瞰图(BEV)、三视角图(TPV)和三维体素表示中学习。

BEV-based methods

一种有效的学习占用率的方法是基于鸟瞰图(BEV),它提供了对遮挡不敏感的特征,并包含一定的深度几何信息。通过学习强BEV表示,可以实现稳健的3D占用场景重建。首先使用2D骨干网络从视觉输入中提取图像特征,然后通过视点变换获得BEV特征,并最终基于BEV特征表示完成3D占用预测。基于BEV的方法如图5所示。

一种直接的方法是利用来自其他任务的BEV学习,例如在3D对象检测中使用BEVDet和BEVFormer等方法。为了扩展这些占用学习方法,可以在训练过程中加入或更换占用头,以获得最终结果。这种自适应允许将占用估计集成到现有的基于BEV的框架中,从而能够同时检测和重建场景中的3D占用。基于强大的基线BEVFormer,OccTransformer采用数据增强来增加训练数据的多样性,以提高模型泛化能力,并利用强大的图像主干从输入数据中提取更多信息特征。它还引入了3D Unet Head,以更好地捕捉场景的空间信息,并引入了额外的损失函数来改进模型优化。

TPV-based methods

虽然与图像相比,基于BEV的表示具有某些优势,因为它们本质上提供了3D空间的自上而下的投影,但它们固有地缺乏仅使用单个平面来描述场景的细粒度3D结构的能力。基于三视角(TPV)的方法利用三个正交投影平面对3D环境进行建模,进一步增强了视觉特征对占用预测的表示能力。首先,使用2D骨干网络从视觉输入中提取图像特征。随后,将这些图像特征提升到三视图空间,最终基于三个投影视点的特征表示实现3D占用预测。基于BEV的方法如图7所示。

除了BEV功能外,TPVFormer还以相同的方式生成前视图和侧视图中的功能。每个平面从不同的视角对3D环境进行建模,并且它们的组合提供了对整个3D结构的全面描述。具体来说,为了获得三维空间中一个点的特征,我们首先将其投影到三个平面中的每一个平面上,并使用双线性插值来获得每个投影点的特征。然后,我们将三个投影特征总结为三维点的合成特征。因此,TPV表示可以以任意分辨率描述3D场景,并为3D空间中的不同点生成不同的特征。它进一步提出了一种基于变换器的编码器(TPVFormer),以有效地从2D图像中获得TPV特征,并在TPV网格查询和相应的2D图像特征之间执行图像交叉关注,从而将2D信息提升到3D空间。最后,TPV特征之间的交叉视图混合注意力实现了三个平面之间的交互。TPVFormer的总体架构如图8所示。

Voxel-based methods

除了将3D空间转换为投影透视(如BEV或TPV)之外,还存在直接对3D体素表示进行操作的方法。这些方法的一个关键优势是能够直接从原始3D空间学习,最大限度地减少信息损失。通过利用原始三维体素数据,这些方法可以有效地捕捉和利用完整的空间信息,从而更准确、更全面地了解占用情况。首先,使用2D骨干网络提取图像特征,然后,使用专门设计的基于卷积的机制来桥接2D和3D表示,或者使用基于查询的方法来直接获得3D表示。最后,基于所学习的3D表示,使用3D占用头来完成最终预测。基于体素的方法如图9所示。

Convolution-based methods

一种方法是利用专门设计的卷积架构来弥合从2D到3D的差距,并学习3D占用表示。这种方法的一个突出例子是采用U-Net架构作为特征桥接的载体。U-Net架构采用编码器-解码器结构,在上采样和下采样路径之间具有跳跃连接,保留低级别和高级别特征信息以减轻信息损失。通过不同深度的卷积层,U-Net结构可以提取不同尺度的特征,帮助模型捕捉图像中的局部细节和全局上下文信息,从而增强模型对复杂场景的理解,从而进行有效的占用预测。

Monoscene利用U-net进行基于视觉的3D占用预测。它引入了一种称为二维特征视线投影(FLoSP)的机制,该机制利用特征透视投影将二维特征投影到三维空间上,并根据成像原理和相机参数计算二维特征上三维特征空间中每个点的坐标,以对三维特征空间的特征进行采样。这种方法将2D特征提升到统一的3D特征图中,并作为连接2D和3D U-net的关键组件。Monoscene还提出了一个插入在3D UNet瓶颈处的3D上下文关系先验(3D CRP)层,该层学习n向体素到体素的语义场景关系图。这为网络提供了一个全局感受场,并由于关系发现机制而提高了空间语义意识。Monoscene的总体架构如图10所示。

Query-based methods

从3D空间学习的另一种方式涉及生成一组查询以捕捉场景的表示。在该方法中,使用基于查询的技术来生成查询建议,然后将其用于学习3D场景的综合表示。随后,应用图像上的交叉注意和自注意机制来细化和增强所学习的表征。这种方法不仅增强了对场景的理解,而且能够在3D空间中进行准确的重建和占用预测。此外,基于查询的方法提供了更大的灵活性来基于不同的数据源和查询策略进行调整和优化,从而能够更好地捕获本地和全局上下文信息,从而促进3D占用预测表示。

深度可以作为选择占用查询的有价值的先验,在Voxformer中,估计的深度被用作预测占用和选择相关查询的先验。只有占用的查询用于使用可变形注意力从图像中收集信息。更新后的查询提议和掩蔽的令牌然后被组合以重建体素特征。Voxformer从RGB图像中提取2D特征,然后利用一组稀疏的3D体素查询来索引这些2D特征,使用相机投影矩阵将3D位置链接到图像流。具体而言,体素查询是3D网格形状的可学习参数,旨在使用注意力机制将图像中的特征查询到3D体积中。整个框架是由类不可知的提议和特定于类的分段组成的两阶段级联。阶段1生成类不可知的查询建议,而阶段2采用类似于MAE的架构将信息传播到所有体素。最后,对体素特征进行上采样以进行语义分割。VoxFormer的总体架构如图11所示。

Occ3D nuScenes数据集上特征增强方法的性能比较如表3所示。结果表明,直接处理体素表示的方法通常能够实现强大的性能,因为它们在计算过程中不会遭受显著的信息损失。此外,尽管基于BEV的方法只有一个投影视点用于特征表示,但由于鸟瞰图中包含的丰富信息以及它们对遮挡和比例变化的不敏感性,它们仍然可以实现可比较的性能。此外,通过从多个互补视图重建3D信息,基于三视角视图(TPV)的方法能够减轻潜在的几何模糊性,并捕捉更全面的场景背景,从而实现有效的3D占用预测。值得注意的是,FB-OCC同时利用了前向和后向视图转换模块,使它们能够相互增强,以获得更高质量的纯电动汽车表示,并取得了优异的性能。这表明,通过有效的特征增强,基于BEV的方法在改善3D占用预测方面也有很大的潜力。

部署友好方法

由于其广泛的范围和复杂的数据性质,直接从3D空间学习占用表示是极具挑战性的。与3D体素表示相关的高维度和密集的计算使得学习过程对资源的要求很高,这不利于实际部署应用。因此,设计部署友好的3D表示的方法旨在降低计算成本并提高学习效率。本节介绍了解决3D场景占用估计中计算挑战的方法,重点是开发准确高效的方法,而不是直接处理整个3D空间。所讨论的技术包括透视分解和从粗到细的细化,这些技术已在最近的工作中得到证明,以提高3D占用预测的计算效率。

Perspective decomposition methods

通过将视点信息从3D场景特征中分离出来或将其投影到统一的表示空间中,可以有效地降低计算复杂度,使模型更加稳健和可推广。这种方法的核心思想是将三维场景的表示与视点信息解耦,从而减少特征学习过程中需要考虑的变量数量,降低计算复杂度。解耦视点信息使模型能够更好地泛化,适应不同的视点变换,而无需重新学习整个模型。

为了解决从整个3D空间学习的计算负担,一种常见的方法是使用鸟瞰图(BEV)和三视角图(TPV)表示。通过将3D空间分解为这些单独的视图表示,计算复杂度显著降低,同时仍然捕获用于占用预测的基本信息。关键思想是首先从BEV和TPV的角度学习,然后通过结合从这些不同视图中获得的见解来恢复完整的3D占用信息。与直接从整个3D空间学习相比,这种透视分解策略允许更高效和有效的占用估计。

Coarse-to-fine methods

直接从大规模3D空间学习高分辨率细粒度全局体素特征是耗时且具有挑战性的。因此,一些方法已经开始探索采用从粗到细的特征学习范式。具体而言,网络最初从图像中学习粗略的表示,然后细化和恢复整个场景的细粒度表示。这两步过程有助于实现对场景占用率的更准确和有效的预测。

OpenOccupancy采用两步方法来学习3D空间中的占用表示。如图14所示。

预测3D占用率需要详细的几何表示,并且利用所有3D体素标记与多视图图像中的ROI进行交互将产生显著的计算和内存成本。如图15所示,Occ3D提出了一种增量令牌选择策略,在交叉注意力计算过程中选择性地选择前景和不确定的体素令牌,从而在不牺牲精度的情况下实现自适应高效计算。具体地,在每个金字塔层的开始,每个体素标记被输入到二进制分类器中,以预测体素是否为空,由二进制地面实况占用图来监督以训练分类器。PanoOcc提出在联合学习框架内无缝集成对象检测和语义分割,促进对3D环境的更全面理解。该方法利用体素查询来聚合来自多帧和多视图图像的时空信息,将特征学习和场景表示合并为统一的占用表示。此外,它通过引入占用稀疏性模块来探索3D空间的稀疏性,该模块在从粗到细的上采样过程中逐渐稀疏占用,显著提高了存储效率。

Occ3D nuScenes数据集上部署友好方法的性能比较如表4所示。由于结果是从不同的论文中收集的,在主干、图像大小和计算平台方面存在差异,因此只能得出一些初步结论。通常,在类似的实验设置下,由于信息丢失较少,从粗到细的方法在性能方面优于透视分解方法,而透视分解通常表现出更好的实时性能和更低的内存使用率。此外,采用较重主干和处理较大图像的模型可以获得更好的精度,但也会削弱实时性能。尽管FlashOcc和FastOcc等方法的轻量级版本已经接近实际部署的要求,但它们的准确性还需要进一步提高。对于部署友好的方法,透视分解策略和从粗到细策略都致力于在保持3D占用预测准确性的同时,不断减少计算负载。

Label-efficient methods

在现有的创建精确占用标签的方法中,有两个基本步骤。第一个是收集与多视图图像相对应的激光雷达点云,并进行语义分割注释。另一种是利用动态物体的跟踪信息,通过复杂的算法融合多帧点云。这两个步骤都相当昂贵,这限制了占用网络利用自动驾驶场景中大量多视图图像的能力。近年来,神经辐射场(Nerf)在二维图像绘制中得到了广泛的应用。有几种方法以类似Nerf的方式将预测的三维占用绘制成二维地图,并在没有细粒度标注或激光雷达点云参与的情况下训练占用网络,这显著降低了数据标注的成本。

Annotation-free methods

SimpleOccupancy首先通过视图变换从图像特征中生成场景的显式3D体素特征,然后按照Nerf风格的方式将其渲染为2D深度图。二维深度图由激光雷达点云生成的稀疏深度图监督。深度图还用于合成用于自我监督的环绕图像。UniOcc使用两个单独的MLP将3D体素logits转换为体素的密度和体素的语义logits。之后,UniOCC按照一般的体积渲染来获得多视图深度图和语义图,如图17所示。这些2D地图由分割的LiDAR点云生成的标签进行监督。RenderOcc从多视图图像中构建类似于NeRF的3D体积表示,并使用先进的体积渲染技术来生成2D渲染,该技术可以仅使用2D语义和深度标签来提供直接的3D监督。通过这种2D渲染监督,该模型通过分析来自各种相机截头体的光线交点来学习多视图一致性,从而更深入地了解3D空间中的几何关系。此外,它引入了辅助光线的概念,以利用来自相邻帧的光线来增强当前帧的多视图一致性约束,并开发了一种动态采样训练策略来过滤未对准的光线。为了解决动态和静态类别之间的不平衡问题,OccFlowNet进一步引入了占用流,基于3D边界框预测每个动态体素的场景流。使用体素流,可以将动态体素移动到时间帧中的正确位置,从而无需在渲染过程中进行动态对象过滤。在训练过程中,使用流对正确预测的体素和边界框内的体素进行转换,以与时间帧中目标位置对齐,然后使用基于距离的加权插值进行网格对齐。

上述方法消除了对显式3D占用注释的需要,大大减少了手动注释的负担。然而,他们仍然依赖激光雷达点云来提供深度或语义标签来监督渲染的地图,这还不能实现3D占用预测的完全自监督框架。

LiDAR-free methods

OccNerf不利用激光雷达点云来提供深度和语义标签。相反,如图18所示,它使用参数化占用字段来处理无边界的室外场景,重新组织采样策略,并使用体积渲染将占用字段转换为多相机深度图,最终通过多帧光度一致性进行监督。此外,该方法利用预先训练的开放词汇语义分割模型来生成2D语义标签,监督该模型将语义信息传递给占用字段。幕后使用单一视图图像序列来重建驾驶场景。它将输入图像的截头体特征视为密度场,并渲染其他视图的合成。通过专门设计的图像重建损失来训练整个模型。SelfOcc预测BEV或TPV特征的带符号距离场值,以渲染2D深度图。此外,原始颜色和语义图也由多视图图像序列生成的标签进行渲染和监督。

这些方法避开了对来自激光雷达点云的深度或语义标签的必要性。相反,他们利用图像数据或预训练的模型来获得这些标签,从而实现3D占用预测的真正的自监督框架。尽管这些方法可以实现最符合实际应用经验的训练模式,但仍需进一步探索才能获得令人满意的性能。

表5显示了Occ3D nuScenes数据集上标签高效方法的性能比较。大多数无注释方法使用2D渲染监督作为显式3D占用监督的补充,并获得了一定的性能改进。其中,UniOcc和RadOcc甚至在所有方法中分别获得了3和4的优异排名,充分证明了无注释机制可以促进额外有价值信息的提取。当仅采用2D渲染监督时,它们仍然可以实现相当的精度,说明了节省显式3D占用注释成本的可行性。无激光雷达的方法为3D占用预测建立了一个全面的自我监督框架,进一步消除了对标签和激光雷达数据的需求。然而,由于点云本身缺乏精确的深度和几何信息,其性能受到极大限制。

未来展望

在上述方法的推动下,我们总结了当前的趋势,并提出了几个重要的研究方向,这些方向有可能从数据、方法和任务的角度显著推进基于视觉的自动驾驶3D占用预测领域。

数据层面

获取充足的真实驾驶数据对于提高自动驾驶感知系统的整体能力至关重要。数据生成是一种很有前途的途径,因为它不会产生任何获取成本,并提供了根据需要操纵数据多样性的灵活性。虽然一些方法利用文本等提示来控制生成的驾驶数据的内容,但它们不能保证空间信息的准确性。相比之下,3D Occupancy提供了场景的细粒度和可操作的表示,与点云、多视图图像和BEV布局相比,有助于可控的数据生成和空间信息显示。WoVoGen提出了体积感知扩散,可以将3D占用映射到逼真的多视图图像。在对3D占用进行修改后,例如添加一棵树或更换一辆汽车,扩散模型将合成相应的新驾驶场景。修改后的三维占用记录了三维位置信息,保证了合成数据的真实性。

自动驾驶的世界模型越来越突出,它提供了一个简单而优雅的框架,增强了模型基于环境输入观测来理解整个场景并直接输出合适的动态场景演化数据的能力。鉴于其能够熟练地详细表示整个驾驶场景数据,利用3D占用率作为世界模型中的环境观测具有明显的优势。如图19所示,OccWorld选择3D占用率作为世界模型的输入,并使用类似GPT的模块来预测未来的3D占用率数据应该是什么样子。UniWorld利用了现成的基于BEV的3D occ-pancy模型,但通过处理过去的多视图图像来预测未来的3D占用数据,这也构建了一个世界模型。然而,无论机制如何,生成的数据和真实数据之间不可避免地存在领域差距。为了解决这个问题,一种可行的方法是将3D占用预测与新兴的3D人工智能生成内容(3D AIGC)方法相结合,以生成更真实的场景数据,而另一种方法是将领域自适应方法相结合以缩小领域差距。

方法论层面

当涉及到3D占用预测方法时,在我们之前概述的类别中,存在着需要进一步关注的持续挑战:功能增强方法、部署友好方法和标签高效方法。特征增强方法需要朝着显著提高性能的方向发展,同时保持可控的计算资源消耗。部署友好的方法应该记住,减少内存使用和延迟,同时确保将性能下降降至最低。标签高效的方法应该朝着减少昂贵的注释需求的方向发展,同时实现令人满意的性能。最终目标可能是实现一个统一的框架,该框架结合了功能增强、部署友好性和标签效率,以满足实际自动驾驶应用的期望。

此外,现有的单智能体自动驾驶感知系统天生无法解决关键问题,如对遮挡的敏感性、远程感知能力不足和视野有限,这使得实现全面的环境意识具有挑战性。为了克服单智能体的瓶颈,多智能体协同感知方法开辟了一个新的维度,允许车辆与其他交通元素共享互补信息,以获得对周围环境的整体感知。如图20所示,多智能体协同3D占用预测方法利用协同感知和学习的力量进行3D占用预测,通过在连接的自动化车辆之间共享特征,能够更深入地了解3D道路环境。CoHFF是第一个基于视觉的协作语义占用预测框架,它通过语义和occupancy任务特征的混合融合,以及车辆之间共享的压缩正交注意力特征,改进了局部3D语义占用预测,在性能上显著优于单车系统。然而,这种方法往往需要同时与多个代理进行通信,面临准确性和带宽之间的矛盾。因此,确定哪些代理最需要协调,以及确定最有价值的协作领域,以实现准确性和速度之间的最佳平衡,是一个有趣的研究方向。

任务层面

在当前的3D占用基准中,某些类别具有明确的语义,如“汽车”、“行人”和“卡车”。相反,“人造”和“植被”等其他类别的语义往往是模糊和笼统的。这些类别包含了广泛的未定义语义,应该细分为更细粒度的类别,以提供驾驶场景的详细描述。此外,对于以前从未见过的未知类别,它们通常被视为一般障碍,无法根据人类提示灵活扩展新的类别感知。对于这个问题,开放词汇任务在2D图像感知方面表现出了强大的性能,并且可以扩展到改进3D占用预测任务。OVO提出了一个支持开放词汇表3D占用预测的框架。它利用冻结的2D分割器和文本编码器来获得开放词汇的语义参考。然后,采用三个不同级别的比对来提取3D占用模型,使其能够进行开放词汇预测。POP-3D设计了一个自监督框架,在强大的预训练视觉语言模型的帮助下,结合了三种模式。它方便了诸如零样本占用分割和基于文本的3D检索之类的开放式词汇任务。

感知周围环境的动态变化对于自动驾驶中下游任务的安全可靠执行至关重要。虽然3D占用预测可以基于当前观测提供大规模场景的密集占用表示,但它们大多局限于表示当前3D空间,并且不考虑周围物体沿时间轴的未来状态。最近,人们提出了几种方法来进一步考虑时间信息,并引入4D占用预测任务,这在真实的自动驾驶场景中更实用。Cam4Occ首次使用广泛使用的nuScenes数据集为4D占用率预测建立了一个新的基准。该基准包括不同的指标,用于分别评估一般可移动物体(GMO)和一般静态物体(GSO)的占用预测。此外,它还提供了几个基线模型来说明4D占用预测框架的构建。尽管开放词汇3D占用预测任务和4D占用预测任务旨在从不同角度增强开放动态环境中自动驾驶的感知能力,但它们仍然被视为独立的任务进行优化。模块化的基于任务的范式,其中多个模块具有不一致的优化目标,可能导致信息丢失和累积错误。将开集动态占用预测与端到端自动驾驶任务相结合,将原始传感器数据直接映射到控制信号是一个很有前途的研究方向。

Logo

NVIDIA官方入驻,分享最新的官方资源以及活动/会议信息,精选收录AI相关技术内容,欢迎大家加入社区并参与讨论。

更多推荐