编辑 | 深蓝前沿

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

点击进入→自动驾驶之心技术交流群

后台回复【分割综述】获取语义分割、实例分割、全景分割、弱监督分割等超全学习资料!

引言

在自动驾驶系统中,可行驶区域分割是一项重要的任务。可行驶区域的提取是ADAS的关键技术,旨在使用传感器感知技术感知驾驶车辆周围的道路环境,识别并分割出当前驾驶场景下可行驶的区域,防止偏离车道或违规驾驶。

可行驶区域分割的精度和鲁棒性直接决定了车辆能否正常行驶。本文将对前沿的可行驶区域分割方法进行总结,其中多项方案已经开源。读者可以针对自身项目需求,设计适合自己的可行驶区域分割方案。

1. BiFPN: 用于道路分割的双向融合网络

标题:BiFNet: Bidirectional Fusion Network for Road Segmentation

作者:Haoran Li, Yaran Chen, Qichao Zhang, Dongbin Zhao

原文链接:https://arxiv.org/abs/2004.08582

摘要:基于多传感器融合的道路分割在智能驾驶系统中起着重要的作用,因为它提供了可驾驶区域。现有的主流融合方法主要是在图像空间域进行特征融合,导致道路的透视压缩,损害了远处道路的性能。

考虑到激光雷达的鸟瞰图仍然是水平面上的空间结构,提出了一种双向融合网络来融合点云图像和鸟瞰图。该网络由两个模块组成: 

1)稠密空间变换模块,解决摄像机图像空间和BEV空间的相互转换。

2)基于上下文的特征融合模块,基于场景融合不同传感器的信息。

该方法在KITTI数据集上取得了有竞争力的结果。大多数基于特征融合的道路分割方法都是在相机空间完成特征融合的。根据小孔成像理论,相机在成像过程中对远处物体进行压缩,导致远处物体通常比近处物体占据更少的像素。

显然,透视压缩增加了远处物体分割的难度。由于图像压缩,近的道路可以被很好地分割,而远的道路被粗略地分割。

针对这一问题,作者提出一种融合相机图像和点云BEV的道路分割方法。一方面,点云的BEV保持了道路的分布,具有足够的路段面积信息。另一方面,相机图像具有丰富的纹理和比激光雷达更远的可视距离。大多数方法集中在相机空间的特征融合,使用透视投影,丢失了点云的空间结构。

而作者设计了一个稠密空间转换模块,实现了相机空间和BEV空间之间的特征转换。还提出了一种基于上下文的融合模块,该模块对特征进行适当的组合,并根据上下文自适应地融合变换后的特征。

总之,该项成果有以下贡献:

(1) 设计了一个稠密空间变换,在点云的图像和BEV之间建立稠密映射。这种变换是融合来自不同空间的特征的基础。

(2) 提出了一个基于上下文的融合模块。该模块根据环境背景融合多传感器特征,实现环境的鲁棒表示。

(3) 基于以上模块,构建了双向融合网络(BiFNet),结合相机图像和点云的BEV实现道路分割,并在KITTI道路数据集中取得了有竞争力的结果。

44af83e7a5c8ca9faf7b76d67cc815bb.png 

图1 BiFNet网络架构

表1 BiFNet在KITTI上的实验结果

b888d9c70e19379b0001a35665596a7b.png 

2. 将表面法线信息应用于地面移动机器人的可行驶区域和道路异常检测

标题:Applying Surface Normal Information in Drivable Area and Road Anomaly Detection for Ground Mobile Robots

作者:Hengli Wang, Rui Fan, Yuxiang Sun, Ming Liu

来源:IROS 2020

原文链接:https://arxiv.org/abs/2008.11383

摘要:可行驶区域和道路异常的联合检测是地面移动机器人的关键任务。近年来,已经开发了许多令人印象深刻的语义分割网络,其可用于像素级可驾驶区域和道路异常检测。但是,检测精度仍然需要提高。

因此,我们开发了一个名为法线推理模块(NIM)的新模块,它可以从密集的深度图像中高精度、高效率地生成表面法线信息。我们的NIM可以部署在现有的卷积神经网络(CNN)中,以改善分割性能。

为了评估我们的NIM的有效性和健壮性,我们将它嵌入到12个最先进的CNN中。实验结果表明,我们的NIM可以大大提高细胞神经网络在可行驶区域和道路异常检测方面的性能。此外,我们提出的NIM-RTFNet在KITTI road基准测试中排名第8,并表现出实时推理速度。

这篇文章首先介绍了一种新的模块——法向推理模块(NIM),它可以从稠密的深度图像中高精度、高效率地生成表面法向信息。表面法线信息作为一种不同的数据形式,可以在现有的语义分割网络中使用以提高性能。

此外,为了验证NIM的有效性和鲁棒性,作者使用了GMRP数据集训练12个最先进的CNN(8个单模态CNN和4个数据融合CNN),分别嵌入和不嵌入NIM进行实验。实验结果表明,NIM可以大大提高用于可驾驶区域和道路异常检测任务的CNN。

此外,作者提出的NIM-RTFNet在KITTI road基准测试中排名第82并表现出实时推理速度。

总之,该项成果有以下贡献:

(1) 开发了一个新的NIM模块,并展示了它在提高语义分割性能方面的有效性。

(2) 对不同形式的数据对语义分割网络的影响进行了广泛的研究。

(3) 提出的NIM-RTFNet在KITTI road基准上极大地减少了速度和精度之间的折衷。

56455cd3ce4ae2f380f178bb771e9c81.png 

图3 使用NIM进行可行驶区域分割和道路异常检测的网络架构

62629af067313bd382338dbc7996ee79.png

图4 NIM模块的原理说明

fe390deeb84b10693d70f5b4606fc548.png 

图5 GMPR数据集上的性能对比 

表2 KITTI road基准测试结果

8d56b568154379f07796bd70763afd34.png 

3. RNGDet: 借助Transformer在航拍图像中检测道路网络图

标题:RNGDet: Road Network Graph Detection by Transformer in Aerial Images

作者:Zhenhua Xu, Yuxuan Liu, Lu Gan, Yuxiang Sun, Xinyu Wu, Ming Liu, Lujia Wang

来源:IEEE Transactions on Geoscience and Remote Sensing 2022

原文链接:https://arxiv.org/abs/2202.07824

代码链接:https://tonyxuqaq.github.io/projects/RNGDet

摘要:道路网络图为自动驾驶汽车应用提供了关键信息,例如可用于运动规划算法的可行驶区域。要查找道路网络图,手动标注通常是低效和劳动密集型的。自动检测道路网络图可以缓解这一问题,但现有的工作仍然有一些局限性。

例如,基于分割的方法不能确保令人满意的拓扑正确性,而基于图形的方法不能提供足够精确的检测结果。为了解决这些问题,本文提出了一种基于变换和模仿学习的新方法。鉴于高分辨率航空图像现在可以很容易地访问世界各地,我们在我们的方法中使用航空图像。

作为航空图像的输入,我们的方法迭代地生成逐点的道路网络图。我们的方法可以处理各种数量的复杂交点。

现有的道路网络图形检测工作一般可分为两类:基于分段的方法和基于图形的方法。基于分割的方法首先预测道路网络图的概率分割图,然后进行一系列处理以获得道路网络的图结构,如骨架化和过滤。

道路网络图检测的早期工作大多属于这一类。由于使用了现有的强大的语义分割网络,基于分割的方法可以在像素级评估中呈现良好的结果,但是它们通常遭受不令人满意的拓扑正确性,例如不正确的十字路口连通性和道路上的错误断开。解决这个问题,最近基于图的方法诉诸于直接检测道路网络。

它们通常首先预测候选初始顶点,然后,从每个候选初始顶点开始,训练一个决策代理来预测当前顶点的相邻顶点。通过这种方式,可以以迭代的方式逐个顶点地生成道路网络图。尽管这些基于图的方法可以增强拓扑正确性,但它们通常由两个独立的阶段组成,使得它们难以以端到端的方式进行优化。各个阶段可能会累积误差,从而降低其有效性和效率。

为了解决这些问题,作者提出了一种基于图的端到端方法——基于Transformer的道路网络图检测(RNGDet)。与之前基于图形的方法类似,RNGDet从预测的候选初始顶点开始,使用卷积神经网络(CNN)主干提取局部视觉特征,然后将这些特征发送到受DETR结构启发的变压器网络。

由于使用了深度顶点查询,RNGDet可以一次直接预测当前顶点的任意数量的相邻顶点,从而可以处理任何道路网络,甚至是拓扑结构复杂的网络(例如任意数量路段的道路交叉口)。

与以前基于图的方法不同,RNGDet可以作为一个整体进行优化和端到端的训练。此外,作者通过模仿学习来训练RNGDet,使它能够在不同的情况下采取最恰当的行动。为了生成训练数据(即从模仿学习的角度进行专家演示),作者提出了一种采样算法来监督智能体探索整个道路网络。

RNGDet在RoadTracer发布的公开可用数据集上进行训练和评估。通过这个数据集,作者将RNGDet与基于多个评估指标得分的最先进的作品进行了比较。

总之,该项成果有以下贡献:

(1) 提出了一种端到端的可训练方法RNGDet,该方法基于Transformer和模仿学习来自动检测道路网络图。

(2) 提出了一种自动生成RNGDet训练样本的算法。

(3) 对RNGDet进行了评估,并在公开的数据集上将它与最先进的作品进行了比较,以展示RNGDet的优越性。

52a966c52697536b94f9f12f9e023d64.png 图6 RNGDet网络架构

703b3d610685d19459b1585f1060975e.png 

图7 图更新的可视化结果

表3 不同方法的定量对比

d15bb86ac61c202d0895d0d57c20b690.png 

表4 消融实验的定量结果

f53d838f7e28710751004a4576eb0268.png 

4. YOLOP: 你只看一次的全景驾驶感知

标题:YOLOP: You Only Look Once for Panoptic Driving Perception

作者:Dong Wu, Manwen Liao, Weitian Zhang, Xinggang Wang, Xiang Bai, Wenqing Cheng, Wenyu Liu

原文链接:https://arxiv.org/abs/2108.11250

代码链接:https://github.com/hustvl/yolop

摘要:全景驾驶感知系统是自动驾驶的重要组成部分。高精度的实时感知系统可以帮助车辆在行驶过程中做出合理的决策。

我们提出了一个全景驾驶感知网络(YOLOP)来同时执行交通对象检测、可驾驶区域分割和车道检测。它由一个用于特征提取的编码器和三个用于处理特定任务的解码器组成。

我们的模型在具有挑战性的BDD100K数据集上表现非常好,在准确性和速度方面都达到了最先进的水平。此外,我们通过消融研究验证了多任务学习模型在联合训练中的有效性。

据我们所知,这是第一个可以在嵌入式设备Jetson TX2(23 FPS)上同时实时处理这三个视觉感知任务并保持出色精确度的工作。

接下来的三个网络都属于多任务网络,同时实现交通目标检测、可行驶区域分割和车道线分割。在YOLOP中,作者设计了一种简单高效的网络架构。

作者使用轻量级的CNN作为编码器从图像中提取特征。然后,这些特征图被馈送到三个解码器,以完成它们各自的任务。检测解码器是基于YOLOv4进行,而实例分割借助三次上采样进行。

总之,该项成果有以下贡献:

(1) 提出了一个有效的多任务网络,它可以联合处理自动驾驶中的三个关键任务:目标检测、可驾驶区域分割和车道检测,以节省计算成本和减少推理时间。该项工作是第一个在嵌入式设备上达到实时的,同时在BDD100K数据集上保持最先进的性能水平。

(2) 设计消融实验,验证多任务方案的有效性。证明了这三个任务可以联合学习,不需要繁琐的交替优化。

(3) 设计了消融实验,证明基于网格的探测任务预测机制与语义分割任务预测机制更为相关,相信可以为其他相关的多任务学习研究工作提供参考。

22ffcf543e9ecb5d24ffa027c77f82cf.png 图8 YOLOP网络架构

93a650407d2b8221754dbef232cfe9c6.png 图9 YOLOP可行驶区域分割的定性结果

表5 YOLOP可行驶区域分割结果

52eff4f40707d9ca99038d5862cf5bb5.png 

5. YOLOPv2: 更好、更快、更强的全景驾驶感知

标题:YOLOPv2: Better, Faster, Stronger for Panoptic Driving Perception

作者:Cheng Han, Qichao Zhao, Shuyi Zhang, Yinzi Chen, Zhenlin Zhang, Jinwei Yuan

原文链接:https://arxiv.org/abs/2208.11434

代码链接:https://github.com/CAIC-AD/YOLOPv2

摘要:在过去的十年中,多任务学习方法在解决全景驾驶感知问题方面取得了令人鼓舞的成果,提供了高精度和高效率的性能。在为实时实用的自动驾驶系统设计网络时,这已经成为一种流行的模式,其中计算资源是有限的。

提出了一种高效的多任务学习网络,能够同时完成交通目标检测、可行驶道路区域分割和车道检测任务。在具有挑战性的BDD100K数据集上,我们的模型在精度和速度方面达到了新的最先进的(SOTA)性能。特别是,与以前的SOTA模型相比,推理时间减少了一半。

YOLOPv2算是YOLOP的升级版,各项指标都有提升。它的评估也是BDD100K数据集上进行,相较于YOLOP可行驶区域分割91.5%的mIoU,YOLOPv2达到了93%,相较于YOLOP提升了不少。此外,在NVIDIA TESLA V100上运行时,FPS为91,高于YOLOP的49FPS。这进一步说明,YOLOPv2可以降低计算成本,保证实时预测,同时为其他实验研究留下改进空间。

总之,该项成果有以下贡献:

(1) 更好:提出了一个更有效的模型结构,并应用了一种新的混合损失。

(2) 更快:为模型实现了更高效的网络结构和内存分配策略。

(3) 更强:YOLOPv2是在强大的网络架构下训练的,因此它可以很好地适应各种场景,同时确保速度。

b1e803cdcdc4910818479d62d43970d5.png 图10 YOLOPv2网络架构 

表6 可行驶区域分割定量对比

aed27d9fbe5b1099b47269385b6a0411.png 

6. HybridNets: 端到端感知网络

标题:HybridNets: End-to-End Perception Network

作者:Dat Vu, Bao Ngo, Hung Phan

原文链接:https://arxiv.org/abs/2203.09035

代码链接:https://github.com/datvuthanh/HybridNets

摘要:端到端网络在多任务中变得越来越重要。这方面的一个突出例子是驾驶感知系统在自动驾驶中日益增长的重要性。

本文系统地研究了一个面向多任务的端到端感知网络,并提出了几个关键的优化方法来提高准确性。首先,提出了基于加权双向特征网络的高效分割头和盒/类预测网络。

其次,提出了在加权双向特征网络中为每一层自动定制锚点的方法。第三,提出了一种有效的训练损失函数和训练策略来平衡和优化网络。基于这些优化,我们开发了一个端到端的感知网络来同时执行多任务,包括交通对象检测、可行驶区域分割和车道检测,称为HybridNets,它比现有技术实现了更好的准确性。

特别是,HybridNets在Berkeley DeepDrive数据集上实现了77.3的mAP,并以12.83M参数和15.6B次浮点运算实现了车道线检测的31.6mIoU。此外,它可以实时执行视觉感知任务,因此是多任务问题的实用而准确的解决方案。

HybridNets也是一种多任务网络,主要是基于BiFPN的融合策略设计的。整体来说并没有什么太大的创新点,但是网络的性能相较于YOLOP实现了一定的提升。

总之,该项成果有以下贡献: 

(1) HybridNets是一个端到端的感知网络,在BDD100K数据集上实时取得了出色的结果。

(2) 任意数据集中加权双向要素网络中每个级别的自动自定义锚点。

(3) 平衡和优化多任务网络的有效训练损失函数和训练策略。

29d4949af16be265792e5051bcf9adf8.png

图11 HybridNets网络架构 

463d2fe26e8e8159b07a8cb62f29beb2.png

图12 HybridNets效果图

7. 结论

在自动驾驶系统中,可行驶区域分割任务至关重要。本文介绍了6种不同的车道线分割网络,其中4个网络已经开源。每种网络都有其各自的特点和优势,读者在设计自己的网络时,要有针对性得设计架构。

自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、多传感器融合、SLAM、光流估计、轨迹预测、高精地图、规划控制、AI模型部署落地等方向;

加入我们:自动驾驶之心技术交流群汇总!

自动驾驶之心【知识星球】

想要了解更多自动驾驶感知(分类、检测、分割、关键点、车道线、3D目标检测、多传感器融合、目标跟踪、光流估计、轨迹预测)、自动驾驶定位建图(SLAM、高精地图)、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球(三天内无条件退款),日常分享论文+代码,这里汇聚行业和学术界大佬,前沿技术方向尽在掌握中,期待交流!

1b632b206e44089b3f094ea42cd5c712.jpeg

Logo

NVIDIA官方入驻,分享最新的官方资源以及活动/会议信息,精选收录AI相关技术内容,欢迎大家加入社区并参与讨论。

更多推荐