#DA-BEV , 无监督BEV SOTA新方案

探讨3D视觉感知领域中的一个特定问题:针对纯视觉的鸟瞰图(BEV)的无监督领Domain Adaptation(Unsupervised Domain Adaptation, UDA)。3D视觉感知在移动机器人、自动驾驶、虚拟现实等领域起着重要的作用,而近年来,纯视觉的BEV模型由于其在全面的3D理解、丰富的语义信息、高计算效率和低部署成本方面的优势而受到越来越多的关注。

研究背景上,尽管单目和基于激光雷达的3D感知取得了显著的进步,但当在源域(例如,训练数据的环境)训练的纯视觉BEV模型应用到目标域(例如,不同于训练数据的新环境)时,通常会出现明显的性能下降。这种性能降低主要是由于源域和目标域之间的显著差异所导致。

论文提出的问题是,尽管对于2D计算机视觉任务来说,无监督领Domain Adaptation已经被广泛探索,但对于纯视觉BEV感知来说,如何减少源域和目标域之间的差异仍然是一个极具挑战性且相对欠缺研究的问题。

为了解决这个问题,论文提出了一种名为DA-BEV的新框架,这是第一个针对纯视觉BEV感知的领域自适应框架。DA-BEV通过利用图像视图特征和BEV特征之间的互补性来解决BEV领Domain Adaptation的挑战。具体来说,这个框架通过引入可学习的查询来促进图像视图特征和BEV特征之间的相互作用,同时跨领Domain Adaptation它们。在这一过程中,BEV特征中的全局3D信息有助于适应图像视图特征,而图像视图特征中较少变化的2D信息则有助于适应BEV特征。

DA-BEV的设计包括两种基于查询的领Domain Adaptation技术:基于查询的对抗学习(QAL)和基于查询的自训练(QST)。这两种设计相辅相成,共同实现了有效的无监督BEV感知适应。

论文的主要贡献在于三个方面。首先,它提出了一种基于查询的领Domain Adaptation策略,这种策略利用了图像视图特征和BEV特征的互补性,适用于无监督的BEV感知适应。其次,它设计了DA-BEV,这是一种引入基于查询的对抗学习和基于查询的自训练的框架,有效地联合解决了领域自适应BEV感知的问题。最后,通过广泛的实验,DA-BEV在不同数据集和任务(如3D物体检测和3D场景分割)上展示了其在BEV感知适应方面的优越性能。

详解DA-BEV

DA-BEV整体框架

DA-BEV框架利用图像视图特征和BEV特征之间的互补性来解决BEV领Domain Adaptation的挑战。它设计了一种基于查询的领Domain Adaptation方法,通过引入可学习的查询,实现图像视图特征和BEV特征之间的交互以及它们的协同适应。直观地说,BEV特征中的全局3D信息有助于适应图像视图特征,而图像视图特征中的局部2D信息,由于领域变化较小,有助于适应BEV特征。基于这一理念,论文设计了两种基于查询的领Domain Adaptation技术:基于查询的对抗学习(QAL)和基于查询的自训练(QST)。

Query-based Adversarial Learning (QAL)

在Query-based Adversarial Learning (QAL)中,提出的方法利用从图像视图特征或BEV特征中查询得到的有用信息来规范化对方的对抗学习。具体来说,QAL使用两个域分类器来分别测量图像视图查询特征和BEV查询特征的域间距离,并利用测量得到的域间距离进行相互规范化。

QAL的关键在于同时减轻图像视图特征中的局部2D信息和BEV特征中的全局3D信息的域间差异,这两者对于在3D空间中定位和识别物体和背景都至关重要。此外,2D图像视图查询特征的对抗学习涉及较少的3D信息,其中BEV查询特征可以通过提供丰富的全局3D信息来有效地规范化它。

Query-based Self-training (QST)

在Query-based Self-training (QST)中,提出的方法利用从图像视图特征和BEV特征中查询得到的有用信息来规范化它们的自训练。直观地说,解码的图像视图查询特征捕获了丰富的2D语义和位置信息,这些信息在域间具有较少的差异,而解码的BEV查询特征则捕获了BEV空间中的丰富全局3D信息。因此,这两种特征互补,共同有效地规范化自训练。

QST首先利用来自图像视图或BEV特征的预测来去噪另一方的预测。然后,QST通过积累去噪后的预测,获取全局类别分布,并进一步利用它来促进伪标签的生成。生成的伪标签方法具有三个特点:1)阈值是根据图像视图和BEV特征捕获的2D和3D信息动态确定的;2)通过为每个类别选择相同百分比的伪标签来缓解类别不平衡问题;3)它是在线的,不需要额外的推理轮次。

QST的训练损失可以表述为:

总体目标

综上所述,提出的DA-BEV的整体训练目标可以表述为以下公式:

这一目标结合了图像视图特征和BEV特征的对抗学习和自训练,以实现跨Domain Adaptation。

相关实验

这个实验表格展示了在不同照明条件下,针对纯视觉BEV感知的无监督领Domain Adaptation的结果。具体来说,实验关注的是从白天到夜晚的场景转换。评估指标包括了不同类别的平均精度(Average Precision, AP)以及整体的平均精度(mAP)和标准化检测分数(Normalized Detection Score, NDS)。实验比较了四种方法:Source Only、SFA、MTTrans、STM3D和本文提出的DA-BEV。

  1. 类别细分的AP:表格中展示了对于不同类别(如汽车、卡车、建筑车辆、公共汽车等)的检测精度。这些细分的AP指标重要的是,它们揭示了模型在识别不同类型的物体上的性能,这在实际应用中是非常关键的,因为不同类型的物体对于感知系统的响应可能会有很大不同。

  2. 整体的mAP和NDS:整体的mAP是所有类别AP的平均值,提供了一个整体的性能指标。NDS是一种综合评估,不仅考虑了检测精度,还可能考虑了其他因素如位置准确度、大小估计等。这两个指标给出了一个更全面的性能评估。

  3. 方法比较

    • Source Only 是基线方法,没有进行领Domain Adaptation。

    • SFA、MTTrans、STM3D 是其他领Domain Adaptation方法。

    • DA-BEV (Ours) 是本文提出的方法。

  4. 分析

    • 在大多数类别上,DA-BEV的表现优于其他方法,特别是在“汽车”、“卡车”和“公共汽车”等类别上,这表明DA-BEV在进行领Domain Adaptation时能更好地维持或提高对这些类别的识别能力。

    • 对于“拖车”和“建筑车辆”等类别的检测依然是一个挑战,因为这些类别的AP值普遍较低。

    • 在整体mAP和NDS上,DA-BEV也显著优于其他方法,表明其在不同照明条件下的领Domain Adaptation性能整体更佳。

这个实验结果表明DA-BEV在进行无监督领Domain Adaptation,特别是在照明条件变化较大的情况下,能够有效提高3D物体检测的性能。

上图展示了DA-BEV框架在跨天气条件下(即晴天到雨天)进行3D物体检测的定性结果。左边的六个小图呈现了多相机视角下的3D预测结果,每个视角的图像中都有黄色的3D边界框标注着检测到的车辆。右边是鸟瞰图(BEV)视角的预测结果,其中橙色框表示预测位置,蓝色框代表实际的地面真相(Ground Truth)。在BEV图中,我们可以看到预测框和真实框的对比,能够直观地评估模型预测的准确性。例如,图中的一个交叉标记(X)指出了一个错误预测的位置,这种可视化有助于理解模型在不同环境条件下的表现和适应性。

另一张表格测试了DA-BEV方法在不同网络骨架上的泛化能力。实验考虑了三种不同的骨架:R50-C5、R50-P4和VoV-P4。在没有Domain Adaptation(Source Only)的情况下,这三种骨架的mAP分别是10.63、11.61和15.93。使用DA-BEV方法后,所有骨架的性能都有所提高,分别达到了13.03、14.22和20.27。这表明DA-BEV能够在不同的网络架构上提供一致的性能增益,从而验证了其泛化能力。        whaosoft aiot http://143ai.com

总体来看,这些信息表明DA-BEV是一个有效的框架,能够在不同的天气和光照条件下实现跨Domain Adaptation,并且具有良好的泛化能力。定性结果展示了模型在复杂环境中的实际应用性能,而定量结果则提供了参数选择和模型设计对性能影响的深入分析。

讨论

这篇论文提出的DA-BEV方法在跨域3D物体检测任务中展现了显著的优势,尤其是在处理不同光照和天气条件下的场景适应问题上。通过引入基于查询的自训练和对抗学习,DA-BEV能够有效地利用图像视图和BEV特征之间的互补性,从而改善了模型在目标域上的性能。这在跨天气条件,如从白天到夜间的适应任务中,尤为重要,因为光照变化对感知系统的影响很大。

定性分析表明,DA-BEV可以在多个相机视角中精确地识别和定位物体,并且在鸟瞰图中准确地重建3D场景。这一能力对于实际应用如自动驾驶和机器人导航是非常关键的,因为它们需要在各种环境条件下都能准确地感知周围的环境。此外,该方法在不同的网络骨架上都表现出良好的泛化能力,这意味着它可以与不同的网络架构集成,提高现有系统的适应性。

然而,DA-BEV方法也有其局限性。例如,它在某些特定类别,如拖车和建筑车辆的检测上,性能仍然有限,这可能是因为这些类别在数据集中的表示较少或者它们在不同光照条件下的外观变化更加显著。此外,虽然定性结果令人印象深刻,但在鸟瞰图中仍有少数误差,这表明模型在理解复杂场景方面仍有改进空间。

结论

在本文中,我们提出了DA-BEV,这是首个领域自适应的纯视觉BEV框架,它通过利用图像视图特征和BEV特征的互补性来解决领域自适应BEV的挑战。DA-BEV引入了基于查询的对抗学习(QAL)和基于查询的自我训练(QST),其中QAL/QST利用从图像视图特征或BEV特征中查询得到的有用信息来规范化另一个的对抗学习。广泛的实验展示了DA-BEV在各种数据集和任务上的卓越领域自适应BEV感知性能。展望未来,我们将通过引入它们的时间信息来进一步探索图像视图和BEV特征的互补性。

#端到端Planning

最近有一个票圈里很久以前(我还在土加的时候)加过的的做无人驾驶决策规划的大佬从美国回来,然后机缘巧合就见面聊了聊,向他请教了一些美国那边行业内专业人士对于决策规划的一些看法。下面是几点:

  1. T某拉的的planning用DL主要是为了加速树搜索,而不是直接端到端黑箱出轨迹。

  2. 用DL直接出轨迹(下游再用ilqr救一救?), 甚至DL直接从一堆轨迹里面挑轨迹都是不靠谱的,因为出了问题短时间根本修不好,也没人知道要多少数据可以修好。

  3. 用DL只是加速是ok的,因为反正出了问题顶多影响搜索效率,不会有啥严重后果。

  4. 同理Prediction直接DL出轨迹也是不行的,至少要结合planning,做一些agent的轨迹优化和生成,比如类似joint planning。这个具体咋做视各家的技术水平。

  5. 行业内专业人士认为,还是需要基于对prediction和planning的深刻理解,把framework和modeling作对,把要求解的问题定义对,才可能得到比较好的结果。DL可以作为tool处理其中一些子问题,但不应当认为有了DL e2e就可以再也不用把理论做对了,那样只会garbage in, garbage out。

我很高兴知道,大佬说的很多东西,是我们在TuSimple开发新planning算法时所一直遵循的。

下面是我之前对类似价值观的阐述 。我是从数理科学的角度在强调 公理(假设)-演绎(建模+优化求解)-实证(仿真+物理世界测试) 闭环的重要性,因为这样的范式是数理科学早就确立的(比如物理学就是个典型的例子,经济学什么的也有类似的特征)

希望有些鼓吹e2e可以且只有e2e可以彻底解决无人驾驶的网友们能正视现实,不要盲目跟着某些企业的营销鼓噪。如果你不是专业人士,那跟风鼓吹你完全不懂的东西,是极不负责任的。特别是个别做感知的兄弟,如果您不懂planning/control,至少不要跟着鼓吹应该用e2e来替换掉一个科学的Planning/control framework。我至今还记得21年初某个感知兄弟看完T某拉AI day后(那个时候T某拉还在吹影子模式),质问我们做planning为啥不用imitation learning实现 :-D

希望还在认真秉持planning/control数学建模和求解严谨性的同学/同行们能坚持下去,坚持自己的路线,做好的自己的研究和工作。(ps,我觉得我们在图森做的真的还挺不错的)

当然,谋事在人,成事在天。我们做科研的人的力量在国际形势面前是很渺小的,国家间的小风小浪也足以把我们努力搭建的高塔吹得摇摇欲坠。但只要坚持做对的事情,我们就会不断变得更强,积累知识和思维上的财富(如果不是银行卡里的话),并获得突破极限得快乐。总有一天,我们(指的是坚持上面所说价值观的人)会创造出改变世界的东西。

Have faith in our course! Keep marching on and one day we will reach the ultimate truth. [at least in the limit sense]

#轨迹预测入门 | HiVT学习笔记

原文链接:

https://openaccess.thecvf.com/content/CVPR2022/papers/Zhou_HiVT_Hierarchical_Vector_Transformer_for_Multi-Agent_Motion_Prediction_CVPR_2022_paper.pdf

Abstract

向量化地图能很好把握复杂的交互信息,但以往的方法缺乏对于对称性的使用(以每个agent为中心来看,应该是相同的建模),因此增加了很多运算。因此本文把预测问题解耦成agent的局部特征提取再全局的交互两步。场景表示是平移不变的,学习模块是旋转不变的,这样便可以应对几何变化,使得agent被一次性处理。对于小model来说,是很好的选择。

Introduction

对与agent的意图预测,很重要的就是利用好复杂交互。相比rasterized地图,向量地图的主要问题是在融合feature时不具备旋转平移不变性。以前的办法是把feature都转到agent的坐标系,这导致了在大量agent的情况下,算力吃不消的问题,因为需要在每个坐标系下去算相同向量的feature,有很多重复计算的部分。在时间和空间维度上,以前是一起处理的,这样运算量也很大。本文采取了多阶段的做法。

第一阶段:避免一口气处理interaction,只在agent local取feature

第二阶段:使用local feature的位置信息进行global的transformer交互

第三阶段:decoder处理local和global的feature来获得未来轨迹

为了利用好对称性,使用了平移不变的场景表示,然后又用了旋转不变的cross attention来处理空间上的交互。以上做法有这么几个好处:

  1. 通过local特征提取和global交互,实现了逐步融合信息,可以处理大量的元素。

  2. 此办法具有旋转平移不变性。

  3. 相比老办法会更加快且更加准。

Approach

Overall

第一步是对agent平移到自己的坐标系,连带着周围的信息。这样来提取agent自己的feature。

第二步是对不同agent进行全局的交互。

第三步是解码获得多模轨迹。

Scene Representation

所有场景元素都平移到agent自己的坐标系。

另外代码里也支持了旋转。

Hierarchical Vector Transformer

如果考虑到agent中心的某个范围,故而只选了附近的物体的话,总复杂度可以进一步下降。

Local Encoder

上面讲到的3步详细的介绍。

Agent-Agent Interaction

采用了旋转不变的cross attention来处理中心agent和附近agent交互。使用agent的最接近当前帧的位移作为朝向来旋转所有的物体。对于然后每一帧的位置和别的一些语义feature一起进入MLP获得这个agent在某个时刻的feature。

具体的做法是先计算当前agent在周围agent feature上的权重(可以理解为和哪些agent关系比较密切)。然后加权取周围agent上的feature。这就算是融合了agent和周围agent的交互信息。

然后使用了gate的概念来融合上面的交互信息和agent自己的信息。先是将交互信息和agent的信息融合起来过sigmoid,获得0-1的一个值,作为agent自己feature的比重。再加权在agent自己的feature和上面的交互feature,有效控制最后的agent feature中两种feature的比例。

以上步骤都是在每帧并行做的。

Temporal Dependency

Agent-Lane Interaction

lane的信息可以很好的引导意图的学习。先把地图信息根据agent的朝向旋转,每一帧包含了旋转后的lane线段向量,旋转后的lane起始点相对agent在T时刻的位置,以及地图元素的语义信息,对于每一帧都并行提取。

这样获得的多个lane和agent的交互feature作为key和value,而上一步的结果作为query,这样进行cross mha。最后的就能得到agent的融合后feature了。

Global Interaction Module

Multimodal Future Decoder

Laplace分布

相比normal dist,不使用平方,而使用绝对值来处理目标值和平均值的差,这个分布在目标值附近会更集中,尾部会更平。

Training

先计算所有模态里和gt的距离最近的预测结果,计算方式是每个时刻的误差加起来,得到[F, N]的结果,对每个agent选出最小结果,我们只优化离gt最近的预测模态。loss由两部分组成

直白的解释的话就是把gt转到agent坐标系,然后计算gt和学到的laplace分布的差(把gt坐标代入laplace分布求值)。因为假设了时间独立,agent独立,因此需要把这个loss乘起来,所以用log后求和来避免特小值。负号确保越接近gt的loss是越小的。

分类loss控制模态概率学习。做法是计算每个模态和gt的差之和,离gt越近的模态算到的值越小,所以取负号使得越接近的模态值越高,然后用softmax计算出一个soft过的one hot label。于是就可以和预测概率去算交叉熵loss了。

#高精地图,HD Map的过去、现在和未来

在协作、互联和自动化移动(CCAM)中,智能驾驶车辆对周围环境的感知、建模和分析能力越强,它们就越能意识到并能够理解、做出决策,以及安全高效地执行复杂的驾驶场景。高精(HD)地图以厘米级精度和车道级语义信息表示道路环境,使其成为智能移动系统的核心组件,也是CCAM技术的关键推动者。这些地图为自动化车辆提供了了解周围环境的强大优势。高精地图也被视为隐藏的或虚拟的传感器,因为它汇集了来自物理传感器的知识(地图),即激光雷达、相机、GPS和IMU,以建立道路环境的模型。高精地图正在迅速向智能城市数字基础设施的整体表示发展,不仅包括道路几何形状和语义信息,还包括道路参与者的实时感知、天气状况、工作区域和事故的更新。大规模部署自动驾驶汽车需要由一支庞大的车队来构建和维护这些地图,这些车队协同工作,不断更新地图,使车队中的自动驾驶汽车能够正常工作。本文对这些地图在高度自动驾驶(AD)系统中的各种应用进行了广泛的综述。我们系统回顾了构建和维护高精地图的不同方法和算法的最新进展。此外还讨论并综合了高精地图分发的数据、通信和基础设施要求。最后回顾了当前的挑战,并讨论了下一代数字地图系统的未来研究方向。

高精地图发展历史

A.数字地图

现代卫星系统和图像技术的出现彻底改变了对世界精确而详细的数字表示的创建,产生了我们现在所说的数字地图,如谷歌地图、OpenStreetMap、苹果地图、Garmin和Mapbox。数字地图对道路结构和基本语义信息以及兴趣点(POI)进行编码。有几种方法和技术可以从卫星图像中提取和识别构建这些地图所需的地理特征。数字地图现在是我们日常生活中必不可少的工具,尤其是与GPS集成时。事实上,这种集成一直是构建大量数字服务的核心组成部分,最重要的是导航和路由。这些地图主要是为了帮助人类而开发的,现在可以在最新的车辆中使用,以帮助人类驾驶员。然而,这些地图的准确性和精度以及AD要求的更新时间有限,其中车辆需要一定程度的位置精度以及详细的车道级别信息。

B.增强型数字地图

数字地图已得到显著改进,以满足高级驾驶员辅助系统(ADAS)功能的要求,如车道保持辅助和自适应巡航控制(ACC)。这些增强型数字地图中的典型特征包括速度限制、道路曲率和坡度、车道信息以及交通标志和红绿灯。增强型数字地图也称为ADAS地图,目前是大多数现代车辆不可或缺的一部分,可实现ADAS功能。尽管增强型数字地图引入了车道级信息,但其几何精度和语义细节水平限制了其在更高自主水平上的适用性。在AD系统中,要求车辆相对于其环境进行高精度定位,了解当前情况,并规划无碰撞轨迹。为了达到这一自主水平,自动化车辆不仅需要获得具有厘米级位置精度和车道级几何信息的地图,还需要获得环境的3D模型,以及道路环境的所有静态和动态特征。

C.高精地图

上述要求的需要产生了我们今天所说的高精地图,或者简称为高精地图。图1突出显示了地图的演变、地图的特征和用途,以及地图所包含的信息及其精度和细节水平。

D.可扩展地图:概述

在过去的十年里,学术界和工业界都做出了巨大的研究和开发努力,将极限推向价格合理、自我维护和可扩展的高精地图。然而,在按比例构建高精地图方面存在各种悬而未决的问题。这些挑战阻碍了高精地图在自主移动方面实现其全部潜力和最终目标。这些挑战可分为以下几类。

  • 1)数据收集:高精地图的数据收集可能是一个耗时且劳动密集的过程。它通常包括使用GPS、IMU、激光雷达和相机等传感器的组合来收集有关环境的详细信息。

  • 2)数据通信:数据通信包括将地图数据从收集地传输到处理地以构建高精地图,最后传输到消费地,例如自动驾驶汽车。测绘车辆从不同的传感器生成大量数据,需要对这些数据进行处理以构建和更新地图。实时处理来自大量测绘车辆的这些数据确实是一个挑战。

  • 3)数据处理:数据处理是通过提取构建高精地图所需的元素和特征来创建高精地图的步骤。这可能是一项非常复杂的任务,尤其是对于大型地图,因为它涉及到聚合和对齐来自多个来源的数据,并确保地图准确和最新。在地图绘制过程中涉及大量地图绘制车辆的情况下,必须确保精确的时间同步,以避免数据错位。使用GPS产生的每秒脉冲(PPS)信号进行同步往往是使所有车载传感器同步的最常见方法。

  • 4)地图维护:地图维护是指根据道路环境的变化,如建筑工地、道路堵塞和道路连接的修改,不断更新高精地图的过程。由于道路环境是高度动态的,并且会发生变化,因此这一过程需要频繁的数据收集和处理工作。

  • 5)数据隐私与安全:数据安全和隐私对高精地图至关重要,因为它们通常包含敏感信息,如建筑物和基础设施的位置。确保这些数据得到保护而不被滥用是一项重大挑战。

  • 6)建图成本:在创建高精地图的过程中,地图成本是一个重要因素。大规模绘制地图需要使用大量的测绘车,每辆车都配备了一套昂贵的带有高精度传感器的测绘设备。在绘制大面积地图时,此成本变得非常重要。使用消费级传感器进行高精地图绘制是可能的,但这是以使用复杂的地图绘制算法为代价的。

E.主要贡献

本文对高精地图进行了深入的概述,包括其分层架构的统一模型。此外,本文强调了高精地图在模块化AD系统中的重要性,并综合了它们在各种AD核心功能中的使用方式。鉴于上述地图数据收集、通信、处理、安全和成本方面的挑战,本文广泛回顾了以往关于构建和维护高精地图的工作,包括成本效益高的解决方案以及从生成到分发的通信和地图数据需求。此外,本文还讨论了目前在构建和维护高精地图方面面临的挑战。最后,我们为未来和下一代移动高精地图提供了一些启示。这项工作的主要贡献可概括如下:

  • 高精地图的独立概览,作为更广泛的智能交通系统社区的背景。

  • 详细回顾高精地图在AD系统的各种核心功能中使用的最先进技术。

  • 全面调查不同的方法、方法和算法,以维护不同层次的高精地图并使其保持最新。

  • 讨论综合行政管理及其他方面高精地图的主要挑战和未来前景。

高精地图:概述

早期的高精地图只是ADAS中使用的增强型数字地图的扩展,它们被称为早期的地图。HD地图一词是最近才出现的,但现在已被CCAM行业广泛接受,包括一级汽车公司、地图提供商和原始设备制造商。高精地图封装了自动化车辆的所有必要信息,以非常高的精度了解驾驶环境。虽然人们普遍认为高精地图是CCAM的核心推动者,但对于什么信息构成高精地图以及如何表示这些信息,没有明确的指导方针或标准。尽管如此,市场上可用的高精地图具有共同的功能。厘米级的位置精度以及车道级几何和语义信息的可用性是大多数高精地图中的基本特征。在最基本的层面上,高精地图可以简单地是一组点和线段,其准确位置代表路标、车道标记、车道边界和车道分隔符。由于AD系统的要求,今天的高精地图变得越来越复杂,来自不同来源的数据构成了关于驾驶环境的多层信息。将高精地图分解为多个层可以使道路环境具有更结构化的数据表示。这有助于AD系统的不同组件的可访问性,这需要在不同的细节级别对环境进行建模。此外,分层数据表示使地图的构建、存储、检索和维护变得容易。图2中给出了这些分层的示例。

如上所述,有几种方式来表示AD系统中使用的地图信息,包括车道级别的细节,例如车道边界、车道标记类型、交通方向、人行横道、可驾驶区域多边形和交叉口注释。尽管驾驶环境是高度动态的,但这三层中表示的数据是静态的。环境的整体表示还应包括关于观测速度、天气条件、拥堵区、道路阻塞区(施工)等的实时交通信息。本节试图以统一的方式提供存储在这些层中的信息的全局概览。尽管大多数高精地图提供商都有自己的定义和格式,而且高精地图还没有唯一的标准,但我们将高精地图中包含的信息分为六个不同的层,如图2所示。

A.基础地图层

基础地图层是HD地图的基础,并被视为构建所有其他层的参考层。它包含环境的高度精确的三维地理空间表示,例如道路、建筑物和其他结构的位置和形状。道路环境的三维地理空间模型正成为自动驾驶汽车的重要信息来源。现在,HD地图通常包含环境的三维表示。基本地图层通常使用来自激光雷达的点云和/或来自一个或多个相机的图像创建,有时借助GPS/IMU。这套传感器构成了一个MMS,可以创建一个高度准确和详细的代表环境的3D点云。从该层提取道路和车道的几何和语义特征,以构建HD地图中的其他层。由于该层包含环境的密集数据表示,因此它在自动驾驶汽车的精确定位中发挥着至关重要的作用。点云配准的几种技术允许通过将原始传感器数据与该层的点云相匹配来估计车辆姿态。就数据处理和通信需求而言,构建和更新该层具有挑战性。

B.几何地图层

尽管基础地图层对环境的表示精确而密集,但由于其表示中缺乏有意义的特征,其支持理解环境的能力有限。HD地图中的几何图层提供了有关道路环境几何图形的详细信息,包括道路、车道、路缘石和其他特征的位置和形状。几何层通常包括有关道路宽度、车道数量、每条车道的中心线、每条道路中车道的边界以及路面高程的信息。它还包括有关路缘石、人行道、人行横道以及垂直和水平交通标志的精确位置和形状的信息。这些特征中的每一个都用基本的几何图元表示,即点、线、多线和多边形。例如,垂直交通标志的位置可以用一个点来表示。车道中心线或边界可以由一组相互连接的线段表示,例如多线。类似地,人行横道可以用多边形表示。该层的几何特征是通过处理基础地图层的数据来创建的。根据基础地图数据构建几何层通常涉及几个处理步骤,包括道路分割、车道信息提取、路标、杆、交通标志、路缘石、障碍物和路面特征。该层提供了道路特征的高度准确的车道级几何表示。HD地图中的几何特征对于各种AD核心组件至关重要,最重要的是对于动态道路参与者的精确运动预测,以及几何可行轨迹的安全规划。

C.语义地图层

语义地图层定义了由几何地图层提供的道路特征的重要性。该层中的数据为地图中表示的特征提供了上下文和意义。例如,HD地图中的语义地图层包含诸如道路类型(例如,高速公路、住宅道路)和车道(例如,可能向左或向右改变)、它们的编号、交通方向以及车道是用于转弯还是用于停车的信息。它还包括有关限速、车道边界、十字路口、人行横道、交通标志、红绿灯、停车位、公交车站和许多其他对构建环境上下文表示很重要的特征的信息。语义地图层允许自动驾驶汽车构建其环境的详细情景表示,并理解交通规则,从而能够在不同的交通场景中做出正确和安全的决策。简单地说,语义地图层为几何地图中定义的道路特征和对象分配语义标签。例如,几何图层中的点只不过是地图坐标参考系中的一组有序坐标。只有语义层定义该点是否对应红绿灯、让行标志或停车标志。众所周知,高精地图包含丰富的语义信息。语义层还将元数据与道路特征相关联,如道路曲率、推荐行驶速度和每个语义特征的唯一标识符。事实上,语义丰富的高精地图使自动驾驶汽车能够更好地了解驾驶情况,从而在复杂的场景中做出复杂的决策。然而,构建可靠且高保真的道路环境语义图并不是一个简单的过程。需要几个处理步骤,不限于场景分割、目标检测、分类、姿态估计和地图。随着计算机视觉、深度学习、传感器融合和语义SLAM算法的最新进展,构建准确的语义图成为可能。

D.道路连接层

道路连接层描述道路网络的拓扑结构以及各种几何元素是如何连接的。与只包含道路级信息和道路级连接的数字地图的标准定义相反,高精地图包含车道级几何和语义信息,因此道路之间的连接变得复杂,因为它定义了两组或多组车道之间的连接。更准确地说,这一层提供了道路的布局和连通性,包括车道边界和中心线以及十字路口。车道级连通性信息对于规划道路和车道之间的合法过渡以及规划每个交叉口允许的操作是必要的,这对自动驾驶汽车的路径规划至关重要。简单地说,该层定义了构成几何层的图元如何相互连接。这些连接是通过定义几何和语义元素的顺序对来建立的。为每个几何和语义元素分配一个唯一的标识符可以使用图形数据结构来表示这些信息,其中每个元素都由一条边和它们作为节点的连接来表示。图形结构允许快速查询和搜索地图,并有效地规划路线。

E.先验地图层

该层也被称为先验地图层,因为它表示并学习过去经验中的信息。它涉及地图中的几何和语义元素,它们的状态随时间变化。从车队的数据中学习交通流和事故区域的状态允许更有效和更具预测性的驾驶行为。该层还获取和学习有助于预测人类驾驶行为和十字路口红绿灯动态状态的信息。它还适应临时道路设置,如停车命令、占用率和时间表。例如,一些城市的路边停车场在某些工作日会发生变化,预测占用的概率,并且管理给定停车场的时间规则是从经过该停车场的不同车队车辆的先前地图层传感器读数中得出的。由于不同社会之间的社会文化差异,学习和预测道路驾驶员的驾驶行为可能具有挑战性。根据经验对这些行为进行建模对于通用和可扩展的AD系统至关重要。

F.实时地图数据

高精地图中的实时层是一个动态层,它提供有关环境的实时信息,例如交通状况、道路封闭和其他可能影响自动驾驶车辆导航的事件。该层通常是通过组合来自各种来源的数据来创建的,例如安装在车辆上或位于路边的相机、传感器和其他连接设备。通过参与车辆的众包或使用特定通信网络的智能基础设施,实时收集数据并用于更新高精地图。实时层可以包括诸如其他车辆的位置和速度、交通信号的位置和状态以及道路上是否存在施工区域或其他障碍物和堵塞物的信息。这些信息对于自动驾驶汽车实时做出安全高效的驾驶决策以优化交通流量和减少拥堵至关重要。此外,实时层可以用于通过提供关于环境的最新信息来提高HD地图的准确性和完整性,这些信息可能不会被用于创建地图的传感器捕获。简单地说,高精地图中的实时层提供了环境的动态、最新表示。动态元素的高精地图实时更新具有挑战性,需要复杂的智能通信基础设施和多个参与者之间的合作。智能交通系统(ITS)、高精地图提供商和车辆之间的数据传输必须可靠,并满足本调查稍后介绍的某些要求。

自动驾驶系统架构中的高精地图

高精地图为AD系统提供了道路环境的详细而精确的表示。这些地图包含自动驾驶汽车安全高效导航所需的车道级几何、拓扑和语义信息。在自动驾驶汽车中使用高精地图可以让他们更好地了解周围环境,规划路线,并做出更准确的驾驶决策,从而确保乘客和其他道路使用者的安全。本节讨论高精地图在AD系统中的重要性和用途。超精密地图数据现在是AD系统中大多数不同核心组件的组成部分。为了讨论高精地图在AD中的重要性和用途,我们简要介绍了典型的现代AD系统的架构和标准组件。图5显示了AD系统的标准组件,展示了那些依赖HD地图的组件。本节首先简要介绍AD系统的体系结构及其工作方式及其各种组件。本节的其余部分对依赖高精地图的AD组件的最新技术进行了广泛的回顾。

A.自动驾驶系统架构

自动化车辆是一种复杂的网络物理系统,其中不同的组件必须协同工作,以稳健、可靠和安全的方式完成整体驾驶任务。虽然不存在AD系统的独特架构,但我们在这项工作中依赖于一种通用架构,该架构有助于我们了解如何使用高精地图来改善AD系统的不同功能。类似于任何机器人系统,自动驾驶汽车都可以被视为具有三个主要元件的认知代理,(1)传感器、(2)感知和(3)行为。将这些元素拆分为一个行业级的AD系统会产生几个组件,如图5所示。现代AD系统架构中的传感组件通常包括不同的传感器,如IMU、GPS、相机、激光雷达和雷达。这些传感器的子集允许车辆知道其相对于环境的位置,即用于定位,并且剩余的传感器用于感知环境本身。传感组件的作用是读取和预处理原始传感器数据,并将其提供给AD系统的其他部分。在最简单的形式中,传感组件由一组传感器驱动器组成,用于实时读取原始传感器数据。定位组件是整个AD系统可靠运行的最关键部件之一。它的作用是精确估计车辆的位置。定位的错误会传播到AD处理管道的其余部分。定位只是一个状态估计器,它融合了来自传感组件的原始传感器数据。此外,地图的可用性允许改进和鲁棒定位,特别是在一些传感器失效或性能下降的区域。感知的作用是生成当前环境状态的中间级别表示,包括有关障碍物和道路因素的信息。此表示还包括有关车道(位置、边界、标记和类型)、交通标志、红绿灯和可驾驶区域的详细信息。计算机视觉和深度学习技术广泛用于分割、聚类和分类任务。此外,目标级融合也是该组件的重要组成部分。感知的输出是被跟踪目标的列表以及用于场景理解的图像的语义分割。来自HD地图的几何和语义信息也可以用于改进目标检测和融合。准确的感知对安全至关重要,因为感知错误会影响整个AD系统使用的信息质量。因此,使用冗余的传感器数据源可以增强感知准确性的信心,从而提高整个系统的鲁棒性。场景理解组件是AD系统中感知组件和高级认知组件给出的环境抽象中级状态表示之间的桥梁。该组件旨在通过构建高精地图和感知组件提供的数据,提供对驾驶场景的更高层次的上下文理解。在本节的后面,我们将讨论如何将这两个信息源融合,以构建用于理解驾驶环境的场景表示。AD流水线中依赖于HD地图的另一个组件是运动预测组件。它建立在场景理解提供的环境的高级时空表示的基础上,以预测车辆周围道路代理的行为。HD地图在运动预测中的作用是提供场景中每个道路代理的先前轨迹。运动预测是一个高度多模态的问题,HD地图在其中发挥着关键作用,本节将对此进行详细讨论。运动规划组件旨在计算自动驾驶汽车可行、无碰撞和安全的轨迹。这是通过优化由在HD地图数据上运行的路由算法获得的全局最短路径以及道路代理的预测轨迹来实现的。运动规划还包括行为规划功能,该功能依赖于由检测到的对象和HD地图定义的当前场景的状态。控制部件接收计划轨迹,并计算转向、制动和加速驱动系统的控制命令。控制组件没有明确依赖于地图数据,因此在本次调查中不会考虑它。最后,如图5所示,通过处理提供地图数据的请求,使用一个特殊组件为所有其他组件提供服务。高精地图数据通常存储在地图服务器(本地或云)查询的数据库中,以路由、平铺和更新车辆中地图客户端的请求。由于路由元素需要特殊的算法处理,我们将在AD系统中HD地图应用的调查中考虑它。

B.定位

AD系统中的定位组件旨在估计车辆相对于全局参考坐标系的位置和方向。其关键作用是持续保持系统中连续组件所需估计的高精度和鲁棒性。定位算法的精度决定了整个AD系统的可靠性。恶劣天气条件下定位的稳健性是现代AD系统的一个关键要求,因为退化的估计性能可能会导致严重后果和潜在损害。在过去的二十年里,对定位的重大研究取得了显著的成绩,同时也产生了各种各样的方法。为了保证正常运行条件并实现全球系统安全,自动驾驶汽车需要定位在10厘米精度以内。

C.感知

AD系统中的感知组件通常与处理原始相机图像和激光雷达点云相关联,不仅用于检测和跟踪静态目标(例如,交通标志和道路标记),还用于检测和追踪动态障碍物,例如,周围的车辆、行人和骑自行车的人。感知是AD系统的关键核心功能之一。确保其可靠性和实时性能对于确保无碰撞导航至关重要。将感知数据与高精地图各层中包含的详细而精确的几何和语义信息相融合,可以通过关注最相关的感兴趣区域(ROI)来潜在地改善感知。更准确地说,HD地图的几何形状允许定义ROI来过滤点云,只留下感知函数特别感兴趣的点云,从而简化和提高不急检测的计算效率。

D.场景理解

了解驾驶环境对于自动驾驶汽车做出正确、安全的决策至关重要。高精地图的早期动机之一是为自动驾驶汽车提供精确而详细的信息,以帮助了解其环境。该信息使AD系统能够理解当前的驾驶状况并解释构成场景的所有实体。地图中包含的几何结构和语义使系统地构建紧凑的数据模型和环境表示成为可能,从而使车辆能够处理复杂的驾驶场景。更准确地说,AD系统中的场景理解组件,在HD地图的几何和语义信息的支持下,可以始终如一地提供有意义的感知上下文。除了原始目标检测,场景理解旨在提取和估计安全关键信息,并使其可用于后续处理阶段。

E.ROUTING

道路级数字地图有助于人类驾驶员导航。这些地图中的路线计算不能超出使用道路级别连接的范围,因为这些地图不包括车道级别的详细信息。准确和优化的驾驶路线对于节省时间和能源以及促进全球车辆安全是必要的。高效和低成本的行驶路线计算必须考虑环境的车道级模型。此外,在高度动态的环境中,当自动驾驶汽车在环境中导航时,有关交通状态和车道占用的详细信息对于动态调整路线至关重要。考虑到高精地图静态层的详细和准确的车道级别信息以及先验和实时层,有效的动态路线计算是可能的。为了使自动驾驶汽车中的路由子系统能够计算从当前位置到设定目的地的可行驶路径,必须从HD地图服务器为系统提供最新的地图,如图5所示。或者,与数字地图一样,路线计算也可以作为一项服务提供。在将其准确位置发送到HD地图服务器后,可以计算最佳路线并将其反馈给车辆,以支持系统的其他核心组件。在过去的几年里,这些路由服务涉及到考虑实时交通状况和能量因素(例如,最节能的路由)。对于自动驾驶汽车,可以考虑其他因素,例如避开ADS难以导航的复杂城市环境的路线,或者具有良好网络覆盖率的路线,以保证在线服务的连续连接,包括实时高精地图服务。

F.运动规划

运动规划在AD系统中的作用是生成可行、安全、无碰撞和节能的轨迹。运动规划任务通常包括轨迹生成和行为规划。行为规划是一种高级决策功能,用于决定不同驾驶状态之间的转换,例如变道、车道内车辆跟驰、减速停车等。为了安全地进行这些转换,行为规划器需要局部地图和车辆感知来建立车辆环境的转换模型。与移动机器人中的导航不同,道路环境是高度结构化的,所有道路使用者都必须遵守交通规则。生成的AD轨迹是严格要求的,以确保遵守交通规则,并且运动在可行驶的道路区域内。自动驾驶汽车的运动规划存在不同的方法,它们都在某种程度上依赖于高精地图提供的几何和语义信息来遵守交通规则。在基于样本的运动规划方法中,HD地图的车道几何形状用于通过拒绝不可行的候选轨迹来限制搜索空间。

G.运动预测

驾驶环境是高度动态的,涉及不同的道路参与者,如行人、车辆和骑自行车的人。预测这些道路参与者未来的运动和行为对于自动驾驶汽车构建其互动环境的上下文感知表示至关重要,从而预测潜在的危险情况。从抽象的角度来看,这些交通参与者可以被认为是一个复杂的多智能体系统。事实上,开发可靠的道路代理运动和行为预测解决方案将提高自动驾驶汽车的安全性和能力,以适应现实世界交通条件下的类人行为。预测这些交通参与者的行为对AD系统至关重要,主要用于风险评估和安全舒适的运动规划。运动预测是指根据道路代理的当前状态和他们所处环境的模型来估计他们的未来行为。各种研究工作已经解决了预测道路参与者未来运动的问题。

H.第三方应用

高精地图可以提供准确可靠的GT数据,可作为校准传感器输出的参考。例如,激光雷达可以使用高精地图几何元素的高精度坐标进行校准,并与IMU完美配准。通过将传感器测量值与HD地图数据进行比较,可以识别和纠正任何错误或差异,从而改进传感器的校准。此外,高精地图可用于在线(自行)校准。高精地图、实时原始传感器数据和执行比较的算法的可用性使计算传感器测量值和GT间的误差成为可能。因此,它允许实时地连续校正传感器的校准误差。这使得AD系统能够对不断变化的环境条件以及传感器性能变化更加稳健和可靠。与离线校准方法相比,在线校准可以实现更准确、更稳健的传感器校准。最近,高精地图还可以用于增强道路注释,以创建用于交通地标检测的大型数据集。

构建高精地图

A. 移动建图系统

构建高精地图是一个复杂的过程,需要几个步骤。构建高精地图程序的第一步是派遣配备一套高精度和校准良好的传感器的专业车辆来调查和收集有关环境的数据。用于建图的数据采集车辆可能配备有与RTK(实时运动学)定位精度高达几厘米的校正服务连接或实现校正服务的高精度GNSS。GNSS定位测量通常与高性能IMU(惯性测量单元)和车轮里程计的测量相融合。有几种商业产品将全球导航卫星系统和IMU作为惯性导航系统集成在一个单元中。建图车辆还配备了一个或多个高分辨率激光雷达和摄像头,以收集道路环境的原始3D/2D数据。有两种方法可以设置用于绘制地图的数据收集工具。首先是购买上述传感器,选择合适的配置并将其安装在车辆上。尽管这种方法提供了预先定义传感器配置的灵活性;然而,将几个不同的传感器校准到绘图所需的精度并不是微不足道和耗时的,尤其是对于相机。或者,一些制造商在一个封装中提供整套传感器,称为移动建图系统(MMS)。商用MMS的示例如图6所示。

高精地图维护

拥有最新的高清地图对于各种AD核心组件的正确运行至关重要。高清地图中的错误可能会由于系统做出的不当决定而导致严重损坏。通过地图车辆的频繁更新,可以避免错误的决策。由于新的基础设施建设、道路维护和车道扩建,道路环境高度动态,可能会发生频繁变化。绘制地图的车辆必须能够检测到环境的变化,并发送它们来更新地图。地图更新过程涉及复杂的处理步骤,包括处理来自不同规模的多个来源和传感器的数据,识别存储的地图和新收集的环境数据之间的偏差,并最终整合这些偏差来更新地图的不同层。文献中已经开发了几种方法和方法来捕捉高清地图的变化并进行更新。在下文中,我们回顾了检测高清地图变化的不同方法和方法,以及如何将这些信息应用于更新地图。我们调查以前维护高清地图的工作所遵循的方法是基于分析每种最先进的方法维护的图层,如表3所示。

A.地图变换检测

高清地图中的变化检测是指识别环境变化的过程,如新建筑、道路封闭等。随后相应地更新地图的图层。高清地图会定期发生变化,拥有一张可以被自动驾驶汽车信任的地图对于保证导航安全至关重要。变化检测通常通过使用各种传感器来实现,如相机、激光雷达和雷达,并结合计算机视觉算法和机器学习技术。甚至在高清地图出现之前,变化检测算法就已经在许多应用中找到了用武之地。遥感是地图变化检测和更新的早期应用之一。它还成功应用于城市监测、森林变化、危机监测、三维地理信息更新、施工进度监测和资源调查。在这些应用程序的最基本层面上,问题相当于比较原始传感器数据,主要是3D点云、2D图像或两者结合。

B.地图数据更新

HD地图维护的第二阶段是基于变化检测的结果来更新地图元素。简单地说,地图更新相当于一个概率数据融合问题。近乎实时地持续监测不断变化的环境中的变化,并融合时间和空间上的不同数据模式,以及从不同来源更新多个层,这确实是一项具有挑战性的任务。Cadena等人在他们的调查论文中指出,更新和维护大型自动驾驶汽车车队创建和使用的高清地图的分布式过程是未来研究的一个令人信服的主题。朝着这个方向,Kim等人提出了一种从众包点云数据中保持新特征图层最新的解决方案。这种新的特征图形成了构建HD地图的不同语义和几何特征的基础。

高清地图的数据和通信基础设施

大规模构建和维护高清地图是多个利益相关者之间的数据交换问题,例如,作为ITS路边基础设施所有者的政府、地图提供商和车辆,如图7所示。地图数据的收集、构建、维护和分发需要可靠的通信和分布式计算基础设施。本节讨论了扩展高清地图的创建、维护和分发所需的数据和通信基础设施。

挑战和未来展望

尽管CCAM在过去十年中取得了显著进步,但实现车辆的完全自主仍然是一个尚未解决的挑战。对于要大规模部署的自动驾驶汽车来说,高清地图的可扩展解决方案至关重要。在本节中,我们阐明了需要解决的各种挑战,以充分发挥高清地图CCAM的潜力。毫无疑问,在利益相关者之间构建、维护和分发地图数据的成本效益和灵活性解决方案的可用性将大大提高CCAM在未来几代智能城市中的可扩展性。此外,我们还讨论了高清地图的未来前景和应用。

A.挑战

  • 标准化与数据表示:高清地图的概念已被广泛接受,成为CCAM的一项关键技术。然而,对于如何表示地图数据、需要多少层、每个层中必须存储什么地图数据以及以何种数据格式存储地图数据,没有达成一致意见。由于高清地图的复杂性及其包含的大量数据和信息,很难为其定义一个通用标准,因此创建一个全面且易于理解、存储、维护、更新和有效分发的标准具有挑战性。为地图数据定义一个通用标准将提供更多的数据兼容性,方便访问数据,同时降低开发和集成成本。此外,这将提高数据的质量、一致性和隐私性,从而提高包括自动化车辆在内的所有参与者的道路安全。

  • 可扩展性:可扩展的高清地图解决方案对自动驾驶汽车的大规模部署至关重要。构建城市、地区和全国范围的高清地图并保持其更新仍然是一个巨大的挑战,尤其是在处理用于表示几何道路特征和交通标志的不同标准、交通规则和条例时。这些标准因地区而异。映射算法必须是通用的,并且能够在不同的地区和国家工作。映射应该是一个连续的数据收集和处理过程,以修复已更改的区域。这一过程在大的地理区域变得具有挑战性,在这些区域,大量的车辆必须成为地图绘制过程的一部分。绘制地图的成本直接取决于要绘制地图的区域有多大以及为其服务所需的车辆数量。正如本文早期所讨论的,绘制地图的车辆非常昂贵。此外,使用配备消费级传感器的单独车辆需要复杂的算法,这些算法尚未成熟。

  • 网络和计算基础设施:在构建和更新可扩展高清地图的情况下,处理和处理大量数据需要可靠的网络和计算基础设施,该基础设施应协调且接近实时。随着5G/6G蜂窝通信、物联网(IoT)和边缘计算架构的出现,车载通信的许多机会普遍可用,处理构建高清地图的解决方案成为商业上可行的选择。这些通信和计算基础设施旨在处理此类数据密集型应用程序,并满足其延迟和带宽要求。具有大量联网车辆的大规模众包地图将是这些基础设施的主要应用之一。

  • 建图算法的限制:尽管在构建高清地图的自动化过程中付出了巨大的研发努力,但高清地图的最新研究结果清楚地表明,用于提取高清地图特征和构建道路和车道拓扑的地图算法仍然局限于简单的特征。目前最先进的算法可以检测简单的几何特征,但无法处理高曲率特征,例如环形交叉路口。此外,这些方法中的大多数都需要几个后处理步骤才能以合适的矢量格式获得特征。地图语义特征仍然局限于极少数且易于检测的交通标志。最近很少有工作开始解决构建车道拓扑以构建简化的道路/车道连接网络的问题。开发一个通用的地图管道可以构建一个包含几何、语义和拓扑信息的全功能高清地图。建造这样一条管道仍然是一个挑战。

  • 地图数据所有权、隐私、完整性和分发:构建和维护高清地图的未来将是自动化和分发数百万辆汽车所涉及的过程。从环境中收集、处理和存储大量分布式数据引起了对数据所有权、隐私、完整性和分发的一些担忧。原始地图数据是在车辆中生成的,与来自公共当局的其他数据源聚合,由地图提供商处理和分发。从收集到分发的地图数据所有权可能需要在大规模高清地图中解决。此外,保护个人和车辆的隐私至关重要,在绘图过程中必须加以考虑。地图数据可以包括敏感的用户信息,例如车辆的精确位置以及车辆环境的精确描述。必须确保高清地图数据的完整性,以避免错误和致命的决策,尤其是在自动驾驶汽车使用时。构建准确可靠的高清地图仍然是一个正在进行的研究问题。商用高清地图通常要经过人工检查和验证。从多个数据源生成准确可靠的高清地图数据,例如通过众包生成,带来了一些有待解决的技术问题。可扩展高清地图的所有权、隐私和完整性最近开始引起研究人员的注意。另一方面,区块链由于其分布式和安全性,已被证明是一种很有前途的解决方案,可确保数据完整性。构建和更新可扩展高清地图,同时保持数据的可追溯性、隐私性和完整性的用例是区块链的完美应用。这项技术有望在构建和分发下一代高清地图方面发挥核心作用。

B.未来方向

  • 精准:精确定位一直是将高清地图引入自动驾驶汽车的主要动机之一。道路环境的密集、紧凑表示的存在是高清地图的基础;尤其是在本地化方面。HD地图中包含的信息密度和处理这些信息所需的计算工作量之间一直存在折衷。神经3D场景表示的最新进展使以非常紧凑的表示方式重建真实感3D场景成为可能。使用神经辐射场(NeFR)表示基础地图层允许受益于该层的紧凑和真实感表示。这项技术可能会让自动驾驶汽车进入一个新时代。

  • 自动驾驶以外的应用:高清地图的开发主要是为了帮助自动驾驶汽车了解环境并在环境中安全导航。由于高清地图提供了详细而精确的环境表示,因此也可以用于提高经典数字地图提供的各种服务的质量。此外,高清地图在残疾人数字辅助技术中发挥着重要作用。如果视障人士配备了合适的传感器,并能够获得高度精确、详细和语义丰富的环境表示,他们的行动能力和安全性可以显著提高。如果精确定位,数字辅助设备将能够解释和理解环境,从而生成语音导航消息以实现安全导航。行人高清地图中交通信号灯和其他交通信息的实时状态与增强这些设备的功能有关。目前,大多数高清地图提供商只提供代表车辆环境的地图。今天的高清地图中仍然没有绘制车辆以外参与者的路线图,例如行人人行道和自行车道。为所有参与者构建和更新高清地图将为实现广泛的自主和非自主导航以及一些有用的数字服务铺平道路。

  • 面向数字孪生:环境数字孪生是环境的整体数字表示,包括其所有物理和功能特征。城市规模的数字孪生是CCAM中的一个新兴概念,旨在构建一个数据驱动的模型,该模型将来自物联网传感器、联网车辆、建筑、智能基础设施和交通网络以及所有其他数据源的各种来源的数据相结合,以帮助创建一个全面、实时的城市模型,从而改善道路服务。这一概念将高清地图作为联网和自动驾驶汽车的数字模型概括为帮助社会中所有实体的整体数字模型。数字孪生甚至可以用于对环境中不同实体的行为进行建模,即使是在微观细节层面上。高清地图将是数字孪生的单个模块,支持我们智能城市中联网和自动驾驶汽车的不同功能和服务。由于高清地图可用于模拟复杂的驾驶场景,数字孪生将用于模拟和分析这些车辆的复杂城市规模场景。数字孪生将允许研究、分析和模拟新开发项目的影响或交通模式变化的影响,并可以帮助城市规划者和决策者通过预测未来情景来分析和优化城市的表现,并确定改进的机会。建立一个城市规模的数字孪生确实是一个巨大的挑战,需要大量的数据,而且这可能是一个复杂而耗时的过程。分布式大量数据的交叉验证、完整性和可信度仍然是创建数字双胞胎的挑战。车辆的众包道路地图绘制将被同时使用异构连接传感器的大量数据进行室外和室内地图绘制的统一过程所取代。

结论

高清地图仍然是现实世界CCAM应用程序的一个快速发展的方面,推动了该领域的创新和进步。尽管在高清地图在AD系统中的应用以及构建和维护高清地图的算法和基础设施方面进行了大量的研究和开发工作,但很少有文献可以总结和提供这些工作的立足点。本文广泛回顾了以往关于构建和维护高清地图的工作,包括成本效益高的解决方案,以及从生成到分发的通信和地图数据要求。此外,本文还讨论了当前在构建和维护高清地图方面面临的挑战。更准确地说,我们提供了高清地图的独立概述,作为更广泛的智能交通系统社区的背景。我们还讨论和分析了将高清地图用于AD系统中各种核心功能的最新技术。此外,我们广泛讨论和回顾了构建不同层次的高清地图并使其保持最新的不同方法、方法和算法。最后,我们对下一代移动应用的高清地图的未来发展进行了一些说明。

#远距离双目感知的一些看法

受 王峰:远距离LiDAR感知 启发,作为实打实的 L2+ RoboTruck 同行 ,我也来分享分享 智加/Plus 在远距离感知上的一些积累,作为工作一段时间的总结。

既然特斯拉、百度/极越已经在一定规模下证明了纯视觉 L2+ (highway/city, FSD) 的可行性,那为什么还要去研究双目呢?双目、LiDAR 相较于 2M 的 30/60/120 和 8M 的 30/120 的区别是什么?我的看法是:

  • 在线:在数据规模有限的情况下,双目和 LiDAR 一样,能快速提升感知性能上限;

  • 离线:可用于 auto-label 中的预标注、建图;

  • 成本:相较于 LiDAR,在成本上有显著优势;

  • 标定:前向标定在流程上也会更简单;

  • 架构:双目硬同步 (vision-centeric),来触发、对齐其他相机,相较于 LiDAR-centeric 更精准。

我们的效果和大疆、鉴智释放的图片、视频一样,可以实现稠密、准确的深度估计。但是很可惜,基于 DL-Stereo 的方法需要稠密的深度 GT,而现在的 LiDAR 往往只能提供 150m 内的 GT. Livox Tele 的 FoV 较小,超远处的反射率和点数不足以支撑我们的需求和场景。最终在远距离使用的,还是基于传统特征的稠密/稀疏匹配。

不同于现在流行的前向单目、三目、长短焦双目,同构双目的玩家其实并不多。乘用车领域,国内做得最好的应该是大疆、鉴智,国外是维宁尔、奔驰。我先来分享分享他们的进展和优势。

玩家们

大疆

  • 在宝骏的一系列产品中交付:云朵、KiWi、悦也的高配版本,能够实现城区记忆行车。

和大疆一样,智加也通过双目强化了 Lane, 3D Det, Calib, Depth 等模块。

鉴智

  • 鉴智分享过很多 demo,实现了基于双目的魔毯、智能底盘功能,和蔚来/奔驰的 4D 底盘异曲同工,也算是近年来把双目作为核心优势的重要玩家。

鉴智优化了 HKBU 的工作 FADNet

也有做 MVS 和全向深度估计 Full Surround Monodepth from Multiple Cameras (TRI-ML/VIDAR)

地平线

  • 地平线 PoC 过双目,也有一些开源的工作,后续再观望观望。

奔驰

  • 老法师奔驰早在13年前就分享过基于 stixel 的双目深度估计、freespace 预测 / 参考。

英伟达

英伟达作为奔驰的重要合作伙伴,优化、实现了不少双目的工作:

  • https://github.com/NVIDIA-AI-IOT/redtail/tree/master/stereoDNN

  • VPI - Vision Programming Interface

  • Stereo Disparity Sample

  • ACCELERATING OPTICAL FLOW AND STEREO DISPARITY ESTIMATION USING THE NVIDIA A100 OFA ENGINE

维宁尔 (Veoneer)

  • 维宁尔曾是宝马、斯巴鲁的双目供应商,在2018年的投资者日上曾分享过双目规划。可以看到,基础方法论还是奔驰分享的 stereo stixel

华为 ADS 1.0

  • 华为在 ADS 1.0 上规划了前向四目,除了广角和长焦外,还有一对双目。不过从 ADS 2.0 的交付来看,最终还是拥抱了 LiDAR-centeric 而不是双目视觉。

ArgoAI

ArgoVerse stereo 相较于 KITTI stereo 更符合现在的自动驾驶场景需求。

  • ArgoAI 1/2 都包含了双目数据,在 CVPR 2021/2022 都举办过比赛。但里面都是一些成熟模型的 finetune 和刷点,缺乏一些新意和实践价值。

安霸/VisLab

  • 多组双目系统的想法一开始由安霸/VisLab 的视频启发,他们实现了一个前向两对双目(包括长焦)的系统。还有一个视频,很可惜找不到了,这个视频描述了 VisLab 在 side 和 rear 装了多组双目,实现实时的全向深度估计。这个想法,很类似于 Mobileye 2020年发布的 VIDAR,以及 TRL 的 Full Surround Monodepth. 这些成果,都来源于VisLab 十多年的立体视觉研究积累。

ForeSight

  • ForeSight 分享过他们的异构双目系统,我曾经去常州实车体验过:

  • 前向 120 度和 bumper 200 度广角实现的双目 (类似于 TW-SMNet)

  • 车顶的 30 度 RGB 双目

  • 车顶的 IR 红外双目

  • 这块可以参考:

  • iPhone 15 上的空间视频拍摄 / Tele

  • GitHub - ComVisDinh/disparityestimation: Deep Network Exploitation for Disparity Estimation Using Stereo Images with Different Focal Lengths

  • 视角不平衡立体匹配研究-CSDN博客

蔚来/理想

  • 蔚来/理想的两个 front side 相机 FOV overlap 较小,非光心对齐同构。也不是不能做双目,但可能效果较差。

智加/Plus

在 Plus 创业伊始 16-18 间的 stereo demo

无论是 2021 年量产交付的解放 J7+, 还是 2023 年的江淮 K7+、2024 年的柳汽 H7+,长基线双目都是我们最核心的模块。多年前,我们曾发布过 1km 以上的目标感知结果,但那是基于 L4 状态下的超宽基线(双目布置在车侧, 2.8m 基线)。在 L2+ 量产平台下,我们需要将双目摄像头放在挡风玻璃内,能够被雨刮覆盖,并满足法规和稳定性要求。

在感知架构上,最早期,感知方案主要还是 2D 检测为主,通过 2D 检测去抠深度图,或者通过接地点等几何先验去测距。渐渐的,有了很多 Mono3D 检测,Stereo3D 检测的工作。最后,收敛到 BEV 前融合 3D 检测,甚至全稀疏的 Sparse BEV. 但不管何时,在前向远距离感知上,双目都能够持续提升感知的整体上限。例如,我们做过不少事情去探索双目的价值:

第一件事是,通过 SGM/optical flow 这些底层特征,识别非标/超宽障碍物。但实践下来,很难简单地与 3D 表达兼容。我们渐渐地发现,相较于2D 视角,BEV/Occupancy 是一个更优雅的框架去解决这些难题。逻辑上还是相似的,BEV/Occ 仍然需要去表达、解释这些稠密的底层特征和时序特征。

通过稠密深度图去避让超宽车

通过光流 motion seg 去识别障碍物

第二件事是,仅对 bbox 内的点去做 match,相同精度下仅有 1/2 latency,并能提升远处 recall. 即使在夜晚,我们也能有 300m 的稳定 trakcing.

第三件事是,在高分辨图下,动态裁剪 2M 原图,通过一个额外的 2D 检测器以及稀疏匹配,实现远距离小目标 2倍 tracking 性能的提升 (cone, 80m->160m), 整体感知 tracking 距离从 300m+ 到近 400m.

第四件事是,实现长焦双目。效果显而易见, Z=fb/d. 焦距 f 的提升能够简单而有效地提升远处距离性能。但简单替换相机,会造成前向盲区过大的问题。在框架上,需要通过广角相机去做车道线等模块。有一定的系统迁移成本。

总结

无论是图森的 LiDAR-centeric 方案,还是智加的 Stereo-centeric, 核心本质还是提升远距离 tracking 的稳定性。就好像 @王峰 提到的 “对于远距离感知的探索不能说是一帆风顺,简直就是满路荆棘。”

上面这些工作,都是在 Xavier 低算力平台下循序渐进的思考和实践。在 Orin 平台下,我们已经渐渐地过渡到视觉 BEV 3D 框架。但正如图森的分享,在卡车领域里,数以亿计的 2D 数据仍然在和 3D 需求互相融合,继续完善。

后续的实践,是将高分辨率 RoI 双目集成到 BEV 框架中。当有充沛的远距离 GT 数据时,不管是 dense-bev 还是 sparse query bev,都能看得更远更稳。等待合适时机再跟大家分享 :-P

最后也是最重要的,要感谢智加/Plus 的同事们 (Tim, Mianwei, Darren, Philip, Andy, Tong, Peidong, Xingjian, Fuyue, Xuyang),我只是起到了个承上启下的作用 。

Logo

分享最新的 NVIDIA AI Software 资源以及活动/会议信息,精选收录AI相关技术内容,欢迎大家加入社区并参与讨论。

更多推荐