DiffE2E：基于扩散的端到端自动驾驶框架，融合多技术实现CARLA与NAVSIM最佳性能！

端到端学习已成为自动驾驶领域的一项变革性范式。然而，驾驶行为固有的多模态特性以及长尾场景中的泛化挑战仍然是稳健部署的关键障碍。作者提出了DiffE2E，一个基于扩散的端到端自动驾驶框架。该框架首先通过分层双向交叉注意力机制对多传感器感知特征进行多尺度对齐。

江湖人称麻花滕

1249人浏览 · 2025-07-09 21:16:16

江湖人称麻花滕 · 2025-07-09 21:16:16 发布

随后引入基于Transformer架构的新型混合扩散监督解码器，并采用协同训练范式，无缝整合扩散和监督策略的优势。

DiffE2E对结构化潜在空间进行建模，其中扩散捕捉未来轨迹的分布，监督增强可控性和鲁棒性。全局条件整合模块实现了感知特征与高层目标的深度融合，显著提升了轨迹生成质量。

接着，交叉注意力机制促进融合特征与混合潜在变量之间的有效交互，推动扩散和监督目标的联合优化以生成结构化输出，最终实现更稳健的控制。

实验表明，DiffE2E在CARLA闭环评估和NAVSIM基准测试中均达到当前最佳性能。所提出的集成扩散监督策略为混合动作表示提供了一种可泛化的范式，具有扩展到更广泛领域（包括具身智能）的巨大潜力。

1 引言

端到端自动驾驶建立从传感器数据到控制指令的直接映射，有效避免了传统模块化架构中的误差传播问题，显著提升了系统决策效率和场景适应性。当前主流方法基于显式策略直接监督框架，直接从海量驾驶数据中学习环境观察与车辆动作之间的映射关系。然而，它们面临两大核心挑战：驾驶行为的多样性[33]导致显式监督策略容易产生次优解，而开放场景的复杂性导致在面对数据分布偏移时泛化能力急剧下降。

驾驶的多模态特性导致存在多种合理的决策，但传统的监督学习往往将它们平均化，从而产生次优或危险的行为[12]。泛化也是一个挑战，因为端到端模型可能在未见过、复杂的场景中失效。这些问题共同加剧了安全风险，限制了基于回归的策略在真实自动驾驶中的可靠性。近期的研究[6, 32, 30, 40]通过离散轨迹集处理多模态问题。然而，这种硬编码方法破坏了决策的连续性，限制了适应性，降低了泛化能力，并将连续策略降级为固定模式选择。

扩散模型在建模复杂多模态分布和生成高质量输出方面展现出强大能力，使其在计算机视觉领域日益突出。基于渐进式去噪的生成范式为解决端到端自动驾驶中的多模态建模和泛化问题提供了新方案。扩散模型在机器人运动规划中的成功应用已证明其在多模态动作序列生成和长期序列预测方面的优势[7, 56, 23]。

然而，将扩散模型应用于自动驾驶系统面临独特挑战：自动驾驶需在开放道路环境中同时满足多重严格要求，处理高度动态交通参与者的不确定性，同时确保实时响应；生成符合道路拓扑且保证交通效率的可行轨迹。

近期研究探索了扩散模型在自动驾驶规划[60]和端到端控制[33, 53]中的应用，采用(Denoising Diffusion Implicit Model)DDIM[43]、DPM-Solver[35]和Rectified Flow[34]进行轨迹生成，揭示了生成式方法的巨大潜力。然而，大多数研究仅在规划解码器之后集成扩散模型，将其用于替代显式策略头（见图1(b)）。这种设置可能导致关键感知特征的丢失，并因预处理后的解码器输出而限制生成能力。虽然部分方法[33]使用轨迹 Anchor 点来提升实时性能，但基于 Anchor 点的设计可能限制轨迹多样性。需要一种更有效的架构来充分发挥扩散模型的生成能力。

为应对这些挑战，作者提出了DiffE2E，一个创新的端到端自动驾驶框架，如图2所示。它首先通过分层双向交叉注意力机制对齐激光雷达和图像特征，以实现精确的多尺度感知。在此基础上，作者引入了一种基于Transformer架构的混合扩散监督解码器，并采用协同训练机制，无缝集成扩散策略和监督策略的优势。通过结合扩散模型与显式策略监督，潜在空间被结构化划分：一方面，利用扩散模型对齐未来轨迹的分布，有效捕捉其多样性和高阶不确定性；另一方面，采用显式监督学习策略对速度等关键控制变量以及周围车辆运动信息进行细粒度建模。交叉注意力机制使集成特征与混合潜在变量之间能够交互，支持扩散与显式策略之间的协同优化和结构化输出。在CARLA中的闭环测试和NAVSIM中的评估表明，DiffE2E实现了最先进的性能，确保了在复杂场景下的安全性、交通效率和强大的泛化能力。

总之，作者的贡献如下：

作者提出了DiffE2E，这是首个使用扩散模型直接生成轨迹并在CARLA模拟器中进行闭环测试验证的端到端自动驾驶框架。
作者提出了一种基于Transformer架构的混合扩散-监督解码器，并采用协同训练机制，无缝整合了扩散策略和监督策略的优势。
作者进行了双平台基准测试，在CARLA模拟器中的多个基准测试中取得了最先进的性能，并在非反应性模拟器NAVsIM中达到了92.7的PDMS，同时与其他方法相比保持了更高的实时性能。

2 预备知识

问题定义：本研究聚焦于基于扩散模型的端到端自动驾驶闭环控制策略。该系统直接将多模态原始感知数据作为输入，包括前视摄像头RGB图像、激光雷达点云以及车辆状态信息。该系统输出本车未来轨迹，其完整的采样分布表示为：

在扩散模型中，表示扩散过程在步骤时的中间变量，最终预测的轨迹为，其中每个路径点表示预测轨迹中的位置信息。条件信息通过跨模态特征融合模块从多模态传感器数据中编码。与传统的开环控制不同，在闭环控制中，当前时刻的轨迹决策直接影响下一时刻的感知输入，形成动态反馈回路。这种耦合关系要求模型具有强时序一致性和鲁棒性。

扩散模型：去噪扩散概率模型（DDPM）[17] 是一种强大的生成模型，通过两阶段过程捕捉复杂的多模态分布：正向扩散逐渐添加噪声，而逆向过程通过迭代去噪重建数据。该框架自然地模拟了驾驶行为的多模态性。正向过程遵循马尔可夫链，在步中将数据转换为噪声：

其中控制噪声水平。通过重参化，作者可以直接采样：

其中。虽然DDPM能够生成高质量的样本，但其顺序过程计算成本高昂。DDIM [43] 通过非马尔可夫过程解决这个问题，在保持质量的同时加速生成过程，使扩散模型更适合实时自动驾驶应用。

3 方法论

概述：DiffE2E是一个端到端的自动驾驶框架，如图2所示。在感知阶段，该框架引入了多模态时空融合模块，通过分层双向交叉注意力机制对激光雷达和相机特征进行对齐，以构建结构化的场景表示。在解码阶段，采用基于Transformer的混合扩散监督解码器，并结合扩散和监督策略的协同训练策略。全局条件集成模块融合场景特征与目标相关的全局上下文，交叉注意力机制使融合特征与混合潜在变量之间实现有效交互，从而协调生成扩散轨迹和显式输出。

3.1 多模态融合感知模块

感知模块旨在融合多模态传感器数据以构建结构化的环境表示。本文采用Transfuser架构作为基础感知 Backbone 网络[22]，其输入包括广角前视RGB图像以及由原始激光雷达点云构建的鸟瞰图表示。在从两个分支中提取初始特征后，它们进入由多个Transformer层组成的多尺度交叉融合模块，通过跨模态注意力机制实现激光雷达与图像特征的深度对齐和信息交互。最终，该模块输出高维融合特征、全局语义表示和图像特征网格，以支持下游决策模块的细粒度建模需求。

3.2 混合扩散与监督模块

多模态融合感知模块完成不同传感器数据的集成后，所提出的DiffE2E框架采用了一种创新架构。通过引入基于Transformer的混合扩散监督解码器并采用协同训练机制，它无缝地集成了扩散策略和监督策略的优势，如图2所示。本节将从全局条件集成、混合扩散和监督解码以及解码器输出模块等不同方面进行详细解释。

全局条件整合：为了增强目标点在轨迹生成中的影响，它们被用作全局条件[22]。首先，目标点通过线性层投影到一个共享的高维空间，形成表示。同时，扩散步长被编码为时间嵌入，以帮助模型在去噪阶段适应。最后，条件特征、目标特征和时间步长嵌入被融合，并与可学习的位置编码结合，形成用于轨迹解码的上下文表示：

该全局条件整合机制将目标点信息和时间步长嵌入整合到感知特征中，增强了模型对导航目标的感知能力，并在去噪过程中动态调整特征表示，以实现更精确的轨迹生成。

混合扩散与监督解码：如果轨迹长度为，本研究初始化来表示自车未来的轨迹。使用表示嵌入层的特征维度，表示监督任务的特征长度，本研究设计的混合解码器首先通过线性投影层将噪声轨迹映射到高维特征表示，同时连接用于监督任务的初始化 Query 向量，并添加可学习的位置编码，以获得初始化输入向量：

在整个扩散过程的每个时间步，输入首先通过一个多头自注意力层来处理的内部特征关系。

然后，通过交叉注意力机制，与条件特征相互作用，产生最终输出：

其中表示解码器输出后的特征向量，是当前的扩散时间步，是与目标点集结合的条件特征，是由多模态感知模块获取的特征长度，是目标点特征长度，是扩散时间步特征长度。类似地，在输出特征中，前个位置对应于生成扩散轨迹的潜在特征，而后个位置则是用于监督任务的潜在特征。

解码器输出模块：解码器输出模块对混合特征进行精细处理，实现扩散生成与监督学习的混合解码。该模块采用特征分离和任务特定解码策略，在语义空间中对输出特征进行结构化分解：

其中编码了扩散轨迹的高维潜在表示，而包含了用于监督任务的结构化特征信息。

3.3 扩散与监督协同训练策略

基于上述混合扩散与监督解码器结构，本研究提出了一种基于扩散生成与监督学习的协同训练策略。该策略的核心在于结合扩散模型的生成能力与显式监督的精确性，形成互补优势。

扩散损失函数：DiffE2E采用基于轨迹重建的损失函数进行扩散生成，该损失函数直接优化模型从含噪输入中恢复原始轨迹的能力。使用表示整个模型，损失函数的公式表述如下：

监督学习损失函数：监督学习损失采用多任务组合优化策略，通过任务特定的权重系数实现精细的梯度流控制和优先级分配：，其中表示监督任务集合，是任务权重，表示任务的特定损失函数，和分别是真实标签和预测值，表示网络参数。

例如，在监督学习的速度预测任务中，本研究构建了一个基于语义分层的多分类模型，包括四个具有明确物理意义的速度状态：制动、步行速度、慢速和快速。通过加权交叉熵损失函数优化分类预测精度：

其中是批次大小，表示第个样本在第个速度类别中的真实标签（独热编码），表示预测的归一化类别概率，$w _ { i }

0是类别i$ 的平衡权重，用于缓解数据不平衡，eps 是一个数值稳定性常数。其他监督损失函数在附录A中详细说明。

4 实验

实验设置：本研究主要使用CARLA模拟器闭环基准测试[14]和NAVSIM非反应性模拟基准测试[12]进行评估。CARLA提供多样化的城市场景和传感器模拟，其闭环机制提供实时反馈，用于评估长期范围内的决策质量。NAVSIM基于OpenScene[11]（nuPlan[1]数据集的精简版本）构建，通过8个摄像头和5个LiDAR提供360°覆盖，并提供地图和物体边界框的2Hz标注。更多细节请参见附录B。

4.1 CARLA实验

实现细节：本研究采用RegnetY-3.2GF [38] 作为图像和激光雷达输入的编码器。为优化计算和训练效率，采用两阶段策略：第一阶段使用多任务损失训练感知模块；第二阶段在冻结的感知输出条件下训练扩散解码器。作者采用CARLA Longest6、CARLA Town05 Long 和 CARLA Town05 Short 作为评估基准 [9, 37]，使用官方驾驶得分（DS）、路线完成度（RC）和违规得分（IS）作为指标。详细的实现细节和 Baseline 描述在附录B.1中提供。

主要结果：如表1所示，作者的基于扩散策略的DiffE2E在CARLA Longest6基准测试中表现出色。在三个关键评价指标中，DiffE2E均位居前列：DS达到83（比TF++WP高13.7%），IS为0.86（比DriveAdapter+TCP高2.3%），RC为96，接近最优值。与TF++WP（96 vs. 97）相比，DiffE2E的RC略低，这反映了作者在高风险场景中对安全性的侧重。进一步分析表明，传统的显式策略方法（如LAV、Transfuser）在复杂场景中表现不佳，而DiffE2E中的扩散策略能更好地捕捉多模态驾驶行为。与使用相同编码器（RegNetY-3.2GF）和输入设置（C&L）的TF++相比，DiffE2E的DS和IS分别提升了20.3%和19.4%，RC相当（96 vs. 94）。总体而言，DiffE2E展现出稳健、高效的端到端驾驶性能。

可视化：图3展示了典型右转场景下的对比。初始阶段，TF+和DiffE2E通过首先合并向右行驶规划相似路径。当车辆出现时，TF+坚持其预设路径并发生碰撞，而DiffE2E通过暂时向前行驶，然后在车辆通过后安全合并，展现了其优越的多模态生成能力和动态交通中的实时适应性，有效避免了碰撞。

4.2 NAVSIM实验

实现细节：本研究基于NAVSim的navtrain数据集构建了一个模型训练框架。与CARLA设置不同，作者在NAVSim中采用VovNetV2-99[29]作为特征提取 Backbone 网络。预测驾驶员模型评分（PDMS）被用作综合指标，通过加权集成结合关键驾驶维度：无责任碰撞（NC）、可行驶区域合规性（DAC）、碰撞时间（TTC）、舒适度（C）和ego进度（EP）。详细的实现细节和 Baseline 描述可以在附录B.2中找到。

主要结果：如表2所示，DiffE2E在NAVSIM基准测试中取得了优异的整体性能，其PDMS得分为92.7，优于Hydra- (91.0)和GoalFlow (90.3)。

以及DiffusionDrive（88.1）。这突显了作者的基于扩散的端到端方法在多维度驾驶评估中的优势。在安全和合规性方面，DiffE2E表现优异：它实现了无责任碰撞率为99.9（对比Hydra- 的98.6和GoalFlow的98.4），并与Hydra- 共享98.6的最高可驾驶区域合规性得分。在碰撞时间方面，DiffE2E以99.3的成绩显著领先，比Hydra- 高出4.2分。在效率和舒适性方面，DiffE2E在ego进度（仅次于Hydra- 的85.7）中得分为85.3，并在驾驶舒适性方面实现了99.9的高分——接近表现最佳的方法，表明其轨迹平滑且类似人类驾驶。

此外，DiffE2E采用完整的扩散解码器范式，而非DiffusionDrive和GoalFlow使用的在Transfuser规划解码器之后的扩散重规划方法，这表明adas-DiffE2E_2505在建模策略空间方面具有更强的表达能力。此外，DiffE2E在所有关键的NAV-SIM指标上均取得了领先或接近最优的结果，展示了其鲁棒性、安全性及实用性，并为端到端的自动驾驶提供了一种新的范式。

可视化：为了验证DiffE2E的泛化能力和优越性，作者选择了两个具有代表性的复杂驾驶场景进行对比分析（图4）。绿色轨迹表示人类参考轨迹，红色轨迹表示规划的轨迹。在右转交叉路口， Baseline 方法常常偏离或跨越边界，而DiffE2E能够准确跟随车道边缘，实现平滑的转弯。在小型交叉路口左转时，DiffusionDrive误解导航意图并规划直行轨迹，Transfuser错误地选择了右车道，而只有DiffE2E能够准确执行左转指令，其轨迹几乎完全匹配参考轨迹。这展示了DiffE2E在轨迹规划中的准确性和安全性。更多可视化结果可参见附录C。

4.3 消融实验

为评估DiffE2E框架中每个组件的贡献，作者进行了一系列消融实验（表3）。尽管NAVSIM测试速度更快，但考虑到其更可靠的闭环评估，作者选择了CARLA环境。对于模型输入，作者分别消融了自身状态和导航指令。在两种情况下，驾驶评分均下降，证实了自身状态对于精确规划的重要性，以及导航输入对于意图理解的重要性。在架构方面，移除GRU模块导致评分显著下降，显示了其在复杂场景中提升预测性能的作用。在训练方面，作者比较了混合扩散、全扩散和显式策略范式，以及单阶段与双阶段策略。全扩散和显式策略训练均降低了性能，验证了混合方法的有效性。单阶段训练的驾驶评分为低于双阶段训练，导致车道保持性能差。这表明感知和规划的联合训练存在挑战，而双阶段训练能够有效优化每个模块。关于输出类型的进一步讨论见附录D.1。

此外，作者对扩散模型中降噪步骤的数量进行了消融研究（图5）。由于CARLA的随机性和降噪步骤的微小影响，作者使用了更稳定的NAVsIM Navtest基准。为了清晰起见，作者将92.705设置为零 Baseline ，并应用了1e4的缩放因子。结果表明PDMS在1步时最低（未完成降噪），在2步时达到峰值，然后逐渐下降，表明在该点已完成降噪。因此，使用2次降噪步骤。

DiffE2E通过平衡性能和实时效率，这对于自动驾驶至关重要。

实时性能的讨论见附录D.2。

5 相关工作

端到端自动驾驶在多模态感知融合与决策方面取得了显著进展。UniAD[20]构建了一个全栈Transformer来协调感知-预测-规划任务，VAD[26]设计了矢量化的场景表示以提高规划效率，VADv2[6]通过轨迹词汇库对动作空间分布进行建模，SparseDrive[46]提出了Sparse轨迹表示以实现无BEV的高效驾驶，Hydra-MDP系列[32, 30]设计了一个多导师蒸馏框架以将基于规则的系统与人类驾驶知识相结合。Transfuser[9]通过Transformer融合相机和LiDAR特征进行交叉口决策；TCP[52]联合训练轨迹和控制预测；InterFuser[41]引入了安全思维图进行多视角多模态融合，而增强了解码器并提出了解耦速度预测。然而，这些显式监督方法通常将多模态驾驶行为简化为单一确定性输出，导致在多选择场景中产生平均化和次优决策。尽管在特定情况下有效，但它们在训练数据之外的复杂条件下泛化能力差，限制了它们处理开放世界多样性的能力。

扩散模型在交通与自动驾驶中的应用：扩散模型凭借其卓越的多模态生成能力，正深刻地改变着交通与自动驾驶领域。在交通领域，Diffusion-ES[54]创新性地结合了进化策略与扩散模型，实现了复杂驾驶行为的生成，且无需可微分的 Reward 函数，其在nuPlan基准测试中的零样本性能显著超越了传统方法。VBD[21]运用博弈论指导对抗性场景生成，提升了模拟的真实性。MotionDiffuser[27]引入了置换不变的架构，用于约束多Agent轨迹采样，确保交互一致性。Diffusion Planner[60]利用DPM-Solver[35]和分类器引导，在闭环规划中快速生成安全、个性化的轨迹。

然而，这些方法大多基于完美的感知假设，忽略了实际应用中感知不确定性导致的估计误差影响。在端到端自动驾驶领域，尽管扩散模型的应用已取得初步成果，但仍面临诸多挑战。DiffusionDrive[33]首次引入了 Anchor 定策略的扩散模型用于端到端驾驶。HE-Drive[49]采用条件DDPM[17]和视觉语言模型进行评分，以高昂的计算成本生成类似人类的时空一致轨迹。GoalFlow[53]通过目标驱动流匹配和高效的单步生成解决轨迹发散问题。这些工作展示了扩散模型在端到端自动驾驶领域的巨大潜力。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述