重磅巨作！深挖端到端！百度CTO王海峰开源CARLA：彻底将深度学习变为白盒子！

点击下方卡片，关注「3DCV」公众号
选择星标，干货第一时间送达

编辑：3DCV

添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附行业细分群

扫描下方二维码，加入3D视觉知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门视频课程(星球成员免费学习)、最新顶会论文、3D视觉最新模组、3DGS系列(视频+文档)、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 这篇文章干了啥？

过去十年间，基于深度神经网络的自动驾驶领域取得了显著进展，涵盖了学术界和工业界的诸多进步。尽管深度学习具有强大的表征能力，但其缺乏透明度，使得问题识别变得困难。对于自动驾驶这一对安全性要求极高的任务而言，系统的黑盒行为极大地削弱了信任度，从而限制了其实际应用。因此，阐明并解决此类系统中的因果关系需求迫切，且仍是一个未解决的挑战。

近年来，可解释性方法的发展为理解这一复杂系统的复杂性提供了有前景的手段，并引起了越来越多的关注。这些方法通过将自然语言描述符融入自动驾驶控制模块中的整个决策和行动过程，使得网络的预测结果更加直观和易于理解。然而，自动驾驶的端到端架构包含多个模块，每个模块对最终决策输出的具体影响尚不清楚。这种不清晰性凸显了需要一种系统的分析框架来帮助研究人员进行调试，从而阻碍了该领域的进步。

在本文中，我们提出了一种全面的方法来调试和分析端到端自动驾驶中的因果关系。核心思想是评估每个因素的单独贡献，并找到关于决定最终预测动作的最具影响力特征的解释。类似于人类驾驶的决策过程，端到端自动驾驶模型对动作/控制的最终预测往往受多个因素影响。例如，在进行无保护左转时，智能体需要同时考虑交通信号灯、迎面驶来的直行车辆、过马路的行人以及静态车道线等多种因素。在现实世界中的模仿学习环境中，归因错误是常见现象。因此，我们针对关键组件的角色进行了定量消融实验分析，并提出了两种形式的定性分析方法：反事实干预和响应可视化。最后，基于对多因素端到端自动驾驶系统的综合研究，我们为在闭环模拟器CARLA中调试因果关系提供了一个强大的基准和工具。它利用关键的输入源来获得一个鲁棒且设计精良的模型，该模型不仅取得了具有竞争力的结果，还提供了预测的可解释性。

据我们所知，我们的工作是首次揭开端到端自动驾驶的黑箱之谜，将其转变为白箱。我们对驾驶场景进行了全面实验，并表明我们的方法可应用于端到端自动驾驶解决方案，以有效诊断因果关系问题。

下面一起来阅读一下这项工作~

1. 论文信息

标题：Exploring the Causality of End-to-End Autonomous Driving

作者：Jiankun Li, Hao Li, Jiangjiang Liu, Zhikang Zou, Xiaoqing Ye, Fan Wang, Jizhou Huang, Hua Wu, Haifeng Wang

机构：百度

原文链接：https://arxiv.org/abs/2407.06546

代码链接：https://github.com/bdvisl/DriveInsight

2. 摘要

基于深度学习的模型已广泛应用于自动驾驶领域，尤其是日益受到关注的端到端解决方案。然而，这些模型的“黑箱”特性引发了人们对自动驾驶可靠性和安全性的担忧，如何调试其因果关系已成为亟待解决的问题。尽管目前已有一些关于自动驾驶可解释性的研究，但尚未有系统性的解决方案来帮助研究人员调试和识别导致端到端自动驾驶最终预测动作的关键因素。在本文中，我们提出了一种综合方法来探索和分析端到端自动驾驶的因果关系。首先，我们使用控制变量和反事实干预进行定性分析，以验证最终规划所依赖的关键信息。然后，通过可视化和统计分析关键模型输入的响应，我们定量评估了影响模型决策的因素。最后，基于多因素端到端自动驾驶系统的综合研究，我们开发了一个强大的基线和一个在闭环模拟器CARLA中探索因果关系的工具。该工具利用关键的输入源来获得设计精良的模型，从而实现了高度竞争力的能力。据我们所知，我们的工作是首次揭示端到端自动驾驶的奥秘，并将“黑箱”变为“白箱”。全面的闭环实验表明，我们的方法可应用于端到端自动驾驶解决方案的因果调试。代码将发布在https://github.com/bdvisl/DriveInsight。

3. 主要贡献

我们的贡献如下：

• 我们提出了首个调试和分析解决方案及基准，通过明确解释多因素决策的因果关系，来揭开端到端自动驾驶黑箱的奥秘。

• 我们进行了详细的定量消融实验和反事实干预实验，并提出了两种响应可视化方法：组件级可视化，从响应的时间一致性和场景相关性角度进行了深入分析；以及激活图可视化，展示了语义特征影响的空间分布。

•通过首先采用反事实推理来定性地找出导致最终预测行为的最有影响力的特征，然后应用基于注意力的策略来定量分析每个因素对调整端到端模型的贡献，我们能够全面了解决策过程。

4. 基本原理是啥？

我们提出了端到端自动驾驶模型框架，名为DriveInsight，其总体架构如图1所示。给定多视图图像和点云输入，我们首先引入特定模态的编码器，分别提取并转换其独特的特征为鸟瞰图（BEV）表示。随后，利用多模态和时间融合模块，我们将这些表示合并以推导出统一的BEV特征。最后，应用规划解码器，根据生成的BEV令牌和其他环境指标预测自车（ego agent）的未来轨迹。

5. 实验结果

我们进行了广泛的实验来展示规划解码器中关键组件的效果。通过系统地单独将每个组件设置为零，我们分析了它们对最终性能的特定贡献。结果如表1所示。从表中可以看出，排除鸟瞰图（BEV）特征会导致性能显著下降。这是因为自动驾驶的一个基本方面是周围环境的场景建模。鸟瞰图技术的主要优势在于其能够提供场景分布的直观表示，从而对最终轨迹规划的准确性和有效性产生最大影响。相比之下，在没有地图、指令、停车标志或障碍物的情况下，最终性能并未发生显著变化，这凸显了这些变量在确定最终规划结果方面的不重要性。

对于与导航相关的组件，包括路线和目标点，它们的缺失会严重降低最终性能，特别是路线完成率。具体来说，驾驶得分出现了显著下降，分别从95.30下降到20.64和32.64。这表明在自动驾驶网络建模中，全局目标导向的指导至关重要。此外，我们还比较了当前速度和历史速度信息对模型性能的影响。我们发现历史速度的贡献相当有限，而当前速度信息对模型的运动规划至关重要。

我们进一步通过计算不同组成部分相对于输出的梯度，并结合特定场景和本车行为，可视化了Transformer层的注意力权重，从而分析了每个输入的作用。

通过分析图2和图3，我们可以得出特定场景中组件级别的相关性结论，这表明模型对固定场景内不同组件变化的敏感性。具体来说，结合环境感知信息，我们可以观察到每个令牌随时间变化的独特模式。例如，当车辆通过交叉路口时，模型对交通信号灯和停车标志更为敏感；当车辆前方出现障碍物时，模型对障碍物信息和路线规划更为敏感；当车辆转弯时，命令、路线和地图的作用更为显著。此外，我们注意到，在转弯和避障等多种场景中，鸟瞰图（BEV）特征均表现出较高的响应值。

从图4中，我们可以观察到Transformer解码器对不同组件的头部级响应。条形图的排列表明，不同的头部可能对应于多个组件，且这些组件的响应偏好具有高度一致性。例如，头部3可能更关注障碍物和鸟瞰图特征，而头部4可能更关注速度。此外，通过比较条形图和曲线图，我们可以看到，尽管少数条形图和曲线图可能无法完全对齐，但头部对组件的响应在观察期内总体上保持了时间一致性。利用这种一致性，我们可以更直观地分析模型的黑盒行为，并为模型的响应提供合理的输入相关解释。

我们在CARLA的Town05 Long和Town05 Short基准测试中进行了闭环评估。如表2所示，与其他最先进的方法相比，我们的模型在获得有竞争力的驾驶分数的同时，也完成了最高比例的路线。请注意，与其他算法相比，这些算法需要在PID（比例-积分-微分）控制器之后手动设计规则来处理控制信号，以避免违规或陷入困境，而我们的端到端方法没有包含任何手动规则；相反，我们的模型生成的路径点直接通过PID控制器转换为控制信号。

6. 总结 & 未来工作

在本文中，我们提出了一种开创性的调试和分析解决方案，旨在通过明确阐明多因素决策的因果关系，来揭开端到端自动驾驶黑箱的神秘面纱。我们的分析系统分为三个步骤：模块删除定量分析、模块编辑案例分析以及梯度响应值可视化。我们使用流行的CARLA进行了大量实验，以验证我们分析系统的可靠性。我们相信，该系统可以作为端到端自动驾驶的基准，从而提高未来设计的可解释性和可靠性。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3DCV技术交流群

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型：NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

除了这些，还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

3D视觉技术星球

3D视觉从入门到精通知识星球、国内成立最早的3D视觉学习交流社区。包括：星球视频课程近20门（价值超6000）、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

3D视觉课程官网：www.3dcver.com

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪，无人机等。

3D视觉相关硬件

图片	说明	名称
	硬件+源码+视频教程	精迅V1(科研级)）单目/双目3D结构光扫描仪
	硬件+源码+视频教程	深迅V13D线结构光三维扫描仪
	硬件+源码+视频教程‍‍	御风250无人机(基于PX4)
	低成本+体积小 +重量轻+抗高反	YA001高精度3D相机
	抗高反+无惧黑色 +半透明	KW-D \| 高精度结构光开源相机
	硬件+源码	ROS-SLAM两轮差速小车NanoBot
	配套标定源码	高精度标定板(玻璃or大理石)
添加微信: cv3d007或者QYong2014 咨询更多