Self-driving cars increasingly rely on deep neural networks to achieve human-like driving. The opacity of such black-box planners makes it challenging to accurately anticipate when they will fail, with potentially catastrophic consequences. While research into interpreting these systems has surged, most of it is confined to simulations or toy setups due to the difficulty of real-world deployment, leaving the practical utility of such techniques unknown. Here, we introduce the Concept-Wrapper Network (CW-Net), a method for faithfully explaining the behavior of machine-learning-based planners that causally grounds their reasoning in human-interpretable concepts without sacrificing performance. We deploy CW-Net on a real self-driving car and show that the resulting explanations improve the human driver's mental model of the vehicle, allowing them to better predict its behavior, particularly in surprising situations. This demonstrates that explainable deep learning integrated into self-driving cars can be both understandable and useful in a realistic deployment setting. We anticipate our method could be applied to other safety-critical systems, such as autonomous drones and robotic surgeons, as well as to other architectures, such as end-to-end learning systems and vision-language-action models. Overall, our study establishes a deployment-validated pathway to interpretability for autonomous agents, which could help make them more transparent and safe.


翻译:自动驾驶汽车日益依赖深度神经网络来实现类人驾驶。这类黑箱规划器的不可解释性使得人们难以准确预测其何时会失效,从而可能造成灾难性后果。尽管针对这些系统的解释性研究蓬勃发展,但由于现实部署的困难,大部分研究仍局限于仿真或简化场景,导致此类技术的实际效用尚不明确。本文提出概念封装网络(CW-Net),这是一种能够忠实解释基于机器学习规划器行为的方法,在不牺牲性能的前提下,将其推理过程因果性地锚定在人类可理解的概念上。我们在真实自动驾驶汽车上部署了CW-Net,并证明由此产生的解释能改善人类驾驶员对车辆的心理模型,使其能更准确地预测车辆行为,尤其在意外场景中表现显著。这表明,集成在自动驾驶汽车中的可解释深度学习在现实部署场景中既可理解又具实用性。我们预计,该方法可推广至其他安全关键系统(如自主无人机和机器人手术系统),以及不同架构(如端到端学习系统和视觉-语言-动作模型)。总体而言,本研究为自主智能体的可解释性建立了一条经过部署验证的路径,有助于提升其透明性与安全性。

0
下载
关闭预览

相关内容

【博士论文】通过利用内在方法解释深度神经网络
专知会员服务
25+阅读 · 2024年7月20日
针对自动驾驶智能模型的攻击与防御
专知会员服务
19+阅读 · 2024年6月25日
自动驾驶中可解释AI的综述和未来研究方向
专知会员服务
69+阅读 · 2022年1月10日
机器学习的可解释性
专知会员服务
69+阅读 · 2020年12月18日
专知会员服务
223+阅读 · 2020年8月1日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
深度学习可解释性研究进展
专知
19+阅读 · 2020年6月26日
深度学习技术在自动驾驶中的应用
智能交通技术
26+阅读 · 2019年10月27日
深度学习在自动驾驶感知领域的应用
AI100
11+阅读 · 2019年3月6日
理解人类推理的深度学习
论智
19+阅读 · 2018年11月7日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 今天15:00
21世纪的无人机战争
专知会员服务
2+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
2+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关资讯
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
深度学习可解释性研究进展
专知
19+阅读 · 2020年6月26日
深度学习技术在自动驾驶中的应用
智能交通技术
26+阅读 · 2019年10月27日
深度学习在自动驾驶感知领域的应用
AI100
11+阅读 · 2019年3月6日
理解人类推理的深度学习
论智
19+阅读 · 2018年11月7日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员