Existing traffic simulation frameworks for autonomous vehicles typically rely on imitation learning or game-theoretic approaches that solve for Nash or coarse correlated equilibria, implicitly assuming perfectly rational agents. However, human drivers exhibit bounded rationality, making approximately optimal decisions under cognitive and perceptual constraints. We propose EvoQRE, a principled framework for modeling safety-critical traffic interactions as general-sum Markov games solved via Quantal Response Equilibrium (QRE) and evolutionary game dynamics. EvoQRE integrates a pre-trained generative world model with entropy-regularized replicator dynamics, capturing stochastic human behavior while maintaining equilibrium structure. We provide rigorous theoretical results, proving that the proposed dynamics converge to Logit-QRE under a two-timescale stochastic approximation with an explicit convergence rate of O(log k / k^{1/3}) under weak monotonicity assumptions. We further extend QRE to continuous action spaces using mixture-based and energy-based policy representations. Experiments on the Waymo Open Motion Dataset and nuPlan benchmark demonstrate that EvoQRE achieves state-of-the-art realism, improved safety metrics, and controllable generation of diverse safety-critical scenarios through interpretable rationality parameters.


翻译:现有的自动驾驶交通仿真框架通常依赖于模仿学习或博弈论方法,这些方法求解纳什均衡或粗相关均衡,隐含地假设了完全理性的智能体。然而,人类驾驶员表现出有限理性,在认知和感知约束下做出近似最优的决策。我们提出了EvoQRE,这是一个原则性框架,用于将安全关键的交通交互建模为一般和马尔可夫博弈,并通过量子响应均衡和演化博弈动力学进行求解。EvoQRE将预训练的生成世界模型与熵正则化的复制器动力学相结合,在保持均衡结构的同时捕捉随机的人类行为。我们提供了严格的理论结果,证明了在所提出的动力学下,在弱单调性假设下,通过具有显式收敛速率 O(log k / k^{1/3}) 的双时间尺度随机逼近,系统收敛于Logit-QRE。我们进一步使用基于混合和基于能量的策略表示,将QRE扩展到连续动作空间。在Waymo开放运动数据集和nuPlan基准测试上的实验表明,EvoQRE通过可解释的理性参数,实现了最先进的真实感、改进的安全指标以及可控的多样化安全关键场景生成。

0
下载
关闭预览

相关内容

【CMU博士论文】分布式强化学习自动驾驶,100页pdf
专知会员服务
37+阅读 · 2023年4月17日
深度学习技术在自动驾驶中的应用
智能交通技术
26+阅读 · 2019年10月27日
概述自动机器学习(AutoML)
人工智能学家
19+阅读 · 2019年8月11日
自动驾驶汽车技术路线简介
智能交通技术
15+阅读 · 2019年4月25日
深度学习在自动驾驶感知领域的应用
AI100
11+阅读 · 2019年3月6日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
最新内容
《系统簇式多域作战规划范畴论框架》
专知会员服务
2+阅读 · 今天14:54
高效视频扩散模型:进展与挑战
专知会员服务
0+阅读 · 今天13:34
乌克兰前线的五项创新
专知会员服务
6+阅读 · 今天6:14
 军事通信系统与设备的技术演进综述
专知会员服务
4+阅读 · 今天5:59
《北约标准:医疗评估手册》174页
专知会员服务
4+阅读 · 今天5:51
《提升生成模型的安全性与保障》博士论文
专知会员服务
4+阅读 · 今天5:47
美国当前高超音速导弹发展概述
专知会员服务
4+阅读 · 4月19日
无人机蜂群建模与仿真方法
专知会员服务
13+阅读 · 4月19日
相关VIP内容
【CMU博士论文】分布式强化学习自动驾驶,100页pdf
专知会员服务
37+阅读 · 2023年4月17日
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员