Existing traffic simulation frameworks for autonomous vehicles typically rely on imitation learning or game-theoretic approaches that solve for Nash or coarse correlated equilibria, implicitly assuming perfectly rational agents. However, human drivers exhibit bounded rationality, making approximately optimal decisions under cognitive and perceptual constraints. We propose EvoQRE, a principled framework for modeling safety-critical traffic interactions as general-sum Markov games solved via Quantal Response Equilibrium (QRE) and evolutionary game dynamics. EvoQRE integrates a pre-trained generative world model with entropy-regularized replicator dynamics, capturing stochastic human behavior while maintaining equilibrium structure. We provide rigorous theoretical results, proving that the proposed dynamics converge to Logit-QRE under a two-timescale stochastic approximation with an explicit convergence rate of O(log k / k^{1/3}) under weak monotonicity assumptions. We further extend QRE to continuous action spaces using mixture-based and energy-based policy representations. Experiments on the Waymo Open Motion Dataset and nuPlan benchmark demonstrate that EvoQRE achieves state-of-the-art realism, improved safety metrics, and controllable generation of diverse safety-critical scenarios through interpretable rationality parameters.


翻译:现有面向自动驾驶车辆的交通仿真框架通常依赖模仿学习或求解纳什均衡与粗相关均衡的博弈论方法,隐含假设智能体具备完全理性。然而人类驾驶员在认知与感知约束下表现出有限理性,仅能做出近似最优决策。我们提出EvoQRE——一种通过量化反应均衡(QRE)与演化博弈动力学建模安全关键交通交互的规范化框架,将交互过程视为一般和马尔可夫博弈。EvoQRE融合了预训练生成世界模型与熵正则化复制子动力学,在保持均衡结构的同时捕获随机人类行为。我们提供了严格的理论结果,证明所提动力学在弱单调性假设下通过双时间尺度随机逼近可收敛至Logit-QRE,且收敛率达O(log k / k^{1/3})。进一步,我们利用混合策略与能量策略表示将QRE扩展至连续动作空间。在Waymo开放运动数据集与nuPlan基准上的实验表明,EvoQRE可实现最先进的仿真真实度、改进的安全性指标,并通过可解释的理性参数可控生成多样化的安全关键场景。

0
下载
关闭预览

相关内容

深度强化学习中的奖励模型:综述
专知会员服务
29+阅读 · 2025年6月20日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
深度学习在自动驾驶感知领域的应用
AI100
11+阅读 · 2019年3月6日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
超全总结:神经网络加速之量化模型 | 附带代码
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
最新内容
定向能反无人机系统最新发展动态
专知会员服务
0+阅读 · 20分钟前
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
0+阅读 · 37分钟前
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
相关VIP内容
深度强化学习中的奖励模型:综述
专知会员服务
29+阅读 · 2025年6月20日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员