RLFTSim: Realistic and Controllable Multi-Agent Traffic Simulation via Reinforcement Learning Fine-Tuning - 专知论文

会员服务 ·

0

控制器 · Learning · MoDELS · 蒸馏 · 设计 ·

RLFTSim: Realistic and Controllable Multi-Agent Traffic Simulation via Reinforcement Learning Fine-Tuning

翻译：RLFTSim：通过强化学习微调实现真实且可控的多智能体交通仿真

Ehsan Ahmadi,Hunter Schofield,Behzad Khamidehi,Fazel Arasteh,Jinjun Shan,Lili Mou,Dongfeng Bai,Kasra Rezaee

from arxiv, CVPR 2026 Highlight; Project page at https://ehsan-ami.github.io/rlftsim

Supervised open-loop training has been widely adopted for training traffic simulation models; however, it fails to capture the inherently dynamic, multi-agent interactions common in complex driving scenarios. We introduce RLFTSim, a reinforcement-learning-based fine-tuning framework that enhances scenario realism by aligning simulator rollouts with real-world data distributions and provides a method for distilling goal-conditioned controllability in scenario generation. We instantiate RLFTSim on top of a pre-trained simulation model, design a reward that balances fidelity and controllability, and perform comprehensive experiments on the Waymo Open Motion Dataset. Our results show improvements in realism, achieving state-of-the-art performance. Compared with other heuristic search-based fine-tuning methods, RLFTSim requires significantly fewer samples due to a proposed low-variance and dense reward signal, and it directly addresses the realism alignment issue by design. We also demonstrate the effectiveness of our approach for distilling traffic simulation controllability through goal conditioning. The project page is available at https://ehsan-ami.github.io/rlftsim.

翻译：监督式开环训练已被广泛用于训练交通仿真模型，但该方法无法捕捉复杂驾驶场景中固有的动态多智能体交互。我们提出RLFTSim——一种基于强化学习的微调框架，通过将仿真器 rollout 与真实数据分布对齐来增强场景真实性，并提供一种在场景生成中蒸馏目标条件可控性的方法。我们在预训练仿真模型上实例化RLFTSim，设计平衡保真度与可控性的奖励函数，并在Waymo开放运动数据集上进行全面实验。结果表明，我们的方法在真实性上有所提升，达到了最先进的性能。与其他基于启发式搜索的微调方法相比，RLFTSim因提出的低方差密集奖励信号而需要显著更少的样本，且其设计直接解决了真实性对齐问题。我们还通过目标条件化证明了该方法在蒸馏交通仿真可控性方面的有效性。项目页面详见https://ehsan-ami.github.io/rlftsim。

0

相关内容

控制器

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

专知会员服务

11+阅读 · 5月5日

【牛津大学博士论文】改进单智能体和多智能体深度强化学习方法

【牛津大学博士论文】改进单智能体和多智能体深度强化学习方法

专知会员服务

48+阅读 · 2024年10月22日

自动驾驶中的多智能体强化学习综述

自动驾驶中的多智能体强化学习综述

专知会员服务

48+阅读 · 2024年8月20日

多智能体深度强化学习研究进展

多智能体深度强化学习研究进展

专知会员服务

76+阅读 · 2024年7月17日

基于通信的多智能体强化学习进展综述

基于通信的多智能体强化学习进展综述

专知会员服务

113+阅读 · 2022年11月12日

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

专知会员服务

119+阅读 · 2022年5月7日

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

专知会员服务

22+阅读 · 2020年4月8日

【综述】自动驾驶领域中的强化学习，附18页论文下载

【综述】自动驾驶领域中的强化学习，附18页论文下载

专知会员服务

177+阅读 · 2020年2月8日

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

专知会员服务

13+阅读 · 2019年11月17日

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

专知会员服务

26+阅读 · 2019年10月3日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

33+阅读 · 2022年11月12日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

66+阅读 · 2022年8月25日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

16+阅读 · 2020年9月9日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

城市轨道交通系统中列车运行调整与驾驶控制一体化模型与算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

Riemann-Hilbert 方法的一致渐近分析及其应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向城市交通通道仿真的交通流建模与组织优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于神经网络和强化学习的车辆装配系统中的多载量小车实时调度方法

国家自然科学基金

4+阅读 · 2014年12月31日

混入自动驾驶汽车的高速公路交通流微观建模与仿真方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

CoIRL-AD: Collaborative-Competitive Imitation-Reinforcement Learning in Latent World Models for Autonomous Driving

Arxiv

0+阅读 · 6月15日

3D-RFT: Reinforcement Fine-Tuning for Video-based 3D Scene Understanding

Arxiv

0+阅读 · 6月12日

KinematicRL: A Sim-to-Real Reinforcement Learning Framework For Social Navigation With Kinodynamic Feasibility

Arxiv

0+阅读 · 6月10日

Merging model-based control with multi-agent reinforcement learning for multi-agent cooperative teaming strategies

Arxiv

1+阅读 · 6月4日

MARFT: Multi-Agent Reinforcement Fine-Tuning

Arxiv

0+阅读 · 5月30日

SWE-MiniSandbox: Container-Free Reinforcement Learning for Building Software Engineering Agents

Arxiv

0+阅读 · 5月30日

LLM-ALSO: LLM-Driven Adaptive Learning-Signal Optimization for Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 5月28日

Convergence of Multiagent Learning Systems for Traffic control

Arxiv

0+阅读 · 5月18日

Adaptive Control in Autonomous Driving via Real-Time Recurrent RL

Arxiv

0+阅读 · 5月16日

LychSim: A Controllable and Interactive Simulation Framework for Vision Research

Arxiv

0+阅读 · 5月12日

VIP会员

文章信息

相关主题

最新内容

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 今天4:35

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

3+阅读 · 今天4:24

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 今天4:18

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 今天4:15

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 今天4:08

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

7+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

“史诗怒火”行动：现代多域作战的重要节点

“史诗怒火”行动：现代多域作战的重要节点

专知会员服务

8+阅读 · 7月30日

《下一代无线网络中的多无人机通信资源管理》

《下一代无线网络中的多无人机通信资源管理》

专知会员服务

8+阅读 · 7月30日

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

专知会员服务

9+阅读 · 7月30日

《人机协同在安全关键型操作决策中的应用》120页

《人机协同在安全关键型操作决策中的应用》120页

专知会员服务

8+阅读 · 7月30日

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

专知会员服务

6+阅读 · 7月30日

相关VIP内容

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

专知会员服务

11+阅读 · 5月5日

【牛津大学博士论文】改进单智能体和多智能体深度强化学习方法

【牛津大学博士论文】改进单智能体和多智能体深度强化学习方法

专知会员服务

48+阅读 · 2024年10月22日

自动驾驶中的多智能体强化学习综述

自动驾驶中的多智能体强化学习综述

专知会员服务

48+阅读 · 2024年8月20日

多智能体深度强化学习研究进展

多智能体深度强化学习研究进展

专知会员服务

76+阅读 · 2024年7月17日

基于通信的多智能体强化学习进展综述

基于通信的多智能体强化学习进展综述

专知会员服务

113+阅读 · 2022年11月12日

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

专知会员服务

119+阅读 · 2022年5月7日

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

专知会员服务

22+阅读 · 2020年4月8日

【综述】自动驾驶领域中的强化学习，附18页论文下载

【综述】自动驾驶领域中的强化学习，附18页论文下载

专知会员服务

177+阅读 · 2020年2月8日

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

专知会员服务

13+阅读 · 2019年11月17日

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

专知会员服务

26+阅读 · 2019年10月3日

热门VIP内容

开通专知VIP会员享更多权益服务

隐身技术前沿综述：物理机理、工程实践与战略展望

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

相关资讯

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

33+阅读 · 2022年11月12日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

66+阅读 · 2022年8月25日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

16+阅读 · 2020年9月9日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

CoIRL-AD: Collaborative-Competitive Imitation-Reinforcement Learning in Latent World Models for Autonomous Driving

Arxiv

0+阅读 · 6月15日

3D-RFT: Reinforcement Fine-Tuning for Video-based 3D Scene Understanding

Arxiv

0+阅读 · 6月12日

KinematicRL: A Sim-to-Real Reinforcement Learning Framework For Social Navigation With Kinodynamic Feasibility

Arxiv

0+阅读 · 6月10日

Merging model-based control with multi-agent reinforcement learning for multi-agent cooperative teaming strategies

Arxiv

1+阅读 · 6月4日

MARFT: Multi-Agent Reinforcement Fine-Tuning

Arxiv

0+阅读 · 5月30日

SWE-MiniSandbox: Container-Free Reinforcement Learning for Building Software Engineering Agents

Arxiv

0+阅读 · 5月30日

LLM-ALSO: LLM-Driven Adaptive Learning-Signal Optimization for Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 5月28日

Convergence of Multiagent Learning Systems for Traffic control

Arxiv

0+阅读 · 5月18日

Adaptive Control in Autonomous Driving via Real-Time Recurrent RL

Arxiv

0+阅读 · 5月16日

LychSim: A Controllable and Interactive Simulation Framework for Vision Research

Arxiv

0+阅读 · 5月12日

相关基金

城市轨道交通系统中列车运行调整与驾驶控制一体化模型与算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

Riemann-Hilbert 方法的一致渐近分析及其应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向城市交通通道仿真的交通流建模与组织优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于神经网络和强化学习的车辆装配系统中的多载量小车实时调度方法

国家自然科学基金

4+阅读 · 2014年12月31日

混入自动驾驶汽车的高速公路交通流微观建模与仿真方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员