多目标强化学习在高速公路交通中实现卡车高效战术决策 (Multi-Objective Reinforcement Learning for Efficient Tactical Decision Making for Trucks in Highway Traffic) - 专知论文

会员服务 ·

0

多目标 · 战术决策 · 多目标强化学习 · 强化学习 · 运营 ·

Multi-Objective Reinforcement Learning for Efficient Tactical Decision Making for Trucks in Highway Traffic

翻译：多目标强化学习在高速公路交通中实现卡车高效战术决策

Deepthi Pathare,Leo Laine,Morteza Haghir Chehreghani

Balancing safety, efficiency, and operational costs in highway driving poses a challenging decision-making problem for heavy-duty vehicles. A central difficulty is that conventional scalar reward formulations, obtained by aggregating these competing objectives, often obscure the structure of their trade-offs. We present a Proximal Policy Optimization based multi-objective reinforcement learning framework that learns a continuous set of policies explicitly representing these trade-offs and evaluates it on a scalable simulation platform for tactical decision making in trucks. The proposed approach learns a continuous set of Pareto-optimal policies that capture the trade-offs among three conflicting objectives: safety, quantified in terms of collisions and successful completion; energy efficiency and time efficiency, quantified using energy cost and driver cost, respectively. The resulting Pareto frontier is smooth and interpretable, enabling flexibility in choosing driving behavior along different conflicting objectives. This framework allows seamless transitions between different driving policies without retraining, yielding a robust and adaptive decision-making strategy for autonomous trucking applications.

翻译：在高速公路驾驶中平衡安全性、效率与运营成本，对重型车辆构成了一项具有挑战性的决策问题。一个核心难点在于，通过聚合这些相互冲突的目标所得到的传统标量奖励函数，往往会模糊其权衡关系的结构。我们提出了一种基于近端策略优化的多目标强化学习框架，该框架学习一个明确表示这些权衡关系的连续策略集，并在一个可扩展的卡车战术决策仿真平台上对其进行了评估。所提出的方法学习到一个连续的帕累托最优策略集，该策略集捕捉了三个相互冲突目标之间的权衡：安全性（以碰撞次数和任务成功完成度量化）、能源效率以及时间效率（分别使用能源成本和驾驶员成本量化）。所得的帕累托前沿是平滑且可解释的，使得能够灵活地沿不同冲突目标选择驾驶行为。该框架允许在不同驾驶策略之间无缝切换而无需重新训练，从而为自动驾驶卡车应用提供了一种鲁棒且自适应的决策策略。

0

相关内容

多目标

《基于分层多智能体强化学习的逼真空战协同策略》

《基于分层多智能体强化学习的逼真空战协同策略》

专知会员服务

39+阅读 · 2025年10月30日

多智能体强化学习控制与决策研究综述

多智能体强化学习控制与决策研究综述

专知会员服务

46+阅读 · 2024年11月23日

自动驾驶中的多智能体强化学习综述

自动驾驶中的多智能体强化学习综述

专知会员服务

47+阅读 · 2024年8月20日

【ICML2024】多目标强化学习的最大-最小公式：从理论到无模型算法

【ICML2024】多目标强化学习的最大-最小公式：从理论到无模型算法

专知会员服务

43+阅读 · 2024年6月16日

《高超音速攻击中武器与目标分配的深度强化学习》

《高超音速攻击中武器与目标分配的深度强化学习》

专知会员服务

57+阅读 · 2024年1月16日

基于多智能体强化学习的协同目标分配

基于多智能体强化学习的协同目标分配

专知会员服务

136+阅读 · 2023年9月5日

【CTH博士论文】基于强化学习的自动驾驶决策，149页pdf

【CTH博士论文】基于强化学习的自动驾驶决策，149页pdf

专知会员服务

59+阅读 · 2023年2月18日

《多目标强化学习和规划的实用指南》59页最新论文

《多目标强化学习和规划的实用指南》59页最新论文

专知会员服务

55+阅读 · 2022年8月10日

【KDD2019|讲座推荐】深强化学习及其在交通运输中的应用：Deep Reinforcement Learning with Applications in Transportation

【KDD2019|讲座推荐】深强化学习及其在交通运输中的应用：Deep Reinforcement Learning with Applications in Transportation

专知会员服务

57+阅读 · 2019年12月4日

【KDD 2019|Tutorial】应用在交通中的强化学习 Deep Reinforcement Learning with Applications in Transportation，滴滴 AI Labs

【KDD 2019|Tutorial】应用在交通中的强化学习 Deep Reinforcement Learning with Applications in Transportation，滴滴 AI Labs

专知会员服务

65+阅读 · 2019年8月8日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

32+阅读 · 2022年11月12日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

32+阅读 · 2022年10月17日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

【综述】深度学习在视频多目标跟踪上的应用

【综述】深度学习在视频多目标跟踪上的应用

专知

14+阅读 · 2019年8月8日

视频中的多目标跟踪【附PPT与视频资料】

视频中的多目标跟踪【附PPT与视频资料】

人工智能前沿讲习班

30+阅读 · 2018年11月29日

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

专知

25+阅读 · 2018年4月29日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

42+阅读 · 2015年12月31日

改进智能优化策略多机动目标跟踪方法研究

国家自然科学基金

17+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

23+阅读 · 2015年12月31日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

14+阅读 · 2015年12月31日

基于秩一张量近似的多目标跟踪

国家自然科学基金

0+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于神经网络和强化学习的车辆装配系统中的多载量小车实时调度方法

国家自然科学基金

4+阅读 · 2014年12月31日

基于向量式有限元的大跨高速铁路桥梁风-车-轨-桥互制机理与失效全过程研究

国家自然科学基金

0+阅读 · 2014年12月31日

混入自动驾驶汽车的高速公路交通流微观建模与仿真方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

Delay-Aware Reinforcement Learning for Highway On-Ramp Merging under Stochastic Communication Latency

Arxiv

0+阅读 · 2月9日

Preference Conditioned Multi-Objective Reinforcement Learning: Decomposed, Diversity-Driven Policy Optimization

Arxiv

0+阅读 · 2月8日

Reinforcement Learning Enhancement Using Vector Semantic Representation and Symbolic Reasoning for Human-Centered Autonomous Emergency Braking

Arxiv

0+阅读 · 2月4日

Flexible Multitask Learning with Factorized Diffusion Policy

Arxiv

0+阅读 · 2月1日

PlatoLTL: Learning to Generalize Across Symbols in LTL Instructions for Multi-Task RL

Arxiv

0+阅读 · 1月30日

DecompGAIL: Learning Realistic Traffic Behaviors with Decomposed Multi-Agent Generative Adversarial Imitation Learning

Arxiv

0+阅读 · 1月26日

VissimRL: A Multi-Agent Reinforcement Learning Framework for Traffic Signal Control Based on Vissim

Arxiv

0+阅读 · 1月26日

Multi-Objective Hierarchical Optimization with Large Language Models

Arxiv

0+阅读 · 1月20日

Multi-Scenario Highway Lane-Change Intention Prediction: A Temporal Physics-Informed Multi-Modal Framework

Arxiv

0+阅读 · 1月20日

Safe Heterogeneous Multi-Agent RL with Communication Regularization for Coordinated Target Acquisition

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

多目标强化学习

相关VIP内容

《基于分层多智能体强化学习的逼真空战协同策略》

《基于分层多智能体强化学习的逼真空战协同策略》

专知会员服务

39+阅读 · 2025年10月30日

多智能体强化学习控制与决策研究综述

多智能体强化学习控制与决策研究综述

专知会员服务

46+阅读 · 2024年11月23日

自动驾驶中的多智能体强化学习综述

自动驾驶中的多智能体强化学习综述

专知会员服务

47+阅读 · 2024年8月20日

【ICML2024】多目标强化学习的最大-最小公式：从理论到无模型算法

【ICML2024】多目标强化学习的最大-最小公式：从理论到无模型算法

专知会员服务

43+阅读 · 2024年6月16日

《高超音速攻击中武器与目标分配的深度强化学习》

《高超音速攻击中武器与目标分配的深度强化学习》

专知会员服务

57+阅读 · 2024年1月16日

基于多智能体强化学习的协同目标分配

基于多智能体强化学习的协同目标分配

专知会员服务

136+阅读 · 2023年9月5日

【CTH博士论文】基于强化学习的自动驾驶决策，149页pdf

【CTH博士论文】基于强化学习的自动驾驶决策，149页pdf

专知会员服务

59+阅读 · 2023年2月18日

《多目标强化学习和规划的实用指南》59页最新论文

《多目标强化学习和规划的实用指南》59页最新论文

专知会员服务

55+阅读 · 2022年8月10日

【KDD2019|讲座推荐】深强化学习及其在交通运输中的应用：Deep Reinforcement Learning with Applications in Transportation

【KDD2019|讲座推荐】深强化学习及其在交通运输中的应用：Deep Reinforcement Learning with Applications in Transportation

专知会员服务

57+阅读 · 2019年12月4日

【KDD 2019|Tutorial】应用在交通中的强化学习 Deep Reinforcement Learning with Applications in Transportation，滴滴 AI Labs

【KDD 2019|Tutorial】应用在交通中的强化学习 Deep Reinforcement Learning with Applications in Transportation，滴滴 AI Labs

专知会员服务

65+阅读 · 2019年8月8日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

32+阅读 · 2022年11月12日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

32+阅读 · 2022年10月17日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

【综述】深度学习在视频多目标跟踪上的应用

【综述】深度学习在视频多目标跟踪上的应用

专知

14+阅读 · 2019年8月8日

视频中的多目标跟踪【附PPT与视频资料】

视频中的多目标跟踪【附PPT与视频资料】

人工智能前沿讲习班

30+阅读 · 2018年11月29日

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

专知

25+阅读 · 2018年4月29日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

Delay-Aware Reinforcement Learning for Highway On-Ramp Merging under Stochastic Communication Latency

Arxiv

0+阅读 · 2月9日

Preference Conditioned Multi-Objective Reinforcement Learning: Decomposed, Diversity-Driven Policy Optimization

Arxiv

0+阅读 · 2月8日

Reinforcement Learning Enhancement Using Vector Semantic Representation and Symbolic Reasoning for Human-Centered Autonomous Emergency Braking

Arxiv

0+阅读 · 2月4日

Flexible Multitask Learning with Factorized Diffusion Policy

Arxiv

0+阅读 · 2月1日

PlatoLTL: Learning to Generalize Across Symbols in LTL Instructions for Multi-Task RL

Arxiv

0+阅读 · 1月30日

DecompGAIL: Learning Realistic Traffic Behaviors with Decomposed Multi-Agent Generative Adversarial Imitation Learning

Arxiv

0+阅读 · 1月26日

VissimRL: A Multi-Agent Reinforcement Learning Framework for Traffic Signal Control Based on Vissim

Arxiv

0+阅读 · 1月26日

Multi-Objective Hierarchical Optimization with Large Language Models

Arxiv

0+阅读 · 1月20日

Multi-Scenario Highway Lane-Change Intention Prediction: A Temporal Physics-Informed Multi-Modal Framework

Arxiv

0+阅读 · 1月20日

Safe Heterogeneous Multi-Agent RL with Communication Regularization for Coordinated Target Acquisition

Arxiv

0+阅读 · 1月13日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

42+阅读 · 2015年12月31日

改进智能优化策略多机动目标跟踪方法研究

国家自然科学基金

17+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

23+阅读 · 2015年12月31日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

14+阅读 · 2015年12月31日

基于秩一张量近似的多目标跟踪

国家自然科学基金

0+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于神经网络和强化学习的车辆装配系统中的多载量小车实时调度方法

国家自然科学基金

4+阅读 · 2014年12月31日

基于向量式有限元的大跨高速铁路桥梁风-车-轨-桥互制机理与失效全过程研究

国家自然科学基金

0+阅读 · 2014年12月31日

混入自动驾驶汽车的高速公路交通流微观建模与仿真方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员