随机延迟环境下基于保守智能体的强化学习 (Reinforcement Learning via Conservative Agent for Environments with Random Delays) - 专知论文

会员服务 ·

0

算法 · 智能体 · 强化学习 · 反馈延迟 · 补偿 ·

Reinforcement Learning via Conservative Agent for Environments with Random Delays

翻译：随机延迟环境下基于保守智能体的强化学习

Jongsoo Lee,Jangwon Kim,Jiseok Jeong,Soohee Han

Real-world reinforcement learning applications are often hindered by delayed feedback from environments, which violates the Markov assumption and introduces significant challenges. Although numerous delay-compensating methods have been proposed for environments with constant delays, environments with random delays remain largely unexplored due to their inherent variability and unpredictability. In this study, we propose a simple yet robust agent for decision-making under random delays, termed the conservative agent, which reformulates the random-delay environment into its constant-delay equivalent. This transformation enables any state-of-the-art constant-delay method to be directly extended to the random-delay environments without modifying the algorithmic structure or sacrificing performance. We evaluate the conservative agent-based algorithm on continuous control tasks, and empirical results demonstrate that it significantly outperforms existing baseline algorithms in terms of asymptotic performance and sample efficiency.

翻译：现实世界中的强化学习应用常受环境反馈延迟的阻碍，这种延迟违背了马尔可夫假设并带来显著挑战。尽管针对固定延迟环境已提出多种延迟补偿方法，但由于随机延迟固有的多变性和不可预测性，相关研究仍处于探索不足的状态。本研究提出一种适用于随机延迟决策的简洁而鲁棒的智能体，称为保守智能体，其将随机延迟环境重新表述为等效的固定延迟环境。该转换使得任何先进的固定延迟方法无需修改算法结构或牺牲性能，即可直接扩展至随机延迟环境。我们在连续控制任务上评估了基于保守智能体的算法，实证结果表明其在渐进性能和样本效率方面显著优于现有基线算法。

0

相关内容

在数学和计算机科学之中，算法（Algorithm）为一个计算的具体步骤，常用于计算、数据处理和自动推理。精确而言，算法是一个表示为有限长列表的有效方法。算法应包含清晰定义的指令用于计算函数。来自维基百科：算法

【博士论文】大规模人工智能中的强化学习智能体：高效训练与更严谨分析

【博士论文】大规模人工智能中的强化学习智能体：高效训练与更严谨分析

专知会员服务

16+阅读 · 2025年7月1日

【斯坦福博士论文】非平稳环境中的深度强化学习算法

【斯坦福博士论文】非平稳环境中的深度强化学习算法

专知会员服务

32+阅读 · 2024年12月9日

自动驾驶中的多智能体强化学习综述

自动驾驶中的多智能体强化学习综述

专知会员服务

47+阅读 · 2024年8月20日

基于学习机制的多智能体强化学习综述

基于学习机制的多智能体强化学习综述

专知会员服务

61+阅读 · 2024年4月16日

强化学习如何因果化？看最新《因果强化学习》综述论文，39页pdf

强化学习如何因果化？看最新《因果强化学习》综述论文，39页pdf

专知会员服务

84+阅读 · 2023年2月7日

基于通信的多智能体强化学习进展综述

基于通信的多智能体强化学习进展综述

专知会员服务

112+阅读 · 2022年11月12日

结合进化算法的深度强化学习方法研究综述

结合进化算法的深度强化学习方法研究综述

专知会员服务

81+阅读 · 2022年7月16日

【ICLR2021】一种基于距离度量学习及行为正则化的完全离线的元强化学习方法

专知会员服务

17+阅读 · 2021年2月9日

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

专知会员服务

13+阅读 · 2019年11月17日

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

专知会员服务

26+阅读 · 2019年10月3日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

32+阅读 · 2022年11月12日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

「强化学习可解释性」最新2022综述

「强化学习可解释性」最新2022综述

专知

12+阅读 · 2022年1月16日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

15+阅读 · 2020年9月9日

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

深度强化学习实验室

19+阅读 · 2020年8月11日

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

机器之心

20+阅读 · 2019年5月3日

基于逆强化学习的示教学习方法综述

基于逆强化学习的示教学习方法综述

计算机研究与发展

16+阅读 · 2019年2月25日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

42+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

随机延迟微分方程数值解的延迟依赖稳定性及自适应技术

国家自然科学基金

0+阅读 · 2014年12月31日

随机反应扩散种群模型动力学研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

11+阅读 · 2008年12月31日

Stochastic Decision Horizons for Constrained Reinforcement Learning

Arxiv

0+阅读 · 2月4日

Reinforcement Learning for Control Systems with Time Delays: A Comprehensive Survey

Arxiv

0+阅读 · 1月30日

Adapting the Behavior of Reinforcement Learning Agents to Changing Action Spaces and Reward Functions

Arxiv

0+阅读 · 1月28日

Just-In-Time Reinforcement Learning: Continual Learning in LLM Agents Without Gradient Updates

Arxiv

0+阅读 · 1月26日

Enhancing Agentic RL with Progressive Reward Shaping and Value-based Sampling Policy Optimization

Arxiv

0+阅读 · 1月20日

Continual Knowledge Adaptation for Reinforcement Learning

Arxiv

0+阅读 · 1月20日

Learning Latency-Aware Orchestration for Parallel Multi-Agent Systems

Arxiv

0+阅读 · 1月15日

Provably Safe Reinforcement Learning for Stochastic Reach-Avoid Problems with Entropy Regularization

Arxiv

0+阅读 · 1月15日

Agent-Dice: Disentangling Knowledge Updates via Geometric Consensus for Agent Continual Learning

Arxiv

0+阅读 · 1月8日

Multiagent Reinforcement Learning with Neighbor Action Estimation

Arxiv

0+阅读 · 1月8日

VIP会员

文章信息

相关主题

相关VIP内容

【博士论文】大规模人工智能中的强化学习智能体：高效训练与更严谨分析

【博士论文】大规模人工智能中的强化学习智能体：高效训练与更严谨分析

专知会员服务

16+阅读 · 2025年7月1日

【斯坦福博士论文】非平稳环境中的深度强化学习算法

【斯坦福博士论文】非平稳环境中的深度强化学习算法

专知会员服务

32+阅读 · 2024年12月9日

自动驾驶中的多智能体强化学习综述

自动驾驶中的多智能体强化学习综述

专知会员服务

47+阅读 · 2024年8月20日

基于学习机制的多智能体强化学习综述

基于学习机制的多智能体强化学习综述

专知会员服务

61+阅读 · 2024年4月16日

强化学习如何因果化？看最新《因果强化学习》综述论文，39页pdf

强化学习如何因果化？看最新《因果强化学习》综述论文，39页pdf

专知会员服务

84+阅读 · 2023年2月7日

基于通信的多智能体强化学习进展综述

基于通信的多智能体强化学习进展综述

专知会员服务

112+阅读 · 2022年11月12日

结合进化算法的深度强化学习方法研究综述

结合进化算法的深度强化学习方法研究综述

专知会员服务

81+阅读 · 2022年7月16日

【ICLR2021】一种基于距离度量学习及行为正则化的完全离线的元强化学习方法

专知会员服务

17+阅读 · 2021年2月9日

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

专知会员服务

13+阅读 · 2019年11月17日

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

专知会员服务

26+阅读 · 2019年10月3日

热门VIP内容

开通专知VIP会员享更多权益服务

美国防部门开始扩建金穹反导系统基础设施

《基于选择性深度神经网络分类的弹性无线通信》最新报告

《多域作战中融合网络、电子战与动能机动》

《在东欧磨砺反无人机技能》美陆军最新反无人机训练报告

相关资讯

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

32+阅读 · 2022年11月12日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

「强化学习可解释性」最新2022综述

「强化学习可解释性」最新2022综述

专知

12+阅读 · 2022年1月16日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

15+阅读 · 2020年9月9日

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

深度强化学习实验室

19+阅读 · 2020年8月11日

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

机器之心

20+阅读 · 2019年5月3日

基于逆强化学习的示教学习方法综述

基于逆强化学习的示教学习方法综述

计算机研究与发展

16+阅读 · 2019年2月25日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

Stochastic Decision Horizons for Constrained Reinforcement Learning

Arxiv

0+阅读 · 2月4日

Reinforcement Learning for Control Systems with Time Delays: A Comprehensive Survey

Arxiv

0+阅读 · 1月30日

Adapting the Behavior of Reinforcement Learning Agents to Changing Action Spaces and Reward Functions

Arxiv

0+阅读 · 1月28日

Just-In-Time Reinforcement Learning: Continual Learning in LLM Agents Without Gradient Updates

Arxiv

0+阅读 · 1月26日

Enhancing Agentic RL with Progressive Reward Shaping and Value-based Sampling Policy Optimization

Arxiv

0+阅读 · 1月20日

Continual Knowledge Adaptation for Reinforcement Learning

Arxiv

0+阅读 · 1月20日

Learning Latency-Aware Orchestration for Parallel Multi-Agent Systems

Arxiv

0+阅读 · 1月15日

Provably Safe Reinforcement Learning for Stochastic Reach-Avoid Problems with Entropy Regularization

Arxiv

0+阅读 · 1月15日

Agent-Dice: Disentangling Knowledge Updates via Geometric Consensus for Agent Continual Learning

Arxiv

0+阅读 · 1月8日

Multiagent Reinforcement Learning with Neighbor Action Estimation

Arxiv

0+阅读 · 1月8日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

42+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

随机延迟微分方程数值解的延迟依赖稳定性及自适应技术

国家自然科学基金

0+阅读 · 2014年12月31日

随机反应扩散种群模型动力学研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

11+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员