Optimism and Delays in Episodic Reinforcement Learning - 专知论文

会员服务 ·

0

算法 · 强化学习 · 类别 · 交互 · 序列 ·

2023 年 4 月 6 日

Optimism and Delays in Episodic Reinforcement Learning

翻译：乐观主义与延迟在情节强化学习中的影响

Benjamin Howson,Ciara Pike-Burke,Sarah Filippi

There are many algorithms for regret minimisation in episodic reinforcement learning. This problem is well-understood from a theoretical perspective, providing that the sequences of states, actions and rewards associated with each episode are available to the algorithm updating the policy immediately after every interaction with the environment. However, feedback is almost always delayed in practice. In this paper, we study the impact of delayed feedback in episodic reinforcement learning from a theoretical perspective and propose two general-purpose approaches to handling the delays. The first involves updating as soon as new information becomes available, whereas the second waits before using newly observed information to update the policy. For the class of optimistic algorithms and either approach, we show that the regret increases by an additive term involving the number of states, actions, episode length, the expected delay and an algorithm-dependent constant. We empirically investigate the impact of various delay distributions on the regret of optimistic algorithms to validate our theoretical results.

翻译：在情节强化学习中，存在许多旨在最小化遗憾的算法。从理论角度来看，这一问题已得到充分理解，前提是每次与环境交互后，与每个情节相关的状态、动作和奖励序列都能立即用于算法更新策略。然而，在实际应用中，反馈几乎总是存在延迟。本文从理论角度研究了延迟对情节强化学习的影响，并提出了两种处理延迟的通用方法。第一种方法是在新信息可用时立即更新，而第二种方法则等待一段时间后再利用新观察到的信息更新策略。对于乐观算法类及这两种方法，我们证明遗憾会加上一项与状态数量、动作数量、情节长度、预期延迟以及算法相关常数有关的附加项。我们通过实证研究了不同延迟分布对乐观算法遗憾的影响，以验证我们的理论结果。

0

相关内容

在数学和计算机科学之中，算法（Algorithm）为一个计算的具体步骤，常用于计算、数据处理和自动推理。精确而言，算法是一个表示为有限长列表的有效方法。算法应包含清晰定义的指令用于计算函数。来自维基百科：算法

【干货书】Python强化学习算法:学习、理解和开发智能算法以应对人工智能挑战，356页pdf，附代码

【干货书】Python强化学习算法:学习、理解和开发智能算法以应对人工智能挑战，356页pdf，附代码

专知会员服务

58+阅读 · 2022年12月10日

【干货书】机器学习理论与实践，299页pdf

【干货书】机器学习理论与实践，299页pdf

专知会员服务

99+阅读 · 2022年12月5日

基于模型的强化学习综述

基于模型的强化学习综述

专知会员服务

149+阅读 · 2022年7月13日

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

专知会员服务

119+阅读 · 2022年5月7日

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

专知会员服务

24+阅读 · 2022年3月19日

【NeurIPS 2021】随机最短路径:极大极小，无参数，走向水平无关遗憾

【NeurIPS 2021】随机最短路径:极大极小，无参数，走向水平无关遗憾

专知会员服务

16+阅读 · 2021年11月3日

【NeurIPS 2021】设置多智能体策略梯度的方差

【NeurIPS 2021】设置多智能体策略梯度的方差

专知会员服务

21+阅读 · 2021年10月24日

【ICML2020投稿论文-DeepMind】时序差分学习的推理与泛化，Temporal Difference Learning

专知会员服务

26+阅读 · 2020年3月16日

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

专知会员服务

26+阅读 · 2019年10月3日

【ALT 2019 Tutorials】强化学习的探索性开发（Exploration-Exploitation in Reinforcement Learning）

【ALT 2019 Tutorials】强化学习的探索性开发（Exploration-Exploitation in Reinforcement Learning）

专知会员服务

34+阅读 · 2019年3月21日

【斯坦福大学博士论文】鲁棒学习:信息论和算法，88页pdf

【斯坦福大学博士论文】鲁棒学习:信息论和算法，88页pdf

专知

2+阅读 · 2022年11月13日

强化学习《奖励函数设计: Reward Shaping》详细解读

强化学习《奖励函数设计: Reward Shaping》详细解读

深度强化学习实验室

20+阅读 · 2020年9月1日

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

深度强化学习实验室

20+阅读 · 2020年8月11日

强化学习扫盲贴：从Q-learning到DQN

强化学习扫盲贴：从Q-learning到DQN

夕小瑶的卖萌屋

52+阅读 · 2019年10月13日

【重磅】61篇NIPS2019深度强化学习论文及部分解读

【重磅】61篇NIPS2019深度强化学习论文及部分解读

AI科技评论

15+阅读 · 2019年9月9日

腊月廿八 | 强化学习-TRPO和PPO背后的数学

腊月廿八 | 强化学习-TRPO和PPO背后的数学

AI研习社

18+阅读 · 2019年2月2日

OpenAI官方发布：强化学习中的关键论文

OpenAI官方发布：强化学习中的关键论文

专知

14+阅读 · 2018年12月12日

【干货】强化学习介绍

【干货】强化学习介绍

专知

12+阅读 · 2018年6月24日

强化学习——蒙特卡洛方法介绍

强化学习——蒙特卡洛方法介绍

论智

12+阅读 · 2018年6月3日

强化学习初探 - 从多臂老虎机问题说起

强化学习初探 - 从多臂老虎机问题说起

专知

10+阅读 · 2018年4月3日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

高维生物数据的PLS特征选择方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

关于矩阵乘法问题的演化算法研究

国家自然科学基金

5+阅读 · 2014年12月31日

面向时间约束的动态社交网络影响力最大化问题研究

国家自然科学基金

1+阅读 · 2013年12月31日

适应大数据处理的概率特征映射研究

国家自然科学基金

0+阅读 · 2013年12月31日

Spiked模型中特征值和特征向量的理论分析与推断

国家自然科学基金

1+阅读 · 2012年12月31日

一种关于高效命题推理极限的新方法：基础，算法和近似

国家自然科学基金

1+阅读 · 2012年12月31日

白藜芦醇调节STIM1抑制血管平滑肌细胞增殖机制的探讨

国家自然科学基金

0+阅读 · 2012年12月31日

数据流模型与判定树模型中的几个问题研究

国家自然科学基金

0+阅读 · 2011年12月31日

针对环境变量不确定性的进化鲁棒优化算法

国家自然科学基金

0+阅读 · 2011年12月31日

Concurrent Constrained Optimization of Unknown Rewards for Multi-Robot Task Allocation

Arxiv

0+阅读 · 2023年5月24日

Mixture of Experts with Uncertainty Voting for Imbalanced Deep Regression Problems

Arxiv

0+阅读 · 2023年5月24日

Learning Reward Machines in Cooperative Multi-Agent Tasks

Arxiv

0+阅读 · 2023年5月24日

Optimizing Long-term Value for Auction-Based Recommender Systems via On-Policy Reinforcement Learning

Arxiv

0+阅读 · 2023年5月24日

Self-Supervised Learning via Maximum Entropy Coding

Arxiv

13+阅读 · 2022年10月20日

Deep Reinforcement Learning for Multi-Agent Interaction

Arxiv

46+阅读 · 2022年8月2日

Mastering the Game of Stratego with Model-Free Multiagent Reinforcement Learning

Arxiv

34+阅读 · 2022年6月30日

Transformers are Meta-Reinforcement Learners

Arxiv

15+阅读 · 2022年6月14日

The Role of Heterogeneity in Autonomous Perimeter Defense Problems

The Role of Heterogeneity in Autonomous Perimeter Defense Problems

Arxiv

13+阅读 · 2022年2月21日

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

Arxiv

26+阅读 · 2020年2月10日

VIP会员

文章信息

相关主题

最新内容

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

专知会员服务

10+阅读 · 6月15日

消耗优势：美军的“精确规模化”概念

消耗优势：美军的“精确规模化”概念

专知会员服务

5+阅读 · 6月15日

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

专知会员服务

6+阅读 · 6月15日

《网络空间兵棋推演：挑战、局限性与混合路径》报告

《网络空间兵棋推演：挑战、局限性与混合路径》报告

专知会员服务

5+阅读 · 6月15日

《离线语言支持系统：面向空战战术决策》

《离线语言支持系统：面向空战战术决策》

专知会员服务

6+阅读 · 6月15日

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

专知会员服务

4+阅读 · 6月15日

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

专知会员服务

5+阅读 · 6月14日

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

专知会员服务

5+阅读 · 6月14日

俄乌战场地面机器人如何改写战争规则

俄乌战场地面机器人如何改写战争规则

专知会员服务

9+阅读 · 6月14日

美国海军研究生院第23届年度采购研究研讨会与创新峰会：主题“加速作战能力”，附会议报告论文集1300页

美国海军研究生院第23届年度采购研究研讨会与创新峰会：主题“加速作战能力”，附会议报告论文集1300页

专知会员服务

9+阅读 · 6月14日

《新空中力量概念：来自敏捷战斗运用的启示》2026最新50页报告

《新空中力量概念：来自敏捷战斗运用的启示》2026最新50页报告

专知会员服务

12+阅读 · 6月14日

《无人水面艇文献综述与结构设计》135页

《无人水面艇文献综述与结构设计》135页

专知会员服务

14+阅读 · 6月13日

《自主蜂群系统的战略架构：多域一体化、抗毁韧性及海上作战框架（2025—2035）》46页报告

《自主蜂群系统的战略架构：多域一体化、抗毁韧性及海上作战框架（2025—2035）》46页报告

专知会员服务

11+阅读 · 6月13日

ICML 2026｜MEMOPILOT：用强化学习训练会进化的智能体记忆

ICML 2026｜MEMOPILOT：用强化学习训练会进化的智能体记忆

专知会员服务

2+阅读 · 6月13日

智能体时间序列系统全景综述：架构、可靠性与研究前沿

智能体时间序列系统全景综述：架构、可靠性与研究前沿

专知会员服务

11+阅读 · 6月13日

相关VIP内容

【干货书】Python强化学习算法:学习、理解和开发智能算法以应对人工智能挑战，356页pdf，附代码

【干货书】Python强化学习算法:学习、理解和开发智能算法以应对人工智能挑战，356页pdf，附代码

专知会员服务

58+阅读 · 2022年12月10日

【干货书】机器学习理论与实践，299页pdf

【干货书】机器学习理论与实践，299页pdf

专知会员服务

99+阅读 · 2022年12月5日

基于模型的强化学习综述

基于模型的强化学习综述

专知会员服务

149+阅读 · 2022年7月13日

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

专知会员服务

119+阅读 · 2022年5月7日

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

专知会员服务

24+阅读 · 2022年3月19日

【NeurIPS 2021】随机最短路径:极大极小，无参数，走向水平无关遗憾

【NeurIPS 2021】随机最短路径:极大极小，无参数，走向水平无关遗憾

专知会员服务

16+阅读 · 2021年11月3日

【NeurIPS 2021】设置多智能体策略梯度的方差

【NeurIPS 2021】设置多智能体策略梯度的方差

专知会员服务

21+阅读 · 2021年10月24日

【ICML2020投稿论文-DeepMind】时序差分学习的推理与泛化，Temporal Difference Learning

专知会员服务

26+阅读 · 2020年3月16日

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

专知会员服务

26+阅读 · 2019年10月3日

【ALT 2019 Tutorials】强化学习的探索性开发（Exploration-Exploitation in Reinforcement Learning）

【ALT 2019 Tutorials】强化学习的探索性开发（Exploration-Exploitation in Reinforcement Learning）

专知会员服务

34+阅读 · 2019年3月21日

热门VIP内容

开通专知VIP会员享更多权益服务

消耗优势：美军的“精确规模化”概念

《网络空间兵棋推演：挑战、局限性与混合路径》报告

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

相关资讯

【斯坦福大学博士论文】鲁棒学习:信息论和算法，88页pdf

【斯坦福大学博士论文】鲁棒学习:信息论和算法，88页pdf

专知

2+阅读 · 2022年11月13日

强化学习《奖励函数设计: Reward Shaping》详细解读

强化学习《奖励函数设计: Reward Shaping》详细解读

深度强化学习实验室

20+阅读 · 2020年9月1日

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

深度强化学习实验室

20+阅读 · 2020年8月11日

强化学习扫盲贴：从Q-learning到DQN

强化学习扫盲贴：从Q-learning到DQN

夕小瑶的卖萌屋

52+阅读 · 2019年10月13日

【重磅】61篇NIPS2019深度强化学习论文及部分解读

【重磅】61篇NIPS2019深度强化学习论文及部分解读

AI科技评论

15+阅读 · 2019年9月9日

腊月廿八 | 强化学习-TRPO和PPO背后的数学

腊月廿八 | 强化学习-TRPO和PPO背后的数学

AI研习社

18+阅读 · 2019年2月2日

OpenAI官方发布：强化学习中的关键论文

OpenAI官方发布：强化学习中的关键论文

专知

14+阅读 · 2018年12月12日

【干货】强化学习介绍

【干货】强化学习介绍

专知

12+阅读 · 2018年6月24日

强化学习——蒙特卡洛方法介绍

强化学习——蒙特卡洛方法介绍

论智

12+阅读 · 2018年6月3日

强化学习初探 - 从多臂老虎机问题说起

强化学习初探 - 从多臂老虎机问题说起

专知

10+阅读 · 2018年4月3日

相关论文

Concurrent Constrained Optimization of Unknown Rewards for Multi-Robot Task Allocation

Arxiv

0+阅读 · 2023年5月24日

Mixture of Experts with Uncertainty Voting for Imbalanced Deep Regression Problems

Arxiv

0+阅读 · 2023年5月24日

Learning Reward Machines in Cooperative Multi-Agent Tasks

Arxiv

0+阅读 · 2023年5月24日

Optimizing Long-term Value for Auction-Based Recommender Systems via On-Policy Reinforcement Learning

Arxiv

0+阅读 · 2023年5月24日

Self-Supervised Learning via Maximum Entropy Coding

Arxiv

13+阅读 · 2022年10月20日

Deep Reinforcement Learning for Multi-Agent Interaction

Arxiv

46+阅读 · 2022年8月2日

Mastering the Game of Stratego with Model-Free Multiagent Reinforcement Learning

Arxiv

34+阅读 · 2022年6月30日

Transformers are Meta-Reinforcement Learners

Arxiv

15+阅读 · 2022年6月14日

The Role of Heterogeneity in Autonomous Perimeter Defense Problems

The Role of Heterogeneity in Autonomous Perimeter Defense Problems

Arxiv

13+阅读 · 2022年2月21日

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

Arxiv

26+阅读 · 2020年2月10日

相关基金

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

高维生物数据的PLS特征选择方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

关于矩阵乘法问题的演化算法研究

国家自然科学基金

5+阅读 · 2014年12月31日

面向时间约束的动态社交网络影响力最大化问题研究

国家自然科学基金

1+阅读 · 2013年12月31日

适应大数据处理的概率特征映射研究

国家自然科学基金

0+阅读 · 2013年12月31日

Spiked模型中特征值和特征向量的理论分析与推断

国家自然科学基金

1+阅读 · 2012年12月31日

一种关于高效命题推理极限的新方法：基础，算法和近似

国家自然科学基金

1+阅读 · 2012年12月31日

白藜芦醇调节STIM1抑制血管平滑肌细胞增殖机制的探讨

国家自然科学基金

0+阅读 · 2012年12月31日

数据流模型与判定树模型中的几个问题研究

国家自然科学基金

0+阅读 · 2011年12月31日

针对环境变量不确定性的进化鲁棒优化算法

国家自然科学基金

0+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员