On the Role of Iterative Computation in Reinforcement Learning - 专知论文

会员服务 ·

0

迭代计算 · 泛化 · 强化学习 · 参数化 · 形式化 ·

On the Role of Iterative Computation in Reinforcement Learning

翻译：论迭代计算在强化学习中的作用

Raj Ghugare,Michał Bortkiewicz,Alicja Ziarko,Benjamin Eysenbach

How does the amount of compute available to a reinforcement learning (RL) policy affect its learning? Can policies using a fixed amount of parameters, still benefit from additional compute? The standard RL framework does not provide a language to answer these questions formally. Empirically, deep RL policies are often parameterized as neural networks with static architectures, conflating the amount of compute and the number of parameters. In this paper, we formalize compute bounded policies and prove that policies which use more compute can solve problems and generalize to longer-horizon tasks that are outside the scope of policies with less compute. Building on prior work in algorithmic learning and model-free planning, we propose a minimal architecture that can use a variable amount of compute. Our experiments complement our theory. On a set 31 different tasks spanning online and offline RL, we show that $(1)$ this architecture achieves stronger performance simply by using more compute, and $(2)$ stronger generalization on longer-horizon test tasks compared to standard feedforward networks or deep residual network using up to 5 times more parameters.

翻译：强化学习（RL）策略可用的计算量如何影响其学习？使用固定参数量的策略是否仍能受益于额外的计算？标准的RL框架并未提供正式回答这些问题的语言。在实证中，深度RL策略通常被参数化为具有静态架构的神经网络，这混淆了计算量与参数数量。在本文中，我们形式化了计算受限策略，并证明了使用更多计算量的策略能够解决那些计算量较少的策略无法处理的问题，并泛化到更长期限的任务。基于先前在算法学习和无模型规划方面的工作，我们提出了一种能够使用可变计算量的最小架构。我们的实验与理论相辅相成。在一组包含在线和离线RL的31个不同任务上，我们表明：$(1)$ 该架构仅通过使用更多计算量即可实现更强的性能；$(2)$ 与使用多达5倍参数的标准前馈网络或深度残差网络相比，该架构在更长期限的测试任务上表现出更强的泛化能力。

0

相关内容

迭代计算

《单智能体与多智能体深度强化学习方法的优化研究》219页

《单智能体与多智能体深度强化学习方法的优化研究》219页

专知会员服务

51+阅读 · 2025年4月5日

《强化学习的应用及其在战争战术模拟技术中的扩展》

《强化学习的应用及其在战争战术模拟技术中的扩展》

专知会员服务

27+阅读 · 2025年1月14日

《基于深度强化学习的战场策略》

《基于深度强化学习的战场策略》

专知会员服务

37+阅读 · 2025年1月13日

【伯克利博士论文】基于静态数据集的强化学习：算法、分析与应用, 386页pdf

【伯克利博士论文】基于静态数据集的强化学习：算法、分析与应用, 386页pdf

专知会员服务

55+阅读 · 2023年8月12日

牛津斯坦福等最新《元强化学习》综述，53页pdf全面阐述元强化学习方法与应用

牛津斯坦福等最新《元强化学习》综述，53页pdf全面阐述元强化学习方法与应用

专知会员服务

66+阅读 · 2023年1月26日

【干货书】Python强化学习算法:学习、理解和开发智能算法以应对人工智能挑战，356页pdf，附代码

【干货书】Python强化学习算法:学习、理解和开发智能算法以应对人工智能挑战，356页pdf，附代码

专知会员服务

58+阅读 · 2022年12月10日

《综述：强化学习在航空中的应用》第一份调查航空领域RL方法的研究论文，2022最新论文

《综述：强化学习在航空中的应用》第一份调查航空领域RL方法的研究论文，2022最新论文

专知会员服务

49+阅读 · 2022年11月15日

【综述】自动驾驶领域中的强化学习，附18页论文下载

【综述】自动驾驶领域中的强化学习，附18页论文下载

专知会员服务

176+阅读 · 2020年2月8日

【AAAI2020教程】强化学习中的Exploration-Exploitation in Reinforcement Learning

专知会员服务

101+阅读 · 2020年2月8日

【微软Alekh等开放新书】强化学习理论与算法（Reinforcement Learning:Theory and Algorithms），附83页pdf

【微软Alekh等开放新书】强化学习理论与算法（Reinforcement Learning:Theory and Algorithms），附83页pdf

专知会员服务

122+阅读 · 2019年11月24日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

32+阅读 · 2022年11月12日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

【NeurlPS2019教程】微软首席研究员Katja Hofmann - 强化学习：过去、现在和未来展望，附97页ppt

【NeurlPS2019教程】微软首席研究员Katja Hofmann - 强化学习：过去、现在和未来展望，附97页ppt

专知

12+阅读 · 2019年12月16日

深度强化学习在NLP怎么用？看清华黄民烈老师这一份120页《自然语言处理和搜索中的深度强化学习应用》讲义

深度强化学习在NLP怎么用？看清华黄民烈老师这一份120页《自然语言处理和搜索中的深度强化学习应用》讲义

专知

31+阅读 · 2018年9月1日

关于强化学习（附代码，练习和解答）

关于强化学习（附代码，练习和解答）

深度学习

38+阅读 · 2018年1月30日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

核心化算法中的新技术研究

国家自然科学基金

8+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

23+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

强非线性偏微分方程基于梯度重构的新型算法

国家自然科学基金

0+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

Robust Regularized Policy Iteration under Transition Uncertainty

Arxiv

0+阅读 · 3月14日

Active Advantage-Aligned Online Reinforcement Learning with Offline Data

Arxiv

0+阅读 · 3月7日

A Reference Architecture of Reinforcement Learning Frameworks

Arxiv

0+阅读 · 3月6日

Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective

Arxiv

0+阅读 · 3月3日

RLGT: A reinforcement learning framework for extremal graph theory

Arxiv

0+阅读 · 2月19日

CDRL: A Reinforcement Learning Framework Inspired by Cerebellar Circuits and Dendritic Computational Strategies

Arxiv

0+阅读 · 2月17日

Provably Optimal Reinforcement Learning under Safety Filtering

Arxiv

0+阅读 · 2月11日

Reinforcement Learning in Strategy-Based and Atari Games: A Review of Google DeepMinds Innovations

Arxiv

0+阅读 · 2月11日

On Computation and Reinforcement Learning

On Computation and Reinforcement Learning

Arxiv

0+阅读 · 2月5日

Understanding and Exploiting Weight Update Sparsity for Communication-Efficient Distributed RL

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

最新内容

《将量子技术集成到移动军事系统与战术作战中心框架》

《将量子技术集成到移动军事系统与战术作战中心框架》

专知会员服务

0+阅读 · 33分钟前

《美国战争部2027财年军事人员预算》

《美国战争部2027财年军事人员预算》

专知会员服务

0+阅读 · 42分钟前

伊朗战争中的电子战

伊朗战争中的电子战

专知会员服务

3+阅读 · 今天7:04

大语言模型平台在国防情报应用中的对比

大语言模型平台在国防情报应用中的对比

专知会员服务

5+阅读 · 今天3:12

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

专知会员服务

5+阅读 · 今天3:00

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

专知会员服务

3+阅读 · 今天2:56

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

专知会员服务

4+阅读 · 今天2:44

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

专知会员服务

7+阅读 · 今天2:37

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

专知会员服务

5+阅读 · 今天2:22

美海军“超配项目”

美海军“超配项目”

专知会员服务

6+阅读 · 今天2:13

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

10+阅读 · 4月21日

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

13+阅读 · 4月21日

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

7+阅读 · 4月21日

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

9+阅读 · 4月21日

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

11+阅读 · 4月20日

相关VIP内容

《单智能体与多智能体深度强化学习方法的优化研究》219页

《单智能体与多智能体深度强化学习方法的优化研究》219页

专知会员服务

51+阅读 · 2025年4月5日

《强化学习的应用及其在战争战术模拟技术中的扩展》

《强化学习的应用及其在战争战术模拟技术中的扩展》

专知会员服务

27+阅读 · 2025年1月14日

《基于深度强化学习的战场策略》

《基于深度强化学习的战场策略》

专知会员服务

37+阅读 · 2025年1月13日

【伯克利博士论文】基于静态数据集的强化学习：算法、分析与应用, 386页pdf

【伯克利博士论文】基于静态数据集的强化学习：算法、分析与应用, 386页pdf

专知会员服务

55+阅读 · 2023年8月12日

牛津斯坦福等最新《元强化学习》综述，53页pdf全面阐述元强化学习方法与应用

牛津斯坦福等最新《元强化学习》综述，53页pdf全面阐述元强化学习方法与应用

专知会员服务

66+阅读 · 2023年1月26日

【干货书】Python强化学习算法:学习、理解和开发智能算法以应对人工智能挑战，356页pdf，附代码

【干货书】Python强化学习算法:学习、理解和开发智能算法以应对人工智能挑战，356页pdf，附代码

专知会员服务

58+阅读 · 2022年12月10日

《综述：强化学习在航空中的应用》第一份调查航空领域RL方法的研究论文，2022最新论文

《综述：强化学习在航空中的应用》第一份调查航空领域RL方法的研究论文，2022最新论文

专知会员服务

49+阅读 · 2022年11月15日

【综述】自动驾驶领域中的强化学习，附18页论文下载

【综述】自动驾驶领域中的强化学习，附18页论文下载

专知会员服务

176+阅读 · 2020年2月8日

【AAAI2020教程】强化学习中的Exploration-Exploitation in Reinforcement Learning

专知会员服务

101+阅读 · 2020年2月8日

【微软Alekh等开放新书】强化学习理论与算法（Reinforcement Learning:Theory and Algorithms），附83页pdf

【微软Alekh等开放新书】强化学习理论与算法（Reinforcement Learning:Theory and Algorithms），附83页pdf

专知会员服务

122+阅读 · 2019年11月24日

热门VIP内容

开通专知VIP会员享更多权益服务

《美国战争部2027财年军事人员预算》

大语言模型平台在国防情报应用中的对比

《将量子技术集成到移动军事系统与战术作战中心框架》

伊朗战争中的电子战

相关资讯

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

32+阅读 · 2022年11月12日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

【NeurlPS2019教程】微软首席研究员Katja Hofmann - 强化学习：过去、现在和未来展望，附97页ppt

【NeurlPS2019教程】微软首席研究员Katja Hofmann - 强化学习：过去、现在和未来展望，附97页ppt

专知

12+阅读 · 2019年12月16日

深度强化学习在NLP怎么用？看清华黄民烈老师这一份120页《自然语言处理和搜索中的深度强化学习应用》讲义

深度强化学习在NLP怎么用？看清华黄民烈老师这一份120页《自然语言处理和搜索中的深度强化学习应用》讲义

专知

31+阅读 · 2018年9月1日

关于强化学习（附代码，练习和解答）

关于强化学习（附代码，练习和解答）

深度学习

38+阅读 · 2018年1月30日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

Robust Regularized Policy Iteration under Transition Uncertainty

Arxiv

0+阅读 · 3月14日

Active Advantage-Aligned Online Reinforcement Learning with Offline Data

Arxiv

0+阅读 · 3月7日

A Reference Architecture of Reinforcement Learning Frameworks

Arxiv

0+阅读 · 3月6日

Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective

Arxiv

0+阅读 · 3月3日

RLGT: A reinforcement learning framework for extremal graph theory

Arxiv

0+阅读 · 2月19日

CDRL: A Reinforcement Learning Framework Inspired by Cerebellar Circuits and Dendritic Computational Strategies

Arxiv

0+阅读 · 2月17日

Provably Optimal Reinforcement Learning under Safety Filtering

Arxiv

0+阅读 · 2月11日

Reinforcement Learning in Strategy-Based and Atari Games: A Review of Google DeepMinds Innovations

Arxiv

0+阅读 · 2月11日

On Computation and Reinforcement Learning

On Computation and Reinforcement Learning

Arxiv

0+阅读 · 2月5日

Understanding and Exploiting Weight Update Sparsity for Communication-Efficient Distributed RL

Arxiv

0+阅读 · 2月3日

相关基金

核心化算法中的新技术研究

国家自然科学基金

8+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

23+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

强非线性偏微分方程基于梯度重构的新型算法

国家自然科学基金

0+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员