Local Reinforcement Learning with Action-Conditioned Root Mean Squared Q-Functions - 专知论文

会员服务 ·

0

Local Reinforcement Learning with Action-Conditioned Root Mean Squared Q-Functions

翻译：局部强化学习中的动作条件均方根Q函数

Frank Wu,Mengye Ren

from arxiv, 18 pages, 11 figures

The Forward-Forward (FF) Algorithm is a recently proposed learning procedure for neural networks that employs two forward passes instead of the traditional forward and backward passes used in backpropagation. However, FF remains largely confined to supervised settings, leaving a gap at domains where learning signals can be yielded more naturally such as RL. In this work, inspired by FF's goodness function using layer activity statistics, we introduce Action-conditioned Root mean squared Q-Functions (ARQ), a novel value estimation method that applies a goodness function and action conditioning for local RL using temporal difference learning. Despite its simplicity and biological grounding, our approach achieves superior performance compared to state-of-the-art local backprop-free RL methods in the MinAtar and the DeepMind Control Suite benchmarks, while also outperforming algorithms trained with backpropagation on most tasks. Code can be found at https://github.com/agentic-learning-ai-lab/arq.

翻译：前向-前向（FF）算法是一种近期提出的神经网络学习程序，它采用两次前向传播替代传统反向传播中的前向与反向传播过程。然而，FF算法仍主要局限于监督学习场景，在可更自然产生学习信号的领域（如强化学习）存在空白。受FF算法利用层活动统计量构建优良度函数的启发，本研究提出动作条件均方根Q函数（ARQ），这是一种新颖的价值估计方法，通过应用优良度函数和动作条件，结合时序差分学习实现局部强化学习。尽管该方法具有简洁性和生物学合理性，但在MinAtar和DeepMind控制套件基准测试中，其性能超越了当前最先进的无反向传播局部强化学习方法，同时在多数任务上优于使用反向传播训练的算法。代码详见https://github.com/agentic-learning-ai-lab/arq。

0

相关内容

《综述：强化学习在航空中的应用》第一份调查航空领域RL方法的研究论文，2022最新论文

《综述：强化学习在航空中的应用》第一份调查航空领域RL方法的研究论文，2022最新论文

专知会员服务

49+阅读 · 2022年11月15日

强化学习如何自动调参？牛津Google等JAIR最新《自动强化学习AutoRL》综述论文，52页pdf阐述自动RL方法体系

强化学习如何自动调参？牛津Google等JAIR最新《自动强化学习AutoRL》综述论文，52页pdf阐述自动RL方法体系

专知会员服务

53+阅读 · 2022年6月3日

何恺明团队新论文！自监督学习+Transformer=MoCoV3，解决训练不稳定性

专知会员服务

37+阅读 · 2021年4月7日

【DeepMind】基于模型的强化学习，174页ppt，Model-Based Reinforcement Learning

【DeepMind】基于模型的强化学习，174页ppt，Model-Based Reinforcement Learning

专知会员服务

89+阅读 · 2021年1月12日

【牛津大学】深度残差强化学习，Deep Residual Reinforcement Learning

【牛津大学】深度残差强化学习，Deep Residual Reinforcement Learning

专知会员服务

85+阅读 · 2020年2月18日

【AAAI2020教程】强化学习中的Exploration-Exploitation in Reinforcement Learning

专知会员服务

101+阅读 · 2020年2月8日

【强化学习】深度强化学习初学者指南

【强化学习】深度强化学习初学者指南

专知会员服务

184+阅读 · 2019年12月14日

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

专知会员服务

17+阅读 · 2019年12月9日

【NeurIPS 2019-教程】强化学习:过去、现在和未来展望（Rinforcement Learning: Past, Present, and Future Perspectives），微软首席研究员Katja Hofmann

【NeurIPS 2019-教程】强化学习:过去、现在和未来展望（Rinforcement Learning: Past, Present, and Future Perspectives），微软首席研究员Katja Hofmann

专知会员服务

59+阅读 · 2019年12月9日

【南洋理工大学课程】deep_reinforcement_learning（深度强化学习），109页ppt

【南洋理工大学课程】deep_reinforcement_learning（深度强化学习），109页ppt

专知会员服务

105+阅读 · 2019年11月2日

强化学习《奖励函数设计: Reward Shaping》详细解读

强化学习《奖励函数设计: Reward Shaping》详细解读

深度强化学习实验室

19+阅读 · 2020年9月1日

强化学习开篇：Q-Learning原理详解

强化学习开篇：Q-Learning原理详解

AINLP

37+阅读 · 2020年7月28日

浅谈主动学习（Active Learning）

浅谈主动学习（Active Learning）

凡人机器学习

32+阅读 · 2020年6月18日

【论文笔记】通过自注意力网络的动态图表示学习

【论文笔记】通过自注意力网络的动态图表示学习

专知

90+阅读 · 2019年12月2日

强化学习扫盲贴：从Q-learning到DQN

强化学习扫盲贴：从Q-learning到DQN

夕小瑶的卖萌屋

52+阅读 · 2019年10月13日

Seq2seq强化，Pointer Network简介

Seq2seq强化，Pointer Network简介

机器学习算法与Python学习

15+阅读 · 2018年12月8日

入门 | 通过 Q-learning 深入理解强化学习

入门 | 通过 Q-learning 深入理解强化学习

机器之心

12+阅读 · 2018年4月17日

一个强化学习 Q-learning 算法的简明教程

一个强化学习 Q-learning 算法的简明教程

数据挖掘入门与实战

10+阅读 · 2018年3月18日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

入门 | 从Q学习到DDPG，一文简述多种强化学习算法

入门 | 从Q学习到DDPG，一文简述多种强化学习算法

机器之心

17+阅读 · 2018年1月21日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

排序与半监督学习的误差分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于强化学习的分布参数系统数据驱动控制

国家自然科学基金

7+阅读 · 2015年12月31日

极限学习机拓展研究及其在近红外光谱分析中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

On the Learning Curves of Revenue Maximization

Arxiv

0+阅读 · 4月29日

Selectivity and Shape in the Design of Forward-Forward Goodness Functions

Arxiv

0+阅读 · 4月16日

Enhancing Gradient Inversion Attacks in Federated Learning via Hierarchical Feature Optimization

Arxiv

0+阅读 · 4月1日

Asynchronous Policy Gradient Aggregation for Efficient Distributed Reinforcement Learning

Arxiv

0+阅读 · 3月28日

Local learning for stable backpropagation-free neural network training towards physical learning

Arxiv

0+阅读 · 3月25日

Reinforcement Learning for Individual Optimal Policy from Heterogeneous Data

Arxiv

0+阅读 · 3月9日

Active Advantage-Aligned Online Reinforcement Learning with Offline Data

Arxiv

0+阅读 · 3月7日

A Review of Reward Functions for Reinforcement Learning in the context of Autonomous Driving

Arxiv

0+阅读 · 3月4日

Selecting Offline Reinforcement Learning Algorithms for Stochastic Network Control

Arxiv

0+阅读 · 3月4日

Localized Dynamics-Aware Domain Adaption for Off-Dynamics Offline Reinforcement Learning

Arxiv

0+阅读 · 2月24日

VIP会员

文章信息

相关主题

最新内容

《提升战术级作战规划水平：城市进攻作战中的机动样式研究》

《提升战术级作战规划水平：城市进攻作战中的机动样式研究》

专知会员服务

1+阅读 · 今天1:36

《人员配置对陆军突击清障车与联合突击桥战备状态的影响研究》

《人员配置对陆军突击清障车与联合突击桥战备状态的影响研究》

专知会员服务

1+阅读 · 今天1:28

管理咨询报告：美国国防部量子技术开发与实施评估（译文）

管理咨询报告：美国国防部量子技术开发与实施评估（译文）

专知会员服务

1+阅读 · 今天1:16

【博士论文】可解释人工智能的数学基础与 Bandit 优化的研究进展

【博士论文】可解释人工智能的数学基础与 Bandit 优化的研究进展

专知会员服务

1+阅读 · 5月8日

生成-过滤-控制-重放：LLM强化学习中Rollout策略的全面综述

生成-过滤-控制-重放：LLM强化学习中Rollout策略的全面综述

专知会员服务

0+阅读 · 5月8日

认知战与交战性质的改变：神经战略视角

认知战与交战性质的改变：神经战略视角

专知会员服务

5+阅读 · 5月8日

美国《国防授权法案》指令要求界定“认知战”：区分相关概念

美国《国防授权法案》指令要求界定“认知战”：区分相关概念

专知会员服务

4+阅读 · 5月8日

人工智能对特定国防资源管理流程的影响（万字长文）

人工智能对特定国防资源管理流程的影响（万字长文）

专知会员服务

5+阅读 · 5月8日

《多域作战概念实证检验：美军“史诗怒火”行动中跨域协同的地理空间混合方法分析研究》245页报告

《多域作战概念实证检验：美军“史诗怒火”行动中跨域协同的地理空间混合方法分析研究》245页报告

专知会员服务

8+阅读 · 5月8日

《预设时间的单次协同估计、制导与控制框架：实现同时目标拦截》2026最新40页报告

《预设时间的单次协同估计、制导与控制框架：实现同时目标拦截》2026最新40页报告

专知会员服务

10+阅读 · 5月8日

《美空军条令出版物：网络空间作战（2026版）》

《美空军条令出版物：网络空间作战（2026版）》

专知会员服务

11+阅读 · 5月8日

《美空军条令出版物：空军作战中的信息（2026版）》

《美空军条令出版物：空军作战中的信息（2026版）》

专知会员服务

13+阅读 · 5月8日

为指挥控制与防御构建智能网络结构：集成感知与通信以提升频谱利用率

为指挥控制与防御构建智能网络结构：集成感知与通信以提升频谱利用率

专知会员服务

9+阅读 · 5月8日

人工智能如何变革军事C5ISR作战

人工智能如何变革军事C5ISR作战

专知会员服务

12+阅读 · 5月8日

《自主空中加油：用于相对导航与自主对接的双向多目标检测系统》97页

《自主空中加油：用于相对导航与自主对接的双向多目标检测系统》97页

专知会员服务

8+阅读 · 5月8日

相关VIP内容

《综述：强化学习在航空中的应用》第一份调查航空领域RL方法的研究论文，2022最新论文

《综述：强化学习在航空中的应用》第一份调查航空领域RL方法的研究论文，2022最新论文

专知会员服务

49+阅读 · 2022年11月15日

强化学习如何自动调参？牛津Google等JAIR最新《自动强化学习AutoRL》综述论文，52页pdf阐述自动RL方法体系

强化学习如何自动调参？牛津Google等JAIR最新《自动强化学习AutoRL》综述论文，52页pdf阐述自动RL方法体系

专知会员服务

53+阅读 · 2022年6月3日

何恺明团队新论文！自监督学习+Transformer=MoCoV3，解决训练不稳定性

专知会员服务

37+阅读 · 2021年4月7日

【DeepMind】基于模型的强化学习，174页ppt，Model-Based Reinforcement Learning

【DeepMind】基于模型的强化学习，174页ppt，Model-Based Reinforcement Learning

专知会员服务

89+阅读 · 2021年1月12日

【牛津大学】深度残差强化学习，Deep Residual Reinforcement Learning

【牛津大学】深度残差强化学习，Deep Residual Reinforcement Learning

专知会员服务

85+阅读 · 2020年2月18日

【AAAI2020教程】强化学习中的Exploration-Exploitation in Reinforcement Learning

专知会员服务

101+阅读 · 2020年2月8日

【强化学习】深度强化学习初学者指南

【强化学习】深度强化学习初学者指南

专知会员服务

184+阅读 · 2019年12月14日

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

专知会员服务

17+阅读 · 2019年12月9日

【NeurIPS 2019-教程】强化学习:过去、现在和未来展望（Rinforcement Learning: Past, Present, and Future Perspectives），微软首席研究员Katja Hofmann

【NeurIPS 2019-教程】强化学习:过去、现在和未来展望（Rinforcement Learning: Past, Present, and Future Perspectives），微软首席研究员Katja Hofmann

专知会员服务

59+阅读 · 2019年12月9日

【南洋理工大学课程】deep_reinforcement_learning（深度强化学习），109页ppt

【南洋理工大学课程】deep_reinforcement_learning（深度强化学习），109页ppt

专知会员服务

105+阅读 · 2019年11月2日

热门VIP内容

开通专知VIP会员享更多权益服务

《人员配置对陆军突击清障车与联合突击桥战备状态的影响研究》

【博士论文】可解释人工智能的数学基础与 Bandit 优化的研究进展

《提升战术级作战规划水平：城市进攻作战中的机动样式研究》

管理咨询报告：美国国防部量子技术开发与实施评估（译文）

相关资讯

强化学习《奖励函数设计: Reward Shaping》详细解读

强化学习《奖励函数设计: Reward Shaping》详细解读

深度强化学习实验室

19+阅读 · 2020年9月1日

强化学习开篇：Q-Learning原理详解

强化学习开篇：Q-Learning原理详解

AINLP

37+阅读 · 2020年7月28日

浅谈主动学习（Active Learning）

浅谈主动学习（Active Learning）

凡人机器学习

32+阅读 · 2020年6月18日

【论文笔记】通过自注意力网络的动态图表示学习

【论文笔记】通过自注意力网络的动态图表示学习

专知

90+阅读 · 2019年12月2日

强化学习扫盲贴：从Q-learning到DQN

强化学习扫盲贴：从Q-learning到DQN

夕小瑶的卖萌屋

52+阅读 · 2019年10月13日

Seq2seq强化，Pointer Network简介

Seq2seq强化，Pointer Network简介

机器学习算法与Python学习

15+阅读 · 2018年12月8日

入门 | 通过 Q-learning 深入理解强化学习

入门 | 通过 Q-learning 深入理解强化学习

机器之心

12+阅读 · 2018年4月17日

一个强化学习 Q-learning 算法的简明教程

一个强化学习 Q-learning 算法的简明教程

数据挖掘入门与实战

10+阅读 · 2018年3月18日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

入门 | 从Q学习到DDPG，一文简述多种强化学习算法

入门 | 从Q学习到DDPG，一文简述多种强化学习算法

机器之心

17+阅读 · 2018年1月21日

相关论文

On the Learning Curves of Revenue Maximization

Arxiv

0+阅读 · 4月29日

Selectivity and Shape in the Design of Forward-Forward Goodness Functions

Arxiv

0+阅读 · 4月16日

Enhancing Gradient Inversion Attacks in Federated Learning via Hierarchical Feature Optimization

Arxiv

0+阅读 · 4月1日

Asynchronous Policy Gradient Aggregation for Efficient Distributed Reinforcement Learning

Arxiv

0+阅读 · 3月28日

Local learning for stable backpropagation-free neural network training towards physical learning

Arxiv

0+阅读 · 3月25日

Reinforcement Learning for Individual Optimal Policy from Heterogeneous Data

Arxiv

0+阅读 · 3月9日

Active Advantage-Aligned Online Reinforcement Learning with Offline Data

Arxiv

0+阅读 · 3月7日

A Review of Reward Functions for Reinforcement Learning in the context of Autonomous Driving

Arxiv

0+阅读 · 3月4日

Selecting Offline Reinforcement Learning Algorithms for Stochastic Network Control

Arxiv

0+阅读 · 3月4日

Localized Dynamics-Aware Domain Adaption for Off-Dynamics Offline Reinforcement Learning

Arxiv

0+阅读 · 2月24日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

排序与半监督学习的误差分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于强化学习的分布参数系统数据驱动控制

国家自然科学基金

7+阅读 · 2015年12月31日

极限学习机拓展研究及其在近红外光谱分析中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员