The Forward-Forward (FF) Algorithm is a recently proposed learning procedure for neural networks that employs two forward passes instead of the traditional forward and backward passes used in backpropagation. However, FF remains largely confined to supervised settings, leaving a gap at domains where learning signals can be yielded more naturally such as RL. In this work, inspired by FF's goodness function using layer activity statistics, we introduce Action-conditioned Root mean squared Q-Functions (ARQ), a novel value estimation method that applies a goodness function and action conditioning for local RL using temporal difference learning. Despite its simplicity and biological grounding, our approach achieves superior performance compared to state-of-the-art local backprop-free RL methods in the MinAtar and the DeepMind Control Suite benchmarks, while also outperforming algorithms trained with backpropagation on most tasks. Code can be found at https://github.com/agentic-learning-ai-lab/arq.


翻译:前向-前向(FF)算法是一种近期提出的神经网络学习程序,它采用两次前向传播替代传统反向传播中的前向与反向传播过程。然而,FF算法仍主要局限于监督学习场景,在可更自然产生学习信号的领域(如强化学习)存在空白。受FF算法利用层活动统计量构建优良度函数的启发,本研究提出动作条件均方根Q函数(ARQ),这是一种新颖的价值估计方法,通过应用优良度函数和动作条件,结合时序差分学习实现局部强化学习。尽管该方法具有简洁性和生物学合理性,但在MinAtar和DeepMind控制套件基准测试中,其性能超越了当前最先进的无反向传播局部强化学习方法,同时在多数任务上优于使用反向传播训练的算法。代码详见https://github.com/agentic-learning-ai-lab/arq。

0
下载
关闭预览

相关内容

【强化学习】深度强化学习初学者指南
专知会员服务
184+阅读 · 2019年12月14日
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
19+阅读 · 2020年9月1日
强化学习开篇:Q-Learning原理详解
AINLP
37+阅读 · 2020年7月28日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
Seq2seq强化,Pointer Network简介
机器学习算法与Python学习
15+阅读 · 2018年12月8日
入门 | 通过 Q-learning 深入理解强化学习
机器之心
12+阅读 · 2018年4月17日
一个强化学习 Q-learning 算法的简明教程
数据挖掘入门与实战
10+阅读 · 2018年3月18日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
入门 | 从Q学习到DDPG,一文简述多种强化学习算法
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
VIP会员
相关主题
最新内容
认知战与交战性质的改变:神经战略视角
专知会员服务
5+阅读 · 5月8日
人工智能如何变革军事C5ISR作战
专知会员服务
12+阅读 · 5月8日
相关VIP内容
【强化学习】深度强化学习初学者指南
专知会员服务
184+阅读 · 2019年12月14日
相关资讯
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
19+阅读 · 2020年9月1日
强化学习开篇:Q-Learning原理详解
AINLP
37+阅读 · 2020年7月28日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
Seq2seq强化,Pointer Network简介
机器学习算法与Python学习
15+阅读 · 2018年12月8日
入门 | 通过 Q-learning 深入理解强化学习
机器之心
12+阅读 · 2018年4月17日
一个强化学习 Q-learning 算法的简明教程
数据挖掘入门与实战
10+阅读 · 2018年3月18日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
入门 | 从Q学习到DDPG,一文简述多种强化学习算法
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员