Rank-1 Approximation of Inverse Fisher for Natural Policy Gradients in Deep Reinforcement Learning - 专知论文

会员服务 ·

0

梯度 · 近似 · 策略梯度 · 深度强化学习 · 强化学习 ·

Rank-1 Approximation of Inverse Fisher for Natural Policy Gradients in Deep Reinforcement Learning

翻译：深度强化学习中自然策略梯度的逆Fisher秩-1近似方法

Yingxiao Huo,Satya Prakash Dash,Radu Stoican,Samuel Kaski,Mingfei Sun

Natural gradients have long been studied in deep reinforcement learning due to their fast convergence properties and covariant weight updates. However, computing natural gradients requires inversion of the Fisher Information Matrix (FIM) at each iteration, which is computationally prohibitive in nature. In this paper, we present an efficient and scalable natural policy optimization technique that leverages a rank-1 approximation to full inverse-FIM. We theoretically show that under certain conditions, a rank-1 approximation to inverse-FIM converges faster than policy gradients and, under some conditions, enjoys the same sample complexity as stochastic policy gradient methods. We benchmark our method on a diverse set of environments and show that it achieves superior performance to standard actor-critic and trust-region baselines.

翻译：自然梯度因其快速收敛特性与协变权重更新机制，长期以来在深度强化学习领域备受关注。然而，计算自然梯度需要在每次迭代中求取Fisher信息矩阵（FIM）的逆矩阵，这在计算上具有本质性的困难。本文提出一种高效且可扩展的自然策略优化技术，该方法利用秩-1近似来替代完整的逆FIM计算。我们从理论上证明，在特定条件下，逆FIM的秩-1近似方法比策略梯度具有更快的收敛速度，并且在某些条件下能达到与随机策略梯度方法相同的样本复杂度。我们在多样化环境基准测试中验证了所提方法，结果表明其性能优于标准的演员-评论家方法与信赖域基线方法。

0

相关内容

梯度的本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。

【ICML2025】免费的Fisher？通过回收平方梯度累加器近似Fisher信息矩阵

【ICML2025】免费的Fisher？通过回收平方梯度累加器近似Fisher信息矩阵

专知会员服务

13+阅读 · 2025年7月28日

逆强化学习算法、理论与应用研究综述

逆强化学习算法、理论与应用研究综述

专知会员服务

63+阅读 · 2023年8月2日

李宏毅老师讲解！《AlphaTensor: 用强化学习找出更有效率的矩阵相乘，附Slides与视频

李宏毅老师讲解！《AlphaTensor: 用强化学习找出更有效率的矩阵相乘，附Slides与视频

专知会员服务

42+阅读 · 2022年10月15日

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

专知会员服务

33+阅读 · 2022年3月4日

通过条件梯度进行结构化机器学习训练，50页ppt与视频

通过条件梯度进行结构化机器学习训练，50页ppt与视频

专知会员服务

13+阅读 · 2021年2月25日

【干货】最新《深度学习优化导论:基于梯度的优化》，252页ppt

【干货】最新《深度学习优化导论:基于梯度的优化》，252页ppt

专知会员服务

63+阅读 · 2020年11月29日

策略梯度方法的算子视图，An operator view of policy gradient methods

策略梯度方法的算子视图，An operator view of policy gradient methods

专知会员服务

11+阅读 · 2020年6月23日

【Google-普林斯顿】从学习速率中解开自适应梯度法，Disentangling Adaptive Gradient

专知会员服务

19+阅读 · 2020年3月5日

【论文推荐】NGBoost:用于概率预测的自然梯度增强（NGBoost: Natural Gradient Boosting for Probabilistic Prediction）

【论文推荐】NGBoost:用于概率预测的自然梯度增强（NGBoost: Natural Gradient Boosting for Probabilistic Prediction）

专知会员服务

18+阅读 · 2019年12月25日

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

专知会员服务

57+阅读 · 2019年11月8日

从泰勒展开来看梯度下降算法

从泰勒展开来看梯度下降算法

深度学习每日摘要

13+阅读 · 2019年4月9日

基于逆强化学习的示教学习方法综述

基于逆强化学习的示教学习方法综述

计算机研究与发展

16+阅读 · 2019年2月25日

2018年深度学习优化算法最新综述

2018年深度学习优化算法最新综述

计算机视觉战队

10+阅读 · 2018年12月11日

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

深度学习与NLP

12+阅读 · 2018年9月13日

深度强化学习在NLP怎么用？看清华黄民烈老师这一份120页《自然语言处理和搜索中的深度强化学习应用》讲义

深度强化学习在NLP怎么用？看清华黄民烈老师这一份120页《自然语言处理和搜索中的深度强化学习应用》讲义

专知

31+阅读 · 2018年9月1日

深度学习中的五大正则化方法和七大优化策略

深度学习中的五大正则化方法和七大优化策略

全球人工智能

11+阅读 · 2017年12月25日

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

量子位

10+阅读 · 2017年12月10日

绝对干货 | 随机梯度下降算法综述

绝对干货 | 随机梯度下降算法综述

菜鸟的机器学习

15+阅读 · 2017年10月30日

精品公开课 | 随机梯度下降算法综述

精品公开课 | 随机梯度下降算法综述

七月在线实验室

13+阅读 · 2017年7月11日

从浅层模型到深度模型：概览机器学习优化算法

从浅层模型到深度模型：概览机器学习优化算法

机器之心

27+阅读 · 2017年7月9日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

24+阅读 · 2015年12月31日

退化Fisher方程解的渐进性研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于秩一张量近似的多目标跟踪

国家自然科学基金

0+阅读 · 2015年12月31日

基于自适应交叉近似的低秩分解算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

分数阶扩散方程反向问题的正则化理论与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

重力/重力梯度补偿水下惯性导航系统理论和算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

随机排队网络的强逼近及其相关渐近分析

国家自然科学基金

0+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

Deterministic Policy Gradient for Reinforcement Learning with Continuous Time and State

Arxiv

0+阅读 · 3月16日

Rethinking Policy Diversity in Ensemble Policy Gradient in Large-Scale Reinforcement Learning

Arxiv

0+阅读 · 3月2日

Policy Gradients for Cumulative Prospect Theory in Reinforcement Learning

Arxiv

0+阅读 · 2月17日

On propagation of chaos for the Fisher-Rao gradient flow in entropic mean-field optimization

Arxiv

0+阅读 · 2月16日

A Policy Iteration Method for Inverse Mean Field Games

Arxiv

0+阅读 · 2月11日

Natural Hypergradient Descent: Algorithm Design, Convergence Analysis, and Parallel Implementation

Arxiv

0+阅读 · 2月11日

Rank-1 Approximation of Inverse Fisher for Natural Policy Gradients in Deep Reinforcement Learning

Arxiv

0+阅读 · 2月11日

A Sketch-and-Project Analysis of Subsampled Natural Gradient Algorithms

Arxiv

0+阅读 · 2月5日

PolicyFlow: Policy Optimization with Continuous Normalizing Flow in Reinforcement Learning

Arxiv

0+阅读 · 2月1日

Approximating $f$-Divergences with Rank Statistics

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

深度强化学习

最新内容

马赛克战：俄乌战场透析

马赛克战：俄乌战场透析

专知会员服务

6+阅读 · 今天4:12

《利用人工智能增强军事决策》

《利用人工智能增强军事决策》

专知会员服务

0+阅读 · 今天4:09

《自动机器学习在军事数据耕耘法中的应用》

《自动机器学习在军事数据耕耘法中的应用》

专知会员服务

2+阅读 · 今天4:02

为何指挥所生存能力要求范式转变

为何指挥所生存能力要求范式转变

专知会员服务

0+阅读 · 今天3:54

打造“新蛛网”模式与高科技动员

打造“新蛛网”模式与高科技动员

专知会员服务

0+阅读 · 今天3:33

“蛛网”行动一周年：远程无人机战争

“蛛网”行动一周年：远程无人机战争

专知会员服务

0+阅读 · 今天3:23

加沙、乌克兰和伊朗冲突：人工智能如何改变冲突

加沙、乌克兰和伊朗冲突：人工智能如何改变冲突

专知会员服务

1+阅读 · 今天3:15

为何“第一次人工智能战争（美以伊冲突）”仍是人类主导的斗争

为何“第一次人工智能战争（美以伊冲突）”仍是人类主导的斗争

专知会员服务

0+阅读 · 今天3:09

【剑桥博士论文】智能体-环境协同优化

【剑桥博士论文】智能体-环境协同优化

专知会员服务

5+阅读 · 6月9日

ACL 2026综述｜多模态基础模型测试时扩展：生成与推理统一框架

ACL 2026综述｜多模态基础模型测试时扩展：生成与推理统一框架

专知会员服务

3+阅读 · 6月9日

《面向国防应用的无人机选型：一种对比性多模糊多准则决策框架》

《面向国防应用的无人机选型：一种对比性多模糊多准则决策框架》

专知会员服务

10+阅读 · 6月9日

无人机战争：从乌克兰到中东战场的沙希德（Shahed）无人机分析

无人机战争：从乌克兰到中东战场的沙希德（Shahed）无人机分析

专知会员服务

7+阅读 · 6月9日

为初级军官战术训练设计生成式人工智能平台

为初级军官战术训练设计生成式人工智能平台

专知会员服务

8+阅读 · 6月9日

《美空军条令出版物 3-40，反大规模杀伤性武器作战》

《美空军条令出版物 3-40，反大规模杀伤性武器作战》

专知会员服务

9+阅读 · 6月9日

《美军条令：作战伤员后送保障》

《美军条令：作战伤员后送保障》

专知会员服务

6+阅读 · 6月9日

相关VIP内容

【ICML2025】免费的Fisher？通过回收平方梯度累加器近似Fisher信息矩阵

【ICML2025】免费的Fisher？通过回收平方梯度累加器近似Fisher信息矩阵

专知会员服务

13+阅读 · 2025年7月28日

逆强化学习算法、理论与应用研究综述

逆强化学习算法、理论与应用研究综述

专知会员服务

63+阅读 · 2023年8月2日

李宏毅老师讲解！《AlphaTensor: 用强化学习找出更有效率的矩阵相乘，附Slides与视频

李宏毅老师讲解！《AlphaTensor: 用强化学习找出更有效率的矩阵相乘，附Slides与视频

专知会员服务

42+阅读 · 2022年10月15日

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

专知会员服务

33+阅读 · 2022年3月4日

通过条件梯度进行结构化机器学习训练，50页ppt与视频

通过条件梯度进行结构化机器学习训练，50页ppt与视频

专知会员服务

13+阅读 · 2021年2月25日

【干货】最新《深度学习优化导论:基于梯度的优化》，252页ppt

【干货】最新《深度学习优化导论:基于梯度的优化》，252页ppt

专知会员服务

63+阅读 · 2020年11月29日

策略梯度方法的算子视图，An operator view of policy gradient methods

策略梯度方法的算子视图，An operator view of policy gradient methods

专知会员服务

11+阅读 · 2020年6月23日

【Google-普林斯顿】从学习速率中解开自适应梯度法，Disentangling Adaptive Gradient

专知会员服务

19+阅读 · 2020年3月5日

【论文推荐】NGBoost:用于概率预测的自然梯度增强（NGBoost: Natural Gradient Boosting for Probabilistic Prediction）

【论文推荐】NGBoost:用于概率预测的自然梯度增强（NGBoost: Natural Gradient Boosting for Probabilistic Prediction）

专知会员服务

18+阅读 · 2019年12月25日

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

专知会员服务

57+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

《利用人工智能增强军事决策》

为何指挥所生存能力要求范式转变

马赛克战：俄乌战场透析

《自动机器学习在军事数据耕耘法中的应用》

相关资讯

从泰勒展开来看梯度下降算法

从泰勒展开来看梯度下降算法

深度学习每日摘要

13+阅读 · 2019年4月9日

基于逆强化学习的示教学习方法综述

基于逆强化学习的示教学习方法综述

计算机研究与发展

16+阅读 · 2019年2月25日

2018年深度学习优化算法最新综述

2018年深度学习优化算法最新综述

计算机视觉战队

10+阅读 · 2018年12月11日

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

深度学习与NLP

12+阅读 · 2018年9月13日

深度强化学习在NLP怎么用？看清华黄民烈老师这一份120页《自然语言处理和搜索中的深度强化学习应用》讲义

深度强化学习在NLP怎么用？看清华黄民烈老师这一份120页《自然语言处理和搜索中的深度强化学习应用》讲义

专知

31+阅读 · 2018年9月1日

深度学习中的五大正则化方法和七大优化策略

深度学习中的五大正则化方法和七大优化策略

全球人工智能

11+阅读 · 2017年12月25日

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

量子位

10+阅读 · 2017年12月10日

绝对干货 | 随机梯度下降算法综述

绝对干货 | 随机梯度下降算法综述

菜鸟的机器学习

15+阅读 · 2017年10月30日

精品公开课 | 随机梯度下降算法综述

精品公开课 | 随机梯度下降算法综述

七月在线实验室

13+阅读 · 2017年7月11日

从浅层模型到深度模型：概览机器学习优化算法

从浅层模型到深度模型：概览机器学习优化算法

机器之心

27+阅读 · 2017年7月9日

相关论文

Deterministic Policy Gradient for Reinforcement Learning with Continuous Time and State

Arxiv

0+阅读 · 3月16日

Rethinking Policy Diversity in Ensemble Policy Gradient in Large-Scale Reinforcement Learning

Arxiv

0+阅读 · 3月2日

Policy Gradients for Cumulative Prospect Theory in Reinforcement Learning

Arxiv

0+阅读 · 2月17日

On propagation of chaos for the Fisher-Rao gradient flow in entropic mean-field optimization

Arxiv

0+阅读 · 2月16日

A Policy Iteration Method for Inverse Mean Field Games

Arxiv

0+阅读 · 2月11日

Natural Hypergradient Descent: Algorithm Design, Convergence Analysis, and Parallel Implementation

Arxiv

0+阅读 · 2月11日

Rank-1 Approximation of Inverse Fisher for Natural Policy Gradients in Deep Reinforcement Learning

Arxiv

0+阅读 · 2月11日

A Sketch-and-Project Analysis of Subsampled Natural Gradient Algorithms

Arxiv

0+阅读 · 2月5日

PolicyFlow: Policy Optimization with Continuous Normalizing Flow in Reinforcement Learning

Arxiv

0+阅读 · 2月1日

Approximating $f$-Divergences with Rank Statistics

Arxiv

0+阅读 · 1月30日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

24+阅读 · 2015年12月31日

退化Fisher方程解的渐进性研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于秩一张量近似的多目标跟踪

国家自然科学基金

0+阅读 · 2015年12月31日

基于自适应交叉近似的低秩分解算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

分数阶扩散方程反向问题的正则化理论与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

重力/重力梯度补偿水下惯性导航系统理论和算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

随机排队网络的强逼近及其相关渐近分析

国家自然科学基金

0+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员