A Novel Framework for Policy Mirror Descent with General Parametrization and Linear Convergence - 专知论文

会员服务 ·

0

线性的 · 优化器 · 泛函 · 价值函数 · Softmax ·

2023 年 1 月 30 日

A Novel Framework for Policy Mirror Descent with General Parametrization and Linear Convergence

翻译：一种基于一般参数化且具有线性收敛速度的策略镜像下降新框架

Carlo Alfano,Rui Yuan,Patrick Rebeschini

Modern policy optimization methods in applied reinforcement learning are often inspired by the trust region policy optimization algorithm, which can be interpreted as a particular instance of policy mirror descent. While theoretical guarantees have been established for this framework, particularly in the tabular setting, the use of a general parametrization scheme remains mostly unjustified. In this work, we introduce a novel framework for policy optimization based on mirror descent that naturally accommodates general parametrizations. The policy class induced by our scheme recovers known classes, e.g. tabular softmax, log-linear, and neural policies. It also generates new ones, depending on the choice of the mirror map. For a general mirror map and parametrization function, we establish the quasi-monotonicity of the updates in value function, global linear convergence rates, and we bound the total variation of the algorithm along its path. To showcase the ability of our framework to accommodate general parametrization schemes, we present a case study involving shallow neural networks.

翻译：现代应用强化学习中的策略优化方法常受信任区域策略优化算法启发，该算法可视为策略镜像下降的一个特例。尽管该框架（尤其在表格设定下）已建立了理论保证，但其在一般参数化方案下的适用性仍缺乏充分论证。本文提出一种基于镜像下降的新型策略优化框架，能自然兼容一般参数化形式。该方案诱导的策略类可恢复已知类别（如表格softmax、对数线性策略和神经网络策略），同时根据镜像映射的选择生成新策略类。针对一般镜像映射与参数化函数，我们证明了值函数更新的拟单调性、全局线性收敛速率，并界定了算法路径上的总变差。为展示本框架对一般参数化方案的兼容能力，我们以浅层神经网络为例进行了案例研究。

0

相关内容

线性的

不可错过！《机器学习100讲》课程，UBC Mark Schmidt讲授

不可错过！《机器学习100讲》课程，UBC Mark Schmidt讲授

专知会员服务

76+阅读 · 2022年6月28日

不可错过！UIUC最新《统计强化学习》课程！

专知会员服务

55+阅读 · 2020年9月7日

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

专知会员服务

96+阅读 · 2020年3月12日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

37+阅读 · 2019年10月17日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

61+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

【哈佛大学商学院课程Fall 2019】机器学习可解释性

【哈佛大学商学院课程Fall 2019】机器学习可解释性

专知会员服务

106+阅读 · 2019年10月9日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

VCIP 2022 Call for Special Session Proposals

VCIP 2022 Call for Special Session Proposals

CCF多媒体专委会

1+阅读 · 2022年4月1日

IEEE ICKG 2022: Call for Papers

IEEE ICKG 2022: Call for Papers

机器学习与推荐算法

3+阅读 · 2022年3月30日

ACM MM 2022 Call for Papers

ACM MM 2022 Call for Papers

CCF多媒体专委会

5+阅读 · 2022年3月29日

AIART 2022 Call for Papers

AIART 2022 Call for Papers

CCF多媒体专委会

1+阅读 · 2022年2月13日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

黎曼流形上 Ricci 曲率的几何

国家自然科学基金

3+阅读 · 2015年12月31日

分数阶非线性偏微分方程的相关数学问题

国家自然科学基金

0+阅读 · 2014年12月31日

有丝分裂中Cdc20与相关调控蛋白的复合体结构与功能研究

国家自然科学基金

0+阅读 · 2014年12月31日

非线性ODE-PDE耦合系统的模糊建模与控制

国家自然科学基金

0+阅读 · 2014年12月31日

高阶非线性发展方程的整体吸引子与数值解法

国家自然科学基金

0+阅读 · 2013年12月31日

某些耦合系统的控制问题

国家自然科学基金

0+阅读 · 2013年12月31日

Schrodinger-Poisson方程的若干问题研究

国家自然科学基金

1+阅读 · 2012年12月31日

固态去合金化过程中纳米多孔金属的形成、结构及催化性能研究

国家自然科学基金

1+阅读 · 2012年12月31日

软骨细胞生长相关miRNA、C/EBPβ和Runx2循环协控促进梯度材料复合ADSCs成软骨分化的机制

国家自然科学基金

0+阅读 · 2011年12月31日

雌激素促进乳腺癌细胞侵袭和转移的miRNA调控网络及分子机制

国家自然科学基金

0+阅读 · 2009年12月31日

Convergence of stochastic gradient descent on parameterized sphere with applications to variational Monte Carlo simulation

Arxiv

0+阅读 · 2023年3月21日

Policy Mirror Descent Inherently Explores Action Space

Arxiv

0+阅读 · 2023年3月21日

Symmetric (Optimistic) Natural Policy Gradient for Multi-agent Learning with Parameter Convergence

Arxiv

0+阅读 · 2023年3月20日

Nonparametric Simulation Extrapolation for Measurement Error Models

Arxiv

0+阅读 · 2023年3月20日

Transport Dependency: Optimal Transport Based Dependency Measures

Arxiv

0+阅读 · 2023年3月20日

Mean-square convergence rates of implicit Milstein type methods for SDEs with non-Lipschitz coefficients

Arxiv

0+阅读 · 2023年3月19日

Pathwise Uniform Convergence of Time Discretisation Schemes for SPDEs

Arxiv

0+阅读 · 2023年3月17日

Towards AI-controlled FES-restoration of arm movements: Controlling for progressive muscular fatigue with Gaussian state-space models

Arxiv

0+阅读 · 2023年3月17日

SE-GSL: A General and Effective Graph Structure Learning Framework through Structural Entropy Optimization

Arxiv

0+阅读 · 2023年3月17日

Policy/mechanism separation in the Warehouse-Scale OS

Arxiv

0+阅读 · 2023年3月17日

VIP会员

文章信息

相关主题

最新内容

《远程自主系统可扩展态势感知的解决方案》32页2026最新报告

《远程自主系统可扩展态势感知的解决方案》32页2026最新报告

专知会员服务

4+阅读 · 7月23日

《基于强化学习的自动化红队测试》

《基于强化学习的自动化红队测试》

专知会员服务

3+阅读 · 7月23日

《下一代无人机-卫星通信：人工智能创新与未来展望》32页长综述

《下一代无人机-卫星通信：人工智能创新与未来展望》32页长综述

专知会员服务

6+阅读 · 7月23日

“天降毒雾”：无人机如何使化学战重返乌克兰战场

“天降毒雾”：无人机如何使化学战重返乌克兰战场

专知会员服务

2+阅读 · 7月23日

伊朗不对称防空战略的演进

伊朗不对称防空战略的演进

专知会员服务

4+阅读 · 7月23日

对抗环境下超视距目标打击的情报支援

对抗环境下超视距目标打击的情报支援

专知会员服务

10+阅读 · 7月22日

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

专知会员服务

4+阅读 · 7月22日

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

专知会员服务

8+阅读 · 7月22日

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

专知会员服务

10+阅读 · 7月22日

《无人机对海面作战影响评估》

《无人机对海面作战影响评估》

专知会员服务

15+阅读 · 7月21日

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

15+阅读 · 7月21日

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

4+阅读 · 7月21日

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

6+阅读 · 7月21日

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

9+阅读 · 7月21日

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

7+阅读 · 7月20日

相关VIP内容

不可错过！《机器学习100讲》课程，UBC Mark Schmidt讲授

不可错过！《机器学习100讲》课程，UBC Mark Schmidt讲授

专知会员服务

76+阅读 · 2022年6月28日

不可错过！UIUC最新《统计强化学习》课程！

专知会员服务

55+阅读 · 2020年9月7日

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

专知会员服务

96+阅读 · 2020年3月12日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

37+阅读 · 2019年10月17日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

61+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

【哈佛大学商学院课程Fall 2019】机器学习可解释性

【哈佛大学商学院课程Fall 2019】机器学习可解释性

专知会员服务

106+阅读 · 2019年10月9日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

《基于强化学习的自动化红队测试》

“天降毒雾”：无人机如何使化学战重返乌克兰战场

《远程自主系统可扩展态势感知的解决方案》32页2026最新报告

《下一代无人机-卫星通信：人工智能创新与未来展望》32页长综述

相关资讯

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

VCIP 2022 Call for Special Session Proposals

VCIP 2022 Call for Special Session Proposals

CCF多媒体专委会

1+阅读 · 2022年4月1日

IEEE ICKG 2022: Call for Papers

IEEE ICKG 2022: Call for Papers

机器学习与推荐算法

3+阅读 · 2022年3月30日

ACM MM 2022 Call for Papers

ACM MM 2022 Call for Papers

CCF多媒体专委会

5+阅读 · 2022年3月29日

AIART 2022 Call for Papers

AIART 2022 Call for Papers

CCF多媒体专委会

1+阅读 · 2022年2月13日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

相关论文

Convergence of stochastic gradient descent on parameterized sphere with applications to variational Monte Carlo simulation

Arxiv

0+阅读 · 2023年3月21日

Policy Mirror Descent Inherently Explores Action Space

Arxiv

0+阅读 · 2023年3月21日

Symmetric (Optimistic) Natural Policy Gradient for Multi-agent Learning with Parameter Convergence

Arxiv

0+阅读 · 2023年3月20日

Nonparametric Simulation Extrapolation for Measurement Error Models

Arxiv

0+阅读 · 2023年3月20日

Transport Dependency: Optimal Transport Based Dependency Measures

Arxiv

0+阅读 · 2023年3月20日

Mean-square convergence rates of implicit Milstein type methods for SDEs with non-Lipschitz coefficients

Arxiv

0+阅读 · 2023年3月19日

Pathwise Uniform Convergence of Time Discretisation Schemes for SPDEs

Arxiv

0+阅读 · 2023年3月17日

Towards AI-controlled FES-restoration of arm movements: Controlling for progressive muscular fatigue with Gaussian state-space models

Arxiv

0+阅读 · 2023年3月17日

SE-GSL: A General and Effective Graph Structure Learning Framework through Structural Entropy Optimization

Arxiv

0+阅读 · 2023年3月17日

Policy/mechanism separation in the Warehouse-Scale OS

Arxiv

0+阅读 · 2023年3月17日

相关基金

黎曼流形上 Ricci 曲率的几何

国家自然科学基金

3+阅读 · 2015年12月31日

分数阶非线性偏微分方程的相关数学问题

国家自然科学基金

0+阅读 · 2014年12月31日

有丝分裂中Cdc20与相关调控蛋白的复合体结构与功能研究

国家自然科学基金

0+阅读 · 2014年12月31日

非线性ODE-PDE耦合系统的模糊建模与控制

国家自然科学基金

0+阅读 · 2014年12月31日

高阶非线性发展方程的整体吸引子与数值解法

国家自然科学基金

0+阅读 · 2013年12月31日

某些耦合系统的控制问题

国家自然科学基金

0+阅读 · 2013年12月31日

Schrodinger-Poisson方程的若干问题研究

国家自然科学基金

1+阅读 · 2012年12月31日

固态去合金化过程中纳米多孔金属的形成、结构及催化性能研究

国家自然科学基金

1+阅读 · 2012年12月31日

软骨细胞生长相关miRNA、C/EBPβ和Runx2循环协控促进梯度材料复合ADSCs成软骨分化的机制

国家自然科学基金

0+阅读 · 2011年12月31日

雌激素促进乳腺癌细胞侵袭和转移的miRNA调控网络及分子机制

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员