策略梯度论文 - 专知

会员服务 ·

策略梯度

Where-to-Learn: Analytical Policy Gradient Directed Exploration for On-Policy Robotic Reinforcement Learning

Arxiv

0+阅读 · 4月1日

Global Optimality for Constrained Exploration via Penalty Regularization

Arxiv

0+阅读 · 4月30日

Strongly-polynomial time and validation analysis of policy gradient methods

Arxiv

0+阅读 · 3月21日

When Errors Can Be Beneficial: A Categorization of Imperfect Rewards for Policy Gradient

Arxiv

0+阅读 · 4月28日

Asynchronous Policy Gradient Aggregation for Efficient Distributed Reinforcement Learning

Arxiv

0+阅读 · 3月28日

Delightful Policy Gradient

Arxiv

0+阅读 · 3月15日

Deterministic Policy Gradient for Reinforcement Learning with Continuous Time and State

Arxiv

0+阅读 · 3月16日

Policy Gradient Algorithms in Average-Reward Multichain MDPs

Arxiv

0+阅读 · 2月20日

Rethinking Policy Diversity in Ensemble Policy Gradient in Large-Scale Reinforcement Learning

Arxiv

0+阅读 · 3月2日

Taming the Adversary: Stable Minimax Deep Deterministic Policy Gradient via Fractional Objectives

Taming the Adversary: Stable Minimax Deep Deterministic Policy Gradient via Fractional Objectives

Arxiv

0+阅读 · 3月12日

Descent-Guided Policy Gradient for Scalable Cooperative Multi-Agent Learning

Arxiv

0+阅读 · 2月23日

Cooperative Game-Theoretic Credit Assignment for Multi-Agent Policy Gradients via the Core

Arxiv

0+阅读 · 3月10日

Demystifying Group Relative Policy Optimization: Its Policy Gradient is a U-Statistic

Arxiv

0+阅读 · 3月3日

On the Design of KL-Regularized Policy Gradient Algorithms for LLM Reasoning

Arxiv

0+阅读 · 2月19日

Stable Asynchrony: Variance-Controlled Off-Policy RL for LLMs

Stable Asynchrony: Variance-Controlled Off-Policy RL for LLMs

Arxiv

0+阅读 · 2月19日

参考链接

微信扫码咨询专知VIP会员