成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
策略梯度
关注
13
综合
百科
VIP
热门
动态
论文
精华
On the Design of KL-Regularized Policy Gradient Algorithms for LLM Reasoning
Arxiv
0+阅读 · 2月19日
Stable Asynchrony: Variance-Controlled Off-Policy RL for LLMs
Arxiv
0+阅读 · 2月19日
Shrinking the Variance: Shrinkage Baselines for Reinforcement Learning with Verifiable Rewards
Arxiv
0+阅读 · 2月18日
ETGL-DDPG: A Deep Deterministic Policy Gradient Algorithm for Sparse Reward Continuous Control
Arxiv
0+阅读 · 2月17日
Policy Gradients for Cumulative Prospect Theory in Reinforcement Learning
Arxiv
0+阅读 · 2月17日
Rank-1 Approximation of Inverse Fisher for Natural Policy Gradients in Deep Reinforcement Learning
Arxiv
0+阅读 · 2月8日
Rank-1 Approximation of Inverse Fisher for Natural Policy Gradients in Deep Reinforcement Learning
Arxiv
0+阅读 · 2月11日
A Multi-Fidelity Control Variate Approach for Policy Gradient Estimation
Arxiv
0+阅读 · 2月12日
Beyond Token-Level Policy Gradients for Complex Reasoning with Large Language Models
Arxiv
0+阅读 · 2月16日
Implicit Actor Critic Coupling via a Supervised Learning Framework for RLVR
Arxiv
0+阅读 · 2月16日
Policy Gradient with Adaptive Entropy Annealing for Continual Fine-Tuning
Arxiv
0+阅读 · 2月15日
Beyond Uniform Credit: Causal Credit Assignment for Policy Optimization
Arxiv
0+阅读 · 2月10日
A Policy Gradient-Based Sequence-to-Sequence Method for Time Series Prediction
Arxiv
0+阅读 · 2月5日
EMA Policy Gradient: Taming Reinforcement Learning for LLMs with EMA Anchor and Top-k KL
Arxiv
0+阅读 · 2月4日
Rethinking the Design Space of Reinforcement Learning for Diffusion Models: On the Importance of Likelihood Estimation Beyond Loss Design
Arxiv
0+阅读 · 2月4日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top