强化学习算法论文 - 专知

会员服务 ·

强化学习算法

强化学习算法

Ego-Foresight: Self-supervised Learning of Agent-Aware Representations for Improved RL

Arxiv

0+阅读 · 4月1日

Robust Exploratory Stopping under Ambiguity in Reinforcement Learning

Arxiv

0+阅读 · 4月16日

Efficient Soft Actor-Critic with LLM-Based Action-Level Guidance for Continuous Control

Arxiv

0+阅读 · 3月18日

Selecting Offline Reinforcement Learning Algorithms for Stochastic Network Control

Arxiv

0+阅读 · 3月4日

CAE: Repurposing the Critic as an Explorer in Deep Reinforcement Learning

Arxiv

0+阅读 · 2月20日

f-GRPO and Beyond: Divergence-Based Reinforcement Learning Algorithms for General LLM Alignment

Arxiv

0+阅读 · 2月9日

A Review of Online Diffusion Policy RL Algorithms for Scalable Robotic Control

Arxiv

0+阅读 · 2月9日

$f$-GRPO and Beyond: Divergence-Based Reinforcement Learning Algorithms for General LLM Alignment

$f$-GRPO and Beyond: Divergence-Based Reinforcement Learning Algorithms for General LLM Alignment

Arxiv

0+阅读 · 2月5日

Prompt Augmentation Scales up GRPO Training on Mathematical Reasoning

Arxiv

0+阅读 · 2月5日

The Enhanced Physics-Informed Kolmogorov-Arnold Networks: Applications of Newton's Laws in Financial Deep Reinforcement Learning (RL) Algorithms

Arxiv

0+阅读 · 2月5日

An Approximate Ascent Approach To Prove Convergence of PPO

Arxiv

0+阅读 · 2月3日

PolicyFlow: Policy Optimization with Continuous Normalizing Flow in Reinforcement Learning

Arxiv

0+阅读 · 2月1日

Prompt Augmentation Scales up GRPO Training on Mathematical Reasoning

Arxiv

0+阅读 · 2月3日

The Enhanced Physics-Informed Kolmogorov-Arnold Networks: Applications of Newton's Laws in Financial Deep Reinforcement Learning (RL) Algorithms

Arxiv

0+阅读 · 2月1日

TL-GRPO: Turn-Level RL for Reasoning-Guided Iterative Optimization

Arxiv

0+阅读 · 1月23日

参考链接

微信扫码咨询专知VIP会员