稀疏奖励论文 - 专知

会员服务 ·

稀疏奖励

ExpRL: Exploratory RL for LLM Mid-Training

Arxiv

0+阅读 · 6月15日

ARMS: Automatic Reward Shaping for Sparse-Reward Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 5月22日

$π$-Play: Multi-Agent Self-Play via Privileged Self-Distillation without External Data

Arxiv

0+阅读 · 4月15日

Reason in Chains, Learn in Trees: Self-Rectification and Grafting for Multi-turn Agent Policy Optimization

Arxiv

0+阅读 · 4月8日

ARM: Advantage Reward Modeling for Long-Horizon Manipulation

Arxiv

0+阅读 · 4月3日

Actor-Critic for Continuous Action Chunks: A Reinforcement Learning Framework for Long-Horizon Robotic Manipulation with Sparse Reward

Arxiv

0+阅读 · 2月27日

Wonder Wins Ways: Curiosity-Driven Exploration through Multi-Agent Contextual Calibration

Arxiv

0+阅读 · 2月22日

From Contextual Combinatorial Semi-Bandits to Bandit List Classification: Improved Sample Complexity with Sparse Rewards

Arxiv

0+阅读 · 2月23日

ETGL-DDPG: A Deep Deterministic Policy Gradient Algorithm for Sparse Reward Continuous Control

Arxiv

0+阅读 · 2月17日

Enabling Option Learning in Sparse Rewards with Hindsight Experience Replay

Arxiv

0+阅读 · 2月14日

Alleviating Sparse Rewards by Modeling Step-Wise and Long-Term Sampling Effects in Flow-Based GRPO

Arxiv

0+阅读 · 2月6日

Goldilocks RL: Tuning Task Difficulty to Escape Sparse Rewards for Reasoning

Arxiv

0+阅读 · 2月16日

Beyond Rewards in Reinforcement Learning for Cyber Defence

Arxiv

0+阅读 · 2月12日

Beyond Rewards in Reinforcement Learning for Cyber Defence

Arxiv

0+阅读 · 2月4日

Driving Beyond Privilege: Distilling Dense-Reward Knowledge into Sparse-Reward Policies

Arxiv

0+阅读 · 2025年12月27日

参考链接

微信扫码咨询专知VIP会员