奖励塑形论文 - 专知

会员服务 ·

奖励塑形

ARMS: Automatic Reward Shaping for Sparse-Reward Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 5月22日

Occupancy Reward Shaping: Improving Credit Assignment for Offline Goal-Conditioned Reinforcement Learning

Arxiv

0+阅读 · 4月22日

MVR: Multi-view Video Reward Shaping for Reinforcement Learning

Arxiv

0+阅读 · 3月2日

The Art of Efficient Reasoning: Data, Reward, and Optimization

Arxiv

0+阅读 · 2月24日

Search-P1: Path-Centric Reward Shaping for Stable and Efficient Agentic RAG Training

Arxiv

0+阅读 · 2月26日

Confounding Robust Continuous Control via Automatic Reward Shaping

Arxiv

0+阅读 · 2月10日

GTPO and GRPO-S: Token and Sequence-Level Reward Shaping with Policy Entropy

Arxiv

0+阅读 · 2月5日

Reward Shaping to Mitigate Reward Hacking in RLHF

Arxiv

0+阅读 · 1月21日

Enhancing Agentic RL with Progressive Reward Shaping and Value-based Sampling Policy Optimization

Arxiv

0+阅读 · 1月20日

Reward Shaping to Mitigate Reward Hacking in RLHF

Arxiv

0+阅读 · 1月8日

Robo-Dopamine: General Process Reward Modeling for High-Precision Robotic Manipulation

Arxiv

0+阅读 · 2025年12月29日

参考链接

微信扫码咨询专知VIP会员