成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
奖励塑形
关注
0
综合
百科
VIP
热门
动态
论文
精华
Confounding Robust Continuous Control via Automatic Reward Shaping
Arxiv
0+阅读 · 2月10日
GTPO and GRPO-S: Token and Sequence-Level Reward Shaping with Policy Entropy
Arxiv
0+阅读 · 2月5日
Reward Shaping to Mitigate Reward Hacking in RLHF
Arxiv
0+阅读 · 1月21日
Enhancing Agentic RL with Progressive Reward Shaping and Value-based Sampling Policy Optimization
Arxiv
0+阅读 · 1月20日
Reward Shaping to Mitigate Reward Hacking in RLHF
Arxiv
0+阅读 · 1月8日
Robo-Dopamine: General Process Reward Modeling for High-Precision Robotic Manipulation
Arxiv
0+阅读 · 2025年12月29日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top