精品内容

【ICML2025】从混淆的离线数据中自动构造奖励函数
专知会员服务
9+阅读 · 2025年5月22日
【博士论文】强化学习智能体的奖励函数设计
专知会员服务
48+阅读 · 2025年4月8日
【阿里千问】在数学推理中开发过程奖励模型的经验教训
【伯克利博士论文】以人为中心的奖励设计
专知会员服务
28+阅读 · 2024年9月23日
参考链接
微信扫码咨询专知VIP会员