精品内容

深度强化学习中的奖励模型:综述
专知会员服务
29+阅读 · 2025年6月20日
【ICML2025】关于语言模型对齐中奖励模型稳健性的研究
专知会员服务
14+阅读 · 2025年5月13日
参考链接
微信扫码咨询专知VIP会员