精品内容

面向视觉的强化学习综述
专知会员服务
21+阅读 · 2025年8月12日
《直接偏好优化研究综述》
专知会员服务
31+阅读 · 2025年3月18日
【博士论文】朝向大规模语言模型的原则性训练与服务
专知会员服务
10+阅读 · 2025年2月10日
【教程】通过人类反馈的强化学习,77页ppt
专知会员服务
38+阅读 · 2024年10月5日
大型语言模型对齐技术综述:RLHF、RLAIF、PPO、DPO 等
专知会员服务
55+阅读 · 2024年7月24日
直接偏好优化:一种新的RLHF方法,87页ppt
专知会员服务
43+阅读 · 2024年6月10日
基于人工反馈的强化学习综述
专知会员服务
65+阅读 · 2023年12月25日
ChatGPT大模型技术发展与应用
专知会员服务
133+阅读 · 2023年12月3日
参考链接
微信扫码咨询专知VIP会员