Offline reinforcement learning (RL) is a variant of RL where the policy is learned from a previously collected dataset of trajectories and rewards. In our work, we propose a practical approach to offline RL with large language models (LLMs). We recast the problem as reward-weighted fine-tuning, which can be solved using similar techniques to supervised fine-tuning (SFT). To showcase the value of our approach, we apply it to learning short-horizon question-answering policies of a fixed length, where the agent reasons about potential answers or asks clarifying questions. Our work stands in a stark contrast to state-of-the-art methods in this domain, based on SFT and direct preference optimization, which have additional hyper-parameters and do not directly optimize for rewards. We compare to them empirically, and report major gains in both optimized rewards and language quality.


翻译:离线强化学习(RL)是强化学习的一种变体,其策略从先前收集的轨迹与奖励数据集中学习。在本研究中,我们提出了一种针对大型语言模型(LLM)的实用离线强化学习方法。我们将该问题重新定义为奖励加权微调问题,该问题可采用与监督微调(SFT)相似的技术求解。为展示本方法的实用价值,我们将其应用于学习固定长度的短时域问答策略,其中智能体对潜在答案进行推理或提出澄清性问题。本研究与该领域基于监督微调与直接偏好优化的前沿方法形成鲜明对比——这些方法存在额外超参数且不直接优化奖励函数。我们通过实证比较,在优化奖励与语言质量两方面均取得了显著提升。

0
下载
关闭预览

相关内容

大语言模型的强化学习技术综述
专知会员服务
40+阅读 · 2025年7月8日
离线强化学习研究综述
专知会员服务
38+阅读 · 2025年1月12日
强化学习增强的大型语言模型:综述
专知会员服务
52+阅读 · 2024年12月17日
基于表征学习的离线强化学习方法研究综述
专知会员服务
29+阅读 · 2024年7月2日
【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战,80页ppt
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT博士论文】数据高效强化学习,176页pdf
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
VIP会员
相关VIP内容
大语言模型的强化学习技术综述
专知会员服务
40+阅读 · 2025年7月8日
离线强化学习研究综述
专知会员服务
38+阅读 · 2025年1月12日
强化学习增强的大型语言模型:综述
专知会员服务
52+阅读 · 2024年12月17日
基于表征学习的离线强化学习方法研究综述
专知会员服务
29+阅读 · 2024年7月2日
【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战,80页ppt
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员