As humans increasingly share environments with diverse agents powered by RL, LLMs, and beyond, the ability to explain agent policies in natural language is vital for reliable coexistence. We introduce a general-purpose framework that trains explanation-generating LLMs via reinforcement learning from AI feedback, with distributional rewards generated by generative continuous normalizing flows (CNFs). CNFs capture the pluralistic and probabilistic nature of human judgments about explanations. Moreover, under mild assumptions, CNFs provably bound deviations from true human reward distributions when trained on noisy proxy rewards from LLMs. We design a specialized CNF architecture that selectively attends to linguistic cues in the decision context and explanations when generating rewards. Human and LLM evaluators find that our method delivers explanations that enable more accurate predictions of true agent decisions, exhibit greater logical soundness and actionability, and impose lower cognitive load than explanations trained with proxy LLM rewards or state-of-the-art RLHF and RLAIF baselines.


翻译:随着人类日益频繁地与由强化学习、大语言模型及其他技术驱动的多样化智能体共享环境,用自然语言解释智能体策略的能力对于实现可靠的共存至关重要。本文提出了一种通用框架,该框架通过基于人工智能反馈的强化学习来训练生成解释的大语言模型,其分布奖励由生成式连续归一化流生成。连续归一化流能够捕捉人类对解释判断的多元化和概率性本质。此外,在温和的假设下,当使用来自大语言模型的噪声代理奖励进行训练时,连续归一化流可证明地约束了与真实人类奖励分布的偏差。我们设计了一种专门的连续归一化流架构,该架构在生成奖励时选择性地关注决策上下文和解释中的语言线索。人类与大语言模型评估者均发现,与使用代理大语言模型奖励或最先进的基于人类反馈的强化学习和基于人工智能反馈的强化学习基线训练的解释相比,我们的方法生成的解释能使人更准确地预测真实智能体决策,展现出更强的逻辑严谨性与可操作性,并施加更低的认知负荷。

0
下载
关闭预览

相关内容

《多智能体大语言模型系统的可靠决策研究》
专知会员服务
31+阅读 · 2月2日
大语言模型在规划与调度问题上的应用
专知会员服务
51+阅读 · 2025年1月12日
《以人为中心的大型语言模型(LLM)研究综述》
专知会员服务
41+阅读 · 2024年11月25日
大语言模型算法演进综述
专知会员服务
81+阅读 · 2024年5月30日
大语言模型视角下的智能规划方法综述
专知会员服务
136+阅读 · 2024年4月20日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
18+阅读 · 2020年9月1日
自然语言生成资源列表
专知
17+阅读 · 2020年1月4日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关VIP内容
《多智能体大语言模型系统的可靠决策研究》
专知会员服务
31+阅读 · 2月2日
大语言模型在规划与调度问题上的应用
专知会员服务
51+阅读 · 2025年1月12日
《以人为中心的大型语言模型(LLM)研究综述》
专知会员服务
41+阅读 · 2024年11月25日
大语言模型算法演进综述
专知会员服务
81+阅读 · 2024年5月30日
大语言模型视角下的智能规划方法综述
专知会员服务
136+阅读 · 2024年4月20日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员