MulFeRL: Enhancing Reinforcement Learning with Verbal Feedback in a Multi-turn Loop - 专知论文

会员服务 ·

0

样本 · 强化学习 · 多领域 · 标量 · 稀疏 ·

MulFeRL: Enhancing Reinforcement Learning with Verbal Feedback in a Multi-turn Loop

翻译：MulFeRL：在多轮循环中利用语言反馈增强强化学习

Xuancheng Li,Haitao Li,Yujia Zhou, YiqunLiu,Qingyao Ai

Reinforcement Learning with Verifiable Rewards (RLVR) is widely used to improve reasoning in multiple domains, yet outcome-only scalar rewards are often sparse and uninformative, especially on failed samples, where they merely indicate failure and provide no insight into why the reasoning fails. In this paper, we investigate how to leverage richer verbal feedback to guide RLVR training on failed samples, and how to convert such feedback into a trainable learning signal. Specifically, we propose a multi-turn feedback-guided reinforcement learning framework. It builds on three mechanisms: (1) dynamic multi-turn regeneration guided by feedback, triggered only on failed samples, (2) two complementary learning signals for within-turn and cross-turn optimization, and (3) structured feedback injection into the model's reasoning process. Trained on sampled OpenR1-Math, the approach outperforms supervised fine-tuning and RLVR baselines in-domain and generalizes well out-of-domain.

翻译：可验证奖励强化学习（RLVR）被广泛应用于提升多领域推理能力，然而仅基于结果的标量奖励通常稀疏且信息量不足，尤其在失败样本上，它们仅能指示失败而无法揭示推理失败的原因。本文研究了如何利用更丰富的语言反馈来指导失败样本上的RLVR训练，以及如何将此类反馈转化为可训练的学习信号。具体而言，我们提出了一种多轮反馈引导的强化学习框架。该框架基于三种机制构建：（1）由反馈引导的动态多轮再生机制，仅在失败样本上触发；（2）用于轮内优化与跨轮优化的两种互补学习信号；（3）将结构化反馈注入模型推理过程的方法。在采样的OpenR1-Math数据集上进行训练后，该方法在领域内表现优于监督微调和RLVR基线，并在领域外展现出良好的泛化能力。

0

相关内容

【AAAI2026】善始则事半功倍：基于前缀优化的大语言模型推理强化学习

【AAAI2026】善始则事半功倍：基于前缀优化的大语言模型推理强化学习

专知会员服务

13+阅读 · 2025年12月19日

【博士论文】强化学习智能体的奖励函数设计

【博士论文】强化学习智能体的奖励函数设计

专知会员服务

48+阅读 · 2025年4月8日

【Nathan Lambert新书】从人类反馈中进行强化学习: 关于语言模型的RLHF及后训练阶段的简要介绍

【Nathan Lambert新书】从人类反馈中进行强化学习: 关于语言模型的RLHF及后训练阶段的简要介绍

专知会员服务

29+阅读 · 2025年4月7日

基于人工反馈的强化学习综述

基于人工反馈的强化学习综述

专知会员服务

65+阅读 · 2023年12月25日

100页HuggingFace等《通过人类反馈的强化学习（RLHF）》教程讲解

100页HuggingFace等《通过人类反馈的强化学习（RLHF）》教程讲解

专知会员服务

87+阅读 · 2023年12月3日

【ETHZ博士论文】基于人类反馈的安全高效强化学习算法基础， 258页pdf

【ETHZ博士论文】基于人类反馈的安全高效强化学习算法基础， 258页pdf

专知会员服务

52+阅读 · 2023年10月8日

132页HuggingFace等《通过人类反馈的强化学习（RLHF）》教程讲解

132页HuggingFace等《通过人类反馈的强化学习（RLHF）》教程讲解

专知会员服务

77+阅读 · 2023年8月27日

【ICML2023】在受限逆强化学习中的可识别性和泛化能力

【ICML2023】在受限逆强化学习中的可识别性和泛化能力

专知会员服务

26+阅读 · 2023年6月5日

基于模型的强化学习综述

基于模型的强化学习综述

专知会员服务

149+阅读 · 2022年7月13日

强化学习如何用于推荐？厦大最新《强化学习推荐系统》综述论文，25页pdf156篇文献论述五种典型RL推荐方法

专知会员服务

80+阅读 · 2021年9月23日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

32+阅读 · 2022年11月12日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

关于强化学习（附代码，练习和解答）

关于强化学习（附代码，练习和解答）

深度学习

38+阅读 · 2018年1月30日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

小鼠锰离子增强脑成像（MEMRI）数据分析算法研究及应用

国家自然科学基金

0+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

LongRLVR: Long-Context Reinforcement Learning Requires Verifiable Context Rewards

Arxiv

0+阅读 · 3月2日

Gradient Regularization Prevents Reward Hacking in Reinforcement Learning from Human Feedback and Verifiable Rewards

Arxiv

0+阅读 · 2月20日

Efficient Reinforcement Learning for Large Language Models with Intrinsic Exploration

Arxiv

0+阅读 · 2月19日

On the Learning Dynamics of RLVR at the Edge of Competence

Arxiv

0+阅读 · 2月16日

Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language Models

Arxiv

0+阅读 · 2月12日

FaithRL: Learning to Reason Faithfully through Step-Level Faithfulness Maximization

Arxiv

0+阅读 · 2月12日

On the optimization dynamics of RLVR: Gradient gap and step size thresholds

Arxiv

0+阅读 · 2月11日

No Prompt Left Behind: Exploiting Zero-Variance Prompts in LLM Reinforcement Learning via Entropy-Guided Advantage Shaping

Arxiv

0+阅读 · 2月9日

ALIVE: Awakening LLM Reasoning via Adversarial Learning and Instructive Verbal Evaluation

Arxiv

0+阅读 · 2月5日

Beyond Variance: Prompt-Efficient RLVR via Rare-Event Amplification and Bidirectional Pairing

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

最新内容

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

0+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

0+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

3+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

3+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

7+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

4+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

5+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

5+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

10+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

5+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

5+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

7+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

5+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

6+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

8+阅读 · 5月29日

相关VIP内容

【AAAI2026】善始则事半功倍：基于前缀优化的大语言模型推理强化学习

【AAAI2026】善始则事半功倍：基于前缀优化的大语言模型推理强化学习

专知会员服务

13+阅读 · 2025年12月19日

【博士论文】强化学习智能体的奖励函数设计

【博士论文】强化学习智能体的奖励函数设计

专知会员服务

48+阅读 · 2025年4月8日

【Nathan Lambert新书】从人类反馈中进行强化学习: 关于语言模型的RLHF及后训练阶段的简要介绍

【Nathan Lambert新书】从人类反馈中进行强化学习: 关于语言模型的RLHF及后训练阶段的简要介绍

专知会员服务

29+阅读 · 2025年4月7日

基于人工反馈的强化学习综述

基于人工反馈的强化学习综述

专知会员服务

65+阅读 · 2023年12月25日

100页HuggingFace等《通过人类反馈的强化学习（RLHF）》教程讲解

100页HuggingFace等《通过人类反馈的强化学习（RLHF）》教程讲解

专知会员服务

87+阅读 · 2023年12月3日

【ETHZ博士论文】基于人类反馈的安全高效强化学习算法基础， 258页pdf

【ETHZ博士论文】基于人类反馈的安全高效强化学习算法基础， 258页pdf

专知会员服务

52+阅读 · 2023年10月8日

132页HuggingFace等《通过人类反馈的强化学习（RLHF）》教程讲解

132页HuggingFace等《通过人类反馈的强化学习（RLHF）》教程讲解

专知会员服务

77+阅读 · 2023年8月27日

【ICML2023】在受限逆强化学习中的可识别性和泛化能力

【ICML2023】在受限逆强化学习中的可识别性和泛化能力

专知会员服务

26+阅读 · 2023年6月5日

基于模型的强化学习综述

基于模型的强化学习综述

专知会员服务

149+阅读 · 2022年7月13日

强化学习如何用于推荐？厦大最新《强化学习推荐系统》综述论文，25页pdf156篇文献论述五种典型RL推荐方法

专知会员服务

80+阅读 · 2021年9月23日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

美以伊战争：首次人工智能战争——军事自主性困境

BES：让语言模型通过双向进化搜索自我改进

以色列-美国-伊朗战争中的无人机：关键要点

相关资讯

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

32+阅读 · 2022年11月12日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

关于强化学习（附代码，练习和解答）

关于强化学习（附代码，练习和解答）

深度学习

38+阅读 · 2018年1月30日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

LongRLVR: Long-Context Reinforcement Learning Requires Verifiable Context Rewards

Arxiv

0+阅读 · 3月2日

Gradient Regularization Prevents Reward Hacking in Reinforcement Learning from Human Feedback and Verifiable Rewards

Arxiv

0+阅读 · 2月20日

Efficient Reinforcement Learning for Large Language Models with Intrinsic Exploration

Arxiv

0+阅读 · 2月19日

On the Learning Dynamics of RLVR at the Edge of Competence

Arxiv

0+阅读 · 2月16日

Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language Models

Arxiv

0+阅读 · 2月12日

FaithRL: Learning to Reason Faithfully through Step-Level Faithfulness Maximization

Arxiv

0+阅读 · 2月12日

On the optimization dynamics of RLVR: Gradient gap and step size thresholds

Arxiv

0+阅读 · 2月11日

No Prompt Left Behind: Exploiting Zero-Variance Prompts in LLM Reinforcement Learning via Entropy-Guided Advantage Shaping

Arxiv

0+阅读 · 2月9日

ALIVE: Awakening LLM Reasoning via Adversarial Learning and Instructive Verbal Evaluation

Arxiv

0+阅读 · 2月5日

Beyond Variance: Prompt-Efficient RLVR via Rare-Event Amplification and Bidirectional Pairing

Arxiv

0+阅读 · 2月3日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

小鼠锰离子增强脑成像（MEMRI）数据分析算法研究及应用

国家自然科学基金

0+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员