LongR: Unleashing Long-Context Reasoning via Reinforcement Learning with Dense Utility Rewards - 专知论文

会员服务 ·

0

上下文 · 长上下文 · 效用 · 上下文推理 · 分析 ·

LongR: Unleashing Long-Context Reasoning via Reinforcement Learning with Dense Utility Rewards

翻译：LongR：通过密集效用奖励的强化学习释放长上下文推理能力

Bowen Ping,Zijun Chen,Yiyao Yu,Tingfeng Hui,Junchi Yan,Baobao Chang

Reinforcement Learning has emerged as a key driver for LLM reasoning. This capability is equally pivotal in long-context scenarios--such as long-dialogue understanding and structured data analysis, where the challenge extends beyond consuming tokens to performing rigorous deduction. While existing efforts focus on data synthesis or architectural changes, recent work points out that relying solely on sparse, outcome-only rewards yields limited gains, as such coarse signals are often insufficient to effectively guide the complex long-context reasoning. To address this, we propose LongR, a unified framework that enhances long-context performance by integrating a dynamic "Think-and-Read" mechanism, which interleaves reasoning with document consultation, with a contextual density reward based on relative information gain to quantify the utility of the relevant documents. Empirically, LongR achieves a 9% gain on LongBench v2 and consistent improvements on RULER and InfiniteBench, demonstrating robust efficiency in navigating extensive contexts. Furthermore, LongR consistently enhances performance across diverse RL algorithms (e.g., DAPO, GSPO). Finally, we conduct in-depth analyses to investigate the impact of reasoning chain length on efficiency and the model's robustness against distractors.

翻译：强化学习已成为驱动大语言模型推理能力发展的关键因素。在长上下文场景中——例如长对话理解与结构化数据分析——这种能力同样至关重要，因为此类任务不仅需要处理大量文本，更需执行严谨的推理演绎。现有研究多集中于数据合成或架构调整，而近期工作指出，仅依赖稀疏的结果性奖励收益有限，此类粗粒度信号往往不足以有效指导复杂的长上下文推理过程。为此，我们提出LongR——一个通过整合动态“思考-查阅”机制与基于相对信息增益的上下文密度奖励来提升长上下文性能的统一框架。该机制交替进行推理与文档检索，而密度奖励则用于量化相关文档的效用价值。实验表明，LongR在LongBench v2上实现了9%的性能提升，并在RULER与InfiniteBench上取得持续改进，展现出驾驭长上下文的强劲效能。此外，LongR能稳定提升多种强化学习算法（如DAPO、GSPO）的性能。最后，我们通过深入分析探究了推理链长度对效率的影响，以及模型对干扰信息的鲁棒性。

0

相关内容

上下文

《军事场景上下文推理：大语言模型长上下文地理空间推理与规划能力基准测试》最新资料

《军事场景上下文推理：大语言模型长上下文地理空间推理与规划能力基准测试》最新资料

专知会员服务

35+阅读 · 3月14日

面向大型推理模型的强化学习综述

面向大型推理模型的强化学习综述

专知会员服务

29+阅读 · 2025年9月11日

强化多模态大语言模型：基于强化学习的推理综述

强化多模态大语言模型：基于强化学习的推理综述

专知会员服务

37+阅读 · 2025年5月3日

迈向推理时代：大型语言模型的长链推理研究综述

迈向推理时代：大型语言模型的长链推理研究综述

专知会员服务

46+阅读 · 2025年3月13日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

大模型数学推理数据合成相关方法

大模型数学推理数据合成相关方法

专知会员服务

36+阅读 · 2025年1月19日

大语言模型长文本训练技术解析

大语言模型长文本训练技术解析

专知会员服务

37+阅读 · 2024年10月17日

增强大模型智能：数学推理能力的提升策略与实践

增强大模型智能：数学推理能力的提升策略与实践

专知会员服务

25+阅读 · 2024年8月25日

大模型如何处理长上下文？亚马逊等最新《大型语言模型中上下文长度扩展技术》综述

大模型如何处理长上下文？亚马逊等最新《大型语言模型中上下文长度扩展技术》综述

专知会员服务

47+阅读 · 2024年1月31日

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

专知会员服务

157+阅读 · 2023年8月8日

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知

18+阅读 · 2022年11月18日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

机器推理系列文章概览：七大NLP任务最新方法与进展

机器推理系列文章概览：七大NLP任务最新方法与进展

AI100

12+阅读 · 2019年9月15日

长文本表示学习概述

长文本表示学习概述

云栖社区

15+阅读 · 2019年5月9日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

一文了解强化学习

一文了解强化学习

AI100

15+阅读 · 2018年8月20日

【强化学习】叶志豪：介绍强化学习及其在 NLP 上的应用｜分享总结

【强化学习】叶志豪：介绍强化学习及其在 NLP 上的应用｜分享总结

产业智能官

20+阅读 · 2018年7月24日

【CVPR2018】如何增强Attention Model的推理能力

【CVPR2018】如何增强Attention Model的推理能力

专知

15+阅读 · 2018年7月2日

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

专知

25+阅读 · 2018年4月29日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

面向长尾现象的数据缓存技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

中文社交化短文本情感分析与话题挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

LongRLVR: Long-Context Reinforcement Learning Requires Verifiable Context Rewards

Arxiv

0+阅读 · 3月2日

REA-RL: Reflection-Aware Online Reinforcement Learning for Efficient Reasoning

Arxiv

0+阅读 · 2月27日

NPG-Muse: Scaling Long Chain-of-Thought Reasoning with NP-Hard Graph Problems

Arxiv

0+阅读 · 2月17日

Goldilocks RL: Tuning Task Difficulty to Escape Sparse Rewards for Reasoning

Arxiv

0+阅读 · 2月16日

Think Longer to Explore Deeper: Learn to Explore In-Context via Length-Incentivized Reinforcement Learning

Arxiv

0+阅读 · 2月12日

On the Optimal Reasoning Length for RL-Trained Language Models

Arxiv

0+阅读 · 2月11日

Dynamic Long Context Reasoning over Compressed Memory via End-to-End Reinforcement Learning

Arxiv

0+阅读 · 2月9日

Self-Improving Multilingual Long Reasoning via Translation-Reasoning Integrated Training

Arxiv

0+阅读 · 2月5日

ALIVE: Awakening LLM Reasoning via Adversarial Learning and Instructive Verbal Evaluation

Arxiv

0+阅读 · 2月5日

Towards Long-Horizon Interpretability: Efficient and Faithful Multi-Token Attribution for Reasoning LLMs

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

上下文推理

最新内容

CVPR2026奖项公布，谷歌D4RT最佳论文获奖，何恺明ResNet、YOLO获时间检验奖！

CVPR2026奖项公布，谷歌D4RT最佳论文获奖，何恺明ResNet、YOLO获时间检验奖！

专知会员服务

0+阅读 · 37分钟前

ICML 2026 | 演化选择的因果建模

ICML 2026 | 演化选择的因果建模

专知会员服务

2+阅读 · 6月5日

综述｜学习式3D表征最新进展与趋势

综述｜学习式3D表征最新进展与趋势

专知会员服务

2+阅读 · 6月5日

《武器作战效能分析：基于虚拟构造仿真大数据与深度学习的初步见解》

《武器作战效能分析：基于虚拟构造仿真大数据与深度学习的初步见解》

专知会员服务

6+阅读 · 6月5日

《自主巡飞弹药系统量子逻辑框架：一种基于不确定模糊集的方法》

《自主巡飞弹药系统量子逻辑框架：一种基于不确定模糊集的方法》

专知会员服务

5+阅读 · 6月5日

人工智能重塑威慑：算法优势的兴起

人工智能重塑威慑：算法优势的兴起

专知会员服务

4+阅读 · 6月5日

【博士论文】基于物理结构与贝叶斯不确定性的可靠神经网络

【博士论文】基于物理结构与贝叶斯不确定性的可靠神经网络

专知会员服务

12+阅读 · 6月4日

AgentOps综述：智能体系统运维框架

AgentOps综述：智能体系统运维框架

专知会员服务

14+阅读 · 6月4日

《美陆军最新条令：兵力防护》

《美陆军最新条令：兵力防护》

专知会员服务

10+阅读 · 6月4日

《军用物联网：架构、应用、挑战与现代战争中的战略意义》

《军用物联网：架构、应用、挑战与现代战争中的战略意义》

专知会员服务

8+阅读 · 6月4日

《人工智能的挑战：算法战的想象与现实》

《人工智能的挑战：算法战的想象与现实》

专知会员服务

11+阅读 · 6月4日

《自适应智能：融合数字孪生精准性与人工智能预见力，实现实时决策》

《自适应智能：融合数字孪生精准性与人工智能预见力，实现实时决策》

专知会员服务

13+阅读 · 6月4日

首场人工智能战争：Maven如何重塑武装冲突

首场人工智能战争：Maven如何重塑武装冲突

专知会员服务

8+阅读 · 6月4日

【博士论文】抽象信息论与安全奖励学习的数学发展

【博士论文】抽象信息论与安全奖励学习的数学发展

专知会员服务

9+阅读 · 6月3日

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

专知会员服务

6+阅读 · 6月3日

相关VIP内容

《军事场景上下文推理：大语言模型长上下文地理空间推理与规划能力基准测试》最新资料

《军事场景上下文推理：大语言模型长上下文地理空间推理与规划能力基准测试》最新资料

专知会员服务

35+阅读 · 3月14日

面向大型推理模型的强化学习综述

面向大型推理模型的强化学习综述

专知会员服务

29+阅读 · 2025年9月11日

强化多模态大语言模型：基于强化学习的推理综述

强化多模态大语言模型：基于强化学习的推理综述

专知会员服务

37+阅读 · 2025年5月3日

迈向推理时代：大型语言模型的长链推理研究综述

迈向推理时代：大型语言模型的长链推理研究综述

专知会员服务

46+阅读 · 2025年3月13日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

大模型数学推理数据合成相关方法

大模型数学推理数据合成相关方法

专知会员服务

36+阅读 · 2025年1月19日

大语言模型长文本训练技术解析

大语言模型长文本训练技术解析

专知会员服务

37+阅读 · 2024年10月17日

增强大模型智能：数学推理能力的提升策略与实践

增强大模型智能：数学推理能力的提升策略与实践

专知会员服务

25+阅读 · 2024年8月25日

大模型如何处理长上下文？亚马逊等最新《大型语言模型中上下文长度扩展技术》综述

大模型如何处理长上下文？亚马逊等最新《大型语言模型中上下文长度扩展技术》综述

专知会员服务

47+阅读 · 2024年1月31日

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

专知会员服务

157+阅读 · 2023年8月8日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 演化选择的因果建模

《武器作战效能分析：基于虚拟构造仿真大数据与深度学习的初步见解》

CVPR2026奖项公布，谷歌D4RT最佳论文获奖，何恺明ResNet、YOLO获时间检验奖！

综述｜学习式3D表征最新进展与趋势

相关资讯

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知

18+阅读 · 2022年11月18日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

机器推理系列文章概览：七大NLP任务最新方法与进展

机器推理系列文章概览：七大NLP任务最新方法与进展

AI100

12+阅读 · 2019年9月15日

长文本表示学习概述

长文本表示学习概述

云栖社区

15+阅读 · 2019年5月9日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

一文了解强化学习

一文了解强化学习

AI100

15+阅读 · 2018年8月20日

【强化学习】叶志豪：介绍强化学习及其在 NLP 上的应用｜分享总结

【强化学习】叶志豪：介绍强化学习及其在 NLP 上的应用｜分享总结

产业智能官

20+阅读 · 2018年7月24日

【CVPR2018】如何增强Attention Model的推理能力

【CVPR2018】如何增强Attention Model的推理能力

专知

15+阅读 · 2018年7月2日

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

专知

25+阅读 · 2018年4月29日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

相关论文

LongRLVR: Long-Context Reinforcement Learning Requires Verifiable Context Rewards

Arxiv

0+阅读 · 3月2日

REA-RL: Reflection-Aware Online Reinforcement Learning for Efficient Reasoning

Arxiv

0+阅读 · 2月27日

NPG-Muse: Scaling Long Chain-of-Thought Reasoning with NP-Hard Graph Problems

Arxiv

0+阅读 · 2月17日

Goldilocks RL: Tuning Task Difficulty to Escape Sparse Rewards for Reasoning

Arxiv

0+阅读 · 2月16日

Think Longer to Explore Deeper: Learn to Explore In-Context via Length-Incentivized Reinforcement Learning

Arxiv

0+阅读 · 2月12日

On the Optimal Reasoning Length for RL-Trained Language Models

Arxiv

0+阅读 · 2月11日

Dynamic Long Context Reasoning over Compressed Memory via End-to-End Reinforcement Learning

Arxiv

0+阅读 · 2月9日

Self-Improving Multilingual Long Reasoning via Translation-Reasoning Integrated Training

Arxiv

0+阅读 · 2月5日

ALIVE: Awakening LLM Reasoning via Adversarial Learning and Instructive Verbal Evaluation

Arxiv

0+阅读 · 2月5日

Towards Long-Horizon Interpretability: Efficient and Faithful Multi-Token Attribution for Reasoning LLMs

Arxiv

0+阅读 · 2月2日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

面向长尾现象的数据缓存技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

中文社交化短文本情感分析与话题挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员