Reinforcement Learning has emerged as a key driver for LLM reasoning. This capability is equally pivotal in long-context scenarios--such as long-dialogue understanding and structured data analysis, where the challenge extends beyond consuming tokens to performing rigorous deduction. While existing efforts focus on data synthesis or architectural changes, recent work points out that relying solely on sparse, outcome-only rewards yields limited gains, as such coarse signals are often insufficient to effectively guide the complex long-context reasoning. To address this, we propose LongR, a unified framework that enhances long-context performance by integrating a dynamic "Think-and-Read" mechanism, which interleaves reasoning with document consultation, with a contextual density reward based on relative information gain to quantify the utility of the relevant documents. Empirically, LongR achieves a 9% gain on LongBench v2 and consistent improvements on RULER and InfiniteBench, demonstrating robust efficiency in navigating extensive contexts. Furthermore, LongR consistently enhances performance across diverse RL algorithms (e.g., DAPO, GSPO). Finally, we conduct in-depth analyses to investigate the impact of reasoning chain length on efficiency and the model's robustness against distractors.


翻译:强化学习已成为驱动大语言模型推理能力发展的关键因素。在长上下文场景中——例如长对话理解与结构化数据分析——这种能力同样至关重要,因为此类任务不仅需要处理大量文本,更需执行严谨的推理演绎。现有研究多集中于数据合成或架构调整,而近期工作指出,仅依赖稀疏的结果性奖励收益有限,此类粗粒度信号往往不足以有效指导复杂的长上下文推理过程。为此,我们提出LongR——一个通过整合动态“思考-查阅”机制与基于相对信息增益的上下文密度奖励来提升长上下文性能的统一框架。该机制交替进行推理与文档检索,而密度奖励则用于量化相关文档的效用价值。实验表明,LongR在LongBench v2上实现了9%的性能提升,并在RULER与InfiniteBench上取得持续改进,展现出驾驭长上下文的强劲效能。此外,LongR能稳定提升多种强化学习算法(如DAPO、GSPO)的性能。最后,我们通过深入分析探究了推理链长度对效率的影响,以及模型对干扰信息的鲁棒性。

0
下载
关闭预览

相关内容

面向大型推理模型的强化学习综述
专知会员服务
29+阅读 · 2025年9月11日
强化多模态大语言模型:基于强化学习的推理综述
专知会员服务
35+阅读 · 2025年5月3日
迈向推理时代:大型语言模型的长链推理研究综述
专知会员服务
46+阅读 · 2025年3月13日
大模型数学推理数据合成相关方法
专知会员服务
36+阅读 · 2025年1月19日
大语言模型长文本训练技术解析
专知会员服务
37+阅读 · 2024年10月17日
增强大模型智能:数学推理能力的提升策略与实践
专知会员服务
25+阅读 · 2024年8月25日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
长文本表示学习概述
云栖社区
15+阅读 · 2019年5月9日
一文了解强化学习
AI100
15+阅读 · 2018年8月20日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员