The inference overhead induced by redundant reasoning undermines the interactive experience and severely bottlenecks the deployment of Large Reasoning Models. Existing reinforcement learning (RL)-based solutions tackle this problem by coupling a length penalty with outcome-based rewards. This simplistic reward weighting struggles to reconcile brevity with accuracy, as enforcing brevity may compromise critical reasoning logic. In this work, we address this limitation by proposing a multi-agent RL framework that selectively penalizes redundant chunks, while preserving essential reasoning logic. Our framework, Self-Compression via MARL (SCMA), instantiates redundancy detection and evaluation through two specialized agents: \textbf{a Segmentation Agent} for decomposing the reasoning process into logical chunks, and \textbf{a Scoring Agent} for quantifying the significance of each chunk. The Segmentation and Scoring agents collaboratively define an importance-weighted length penalty during training, incentivizing \textbf{a Reasoning Agent} to prioritize essential logic without introducing inference overhead during deployment. Empirical evaluations across model scales demonstrate that SCMA reduces response length by 11.1\% to 39.0\% while boosting accuracy by 4.33\% to 10.02\%. Furthermore, ablation studies and qualitative analysis validate that the synergistic optimization within the MARL framework fosters emergent behaviors, yielding more powerful LRMs compared to vanilla RL paradigms.


翻译:推理过程中冗余思维链所引发的推理开销会损害交互体验,并严重制约大型推理模型的部署。现有的基于强化学习的解决方案通过将长度惩罚与结果奖励相结合来处理此问题。这种简单的奖励加权机制难以在简洁性与准确性之间取得平衡,因为强制简洁可能会损害关键的推理逻辑。本研究通过提出一种多智能体强化学习框架来解决这一局限,该框架选择性地惩罚冗余推理片段,同时保留必要的推理逻辑。我们提出的框架——基于多智能体强化学习的自压缩方法,通过两个专用智能体实例化冗余检测与评估:\textbf{分割智能体}负责将推理过程分解为逻辑片段,\textbf{评分智能体}负责量化每个片段的重要性。在训练过程中,分割智能体与评分智能体协同定义重要性加权的长度惩罚,激励\textbf{推理智能体}优先处理核心逻辑,同时在部署阶段不引入额外推理开销。跨模型规模的实证评估表明,SCMA 将响应长度减少了 11.1\% 至 39.0\%,同时将准确率提升了 4.33\% 至 10.02\%。此外,消融研究与定性分析证实,MARL 框架内的协同优化促进了涌现行为,相比传统强化学习范式,能够产生更强大的大型推理模型。

0
下载
关闭预览

相关内容

智能体,顾名思义,就是具有智能的实体,英文名是Agent。
基于学习机制的多智能体强化学习综述
专知会员服务
61+阅读 · 2024年4月16日
因果关联学习,Causal Relational Learning
专知会员服务
185+阅读 · 2020年4月21日
专知会员服务
214+阅读 · 2019年8月30日
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
15+阅读 · 2020年9月9日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员