Reasoning has substantially improved Large Language Models (LLMs) on analytical tasks such as mathematics and code generation, but its value for abstractive summarization remains unclear. To address this gap, we adapt general reasoning strategies to the summarization setting and conduct a large-scale comparative study of 8 reasoning strategies and 3 Large Reasoning Models (LRMs) across 8 diverse datasets, evaluating both summary quality and factual faithfulness. Our results show that reasoning is not a universal solution and its effectiveness depends strongly on the strategy and the summarization setting. In particular, we find a trade-off between summary quality and factual faithfulness. Explicit reasoning strategies often improve reference-based quality, but may weaken factual grounding, whereas implicit reasoning in LRMs shows the opposite tendency. We further find that increasing an LRM's internal reasoning budget does not reliably improve summarization and can even reduce factual consistency. These findings suggest that, for summarization, more reasoning is not always better. Effective reasoning should preserve faithful compression rather than induce over-elaboration. Our source code is publicly available.


翻译:推理显著提升了大型语言模型(LLMs)在数学和代码生成等分析任务上的表现,但其对抽象式摘要的价值仍不明确。为填补这一空白,我们将通用推理策略适配到摘要场景,并开展了大规模比较研究,涵盖8种推理策略和3种大型推理模型(LRMs)在8个不同数据集上的表现,从摘要质量和事实忠实性两方面进行评估。结果表明:推理并非万能解决方案,其有效性高度依赖于具体策略和摘要场景。特别地,我们发现了摘要质量与事实忠实性之间的权衡关系——显式推理策略通常能提升基于参考的质量指标,但可能削弱事实依据;而LRM中的隐式推理则呈现相反趋势。进一步研究发现,增加LRM的内部推理预算并不能可靠地改善摘要效果,甚至可能降低事实一致性。这些发现表明,在摘要任务中,更多推理并不总是更好。有效的推理应保持忠实的压缩,而非诱发过度阐释。我们的源代码已公开。

0
下载
关闭预览

相关内容

代码(Code)是专知网的一个重要知识资料文档板块,旨在整理收录论文源代码、复现代码,经典工程代码等,便于用户查阅下载使用。
通过逻辑推理赋能大语言模型:综述
专知会员服务
32+阅读 · 2025年2月24日
大语言模型中的逻辑推理:综述
专知会员服务
48+阅读 · 2025年2月15日
《大型语言模型(LLMs): 训练到推理》全面概述技术细节
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
面试题:文本摘要中的NLP技术
七月在线实验室
15+阅读 · 2019年5月13日
综述 | 事件抽取及推理 (下)
开放知识图谱
38+阅读 · 2019年1月14日
论文浅尝 | 基于神经网络的知识推理
开放知识图谱
15+阅读 · 2018年3月12日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
Arxiv
0+阅读 · 6月2日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 24分钟前
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 26分钟前
美以伊冲突:无人机与人工智能的运用
专知会员服务
2+阅读 · 38分钟前
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 58分钟前
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员