Long chains of thought (Long CoTs) are widely employed in multimodal reasoning models to tackle complex tasks by capturing detailed visual information. However, these Long CoTs are often excessively lengthy and contain redundant reasoning steps, which can hinder inference efficiency. Compressing these long CoTs is a natural solution, yet existing approaches face two major challenges: (1) they may compromise the integrity of visual-textual reasoning by removing essential alignment cues, and (2) the compression process lacks explainability, making it difficult to discern which information is critical. To address these problems, we propose XMCC, an eXplainable Multimodal CoT Compressor that formulates compression as a sequential decision-making process optimized via reinforcement learning. XMCC can effectively shorten reasoning trajectories while preserving key reasoning steps and answer correctness, and simultaneously generates natural-language explanations for its compression decisions. Extensive experiments on representative multimodal reasoning benchmarks demonstrate that XMCC not only reduces reasoning length but also provides explainable explanations, validating its effectiveness.


翻译:长思维链(Long CoTs)在多模态推理模型中被广泛用于处理复杂任务,以捕捉详细的视觉信息。然而,这些长思维链往往过于冗长且包含冗余的推理步骤,这可能会阻碍推理效率。压缩这些长思维链是一种自然的解决方案,但现有方法面临两大挑战:(1)它们可能通过移除必要的对齐线索而损害视觉-文本推理的完整性;(2)压缩过程缺乏可解释性,使得难以辨别哪些信息是关键的。为了解决这些问题,我们提出了XMCC,一种可解释的多模态思维链压缩器,它将压缩建模为一个通过强化学习优化的序列决策过程。XMCC能够有效缩短推理轨迹,同时保留关键的推理步骤和答案正确性,并为其压缩决策生成自然语言解释。在具有代表性的多模态推理基准上进行的大量实验表明,XMCC不仅减少了推理长度,还提供了可解释的解释,验证了其有效性。

0
下载
关闭预览

相关内容

从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
24+阅读 · 2025年11月19日
面向大型语言模型推理的可信研究综述
专知会员服务
22+阅读 · 2025年9月6日
多模态推理的基础、方法与未来前沿
专知会员服务
27+阅读 · 2025年7月6日
多模态思维链推理:全面综述
专知会员服务
60+阅读 · 2025年3月23日
AI进入推理模型时代,一文带你读懂思维链
专知会员服务
39+阅读 · 2025年3月17日
大模型的模型压缩与有效推理综述
专知会员服务
43+阅读 · 2024年7月8日
超越思维链:大型语言模型的X链范式综述
专知会员服务
52+阅读 · 2024年4月28日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
多模态深度学习综述,18页pdf
专知
51+阅读 · 2020年3月29日
Transformer-XL:释放注意力模型的潜力
谷歌开发者
31+阅读 · 2019年2月19日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关VIP内容
从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
24+阅读 · 2025年11月19日
面向大型语言模型推理的可信研究综述
专知会员服务
22+阅读 · 2025年9月6日
多模态推理的基础、方法与未来前沿
专知会员服务
27+阅读 · 2025年7月6日
多模态思维链推理:全面综述
专知会员服务
60+阅读 · 2025年3月23日
AI进入推理模型时代,一文带你读懂思维链
专知会员服务
39+阅读 · 2025年3月17日
大模型的模型压缩与有效推理综述
专知会员服务
43+阅读 · 2024年7月8日
超越思维链:大型语言模型的X链范式综述
专知会员服务
52+阅读 · 2024年4月28日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员