Latent reasoning models (LRMs) have attracted significant research interest due to their low inference cost (relative to explicit reasoning models) and theoretical ability to explore multiple reasoning paths in parallel. However, these benefits come at the cost of reduced interpretability: LRMs are difficult to monitor because they do not reason in natural language. This paper presents an investigation into LRM interpretability by examining two state-of-the-art LRMs. First, we find that latent reasoning tokens are often unnecessary for LRMs' predictions; on logical reasoning datasets, LRMs can almost always produce the same final answers without using latent reasoning at all. This underutilization of reasoning tokens may partially explain why LRMs do not consistently outperform explicit reasoning methods and raises doubts about the stated role of these tokens in prior work. Second, we demonstrate that when latent reasoning tokens are necessary for performance, we can decode gold reasoning traces up to 65-93% of the time for correctly predicted instances. This suggests LRMs often implement the expected solution rather than an uninterpretable reasoning process. Finally, we present a method to decode a verified natural language reasoning trace from latent tokens without knowing a gold reasoning trace a priori, demonstrating that it is possible to find a verified trace for a majority of correct predictions but only a minority of incorrect predictions. Our findings highlight that current LRMs largely encode interpretable processes, and interpretability itself can be a signal of prediction correctness.


翻译:潜在推理模型(LRMs)因其低推理成本(相对于显式推理模型)以及在理论上能够并行探索多条推理路径的能力而引起了广泛的研究兴趣。然而,这些优势是以降低可解释性为代价的:LRMs难以监控,因为它们并非以自然语言进行推理。本文通过研究两种最先进的LRMs来探讨其可解释性。首先,我们发现潜在推理token通常对LRMs的预测并非必要;在逻辑推理数据集上,LRMs几乎始终能在完全不使用潜在推理的情况下得出相同的最终答案。这种对推理token的低利用率可能部分解释了为何LRMs并未持续优于显式推理方法,并对先前工作中这些token所述的作用提出了质疑。其次,我们证明,当潜在推理token对性能不可或缺时,对于正确预测的实例,我们最多有65-93%的概率能够解码出正确的推理轨迹。这表明LRMs经常执行预期的解决方案而非一种不可解释的推理过程。最后,我们提出了一种方法,能够在无需预先知晓正确推理轨迹的情况下,从潜在token解码出经验证的自然语言推理轨迹,从而证明对于大多数正确预测(但仅对少数错误预测)有可能找到一条经过验证的轨迹。我们的发现强调了当前的LRMs在很大程度上编码了可解释的过程,并且可解释性本身可以作为预测正确性的一个信号。

0
下载
关闭预览

相关内容

别想太多:高效 R1 风格大型推理模型综述
专知会员服务
23+阅读 · 2025年8月5日
《潜在推理综述》
专知会员服务
21+阅读 · 2025年7月9日
大模型推理的天花板在哪里?
专知会员服务
16+阅读 · 2025年6月12日
《大型推理模型的安全性:综述》
专知会员服务
24+阅读 · 2025年4月25日
小型推理模型简要综述:训练、推理、应用与研究方向
专知会员服务
42+阅读 · 2025年4月16日
大规模推理模型的高效推理:综述
专知会员服务
21+阅读 · 2025年4月3日
「大型语言模型推理」综述
专知会员服务
95+阅读 · 2022年12月24日
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
您可以相信模型的不确定性吗?
TensorFlow
14+阅读 · 2020年1月31日
理解人类推理的深度学习
论智
19+阅读 · 2018年11月7日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
43+阅读 · 2024年1月25日
Arxiv
10+阅读 · 2023年5月4日
VIP会员
最新内容
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
5+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
7+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
《国防领域敏感性分析白皮书》
专知会员服务
8+阅读 · 6月25日
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
10+阅读 · 6月24日
重新思考无人机时代的生存能力
专知会员服务
10+阅读 · 6月24日
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
7+阅读 · 6月24日
在人工智能加速决策环境中拓展OODA循环
专知会员服务
10+阅读 · 6月24日
相关VIP内容
别想太多:高效 R1 风格大型推理模型综述
专知会员服务
23+阅读 · 2025年8月5日
《潜在推理综述》
专知会员服务
21+阅读 · 2025年7月9日
大模型推理的天花板在哪里?
专知会员服务
16+阅读 · 2025年6月12日
《大型推理模型的安全性:综述》
专知会员服务
24+阅读 · 2025年4月25日
小型推理模型简要综述:训练、推理、应用与研究方向
专知会员服务
42+阅读 · 2025年4月16日
大规模推理模型的高效推理:综述
专知会员服务
21+阅读 · 2025年4月3日
「大型语言模型推理」综述
专知会员服务
95+阅读 · 2022年12月24日
相关资讯
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
您可以相信模型的不确定性吗?
TensorFlow
14+阅读 · 2020年1月31日
理解人类推理的深度学习
论智
19+阅读 · 2018年11月7日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
相关基金
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员