Know Thy Reasoner: Not All Language Models Explore Alike - 专知论文

会员服务 ·

0

多样性 · 语言模型 · 相同 · 模型迁移 · 最优 ·

Know Thy Reasoner: Not All Language Models Explore Alike

翻译：了解你的推理者：并非所有语言模型都探索相同

Moulik Choraria,Argyrios Gerogiannis,Anirban Das,Supriyo Chakraborty,Sourya Basu,Sambit Sahu,Lav R. Varshney

from arxiv, This is a full-length extension of the workshop paper that appeared in the ICLR 2026 Workshop on LLM Reasoning

Compute scaling for LLM reasoning trades off exploring solution approaches (\emph{breadth}) against refining promising ones (\emph{depth}), yet why a given trade-off works, and why it often fails to transfer across models, remains unclear. We argue that \textbf{the optimal strategy depends on the model's \emph{diversity profile}, the spread of probability mass across solution approaches, and that this must be characterized before any exploration strategy is adopted.} We formalize this with a framework decomposing reasoning uncertainty, deriving when depth-based refinement outperforms parallel sampling, and validate it across three model families at both inference and training. Our central finding is that the diversity regime dictates the strategy: low-diversity aligned models benefit from depth-based refinement with lightweight intrinsic signals, whereas high-diversity base models are often harmed by it, and instead need breadth or stronger signals to compensate.

翻译：大语言模型推理的计算扩展需要在探索解决方法（广度）和优化有前景的方案（深度）之间进行权衡，然而，特定权衡为何有效，以及为何常常无法跨模型迁移，迄今尚不明确。我们认为，**最优策略取决于模型的“多样性特征”，即概率质量在解决方法上的分布情况，且必须在采用任何探索策略之前对此进行刻画。** 我们通过一个分解推理不确定性的框架对此进行形式化建模，推导出深度优先的优化何时优于并行采样，并在三个模型家族的推理和训练阶段进行了验证。我们的核心发现是：多样性机制决定了策略——低多样性的对齐模型受益于基于轻量级内在信号的深度优化，而高多样性的基础模型往往因此受损，反而需要广度或更强信号来补偿。

0

相关内容

多样性

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

12+阅读 · 7月20日

大语言模型的智能体化推理

大语言模型的智能体化推理

专知会员服务

35+阅读 · 1月21日

从感知到推理：深度思考赋能多模态大语言模型

从感知到推理：深度思考赋能多模态大语言模型

专知会员服务

26+阅读 · 2025年11月19日

【NeurIPS2025】语言模型是高效的推理者吗？——来自逻辑编程的视角

【NeurIPS2025】语言模型是高效的推理者吗？——来自逻辑编程的视角

专知会员服务

17+阅读 · 2025年11月3日

大语言模型中的隐式推理：综合综述

大语言模型中的隐式推理：综合综述

专知会员服务

34+阅读 · 2025年9月4日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

大型语言模型高效推理综述

大型语言模型高效推理综述

专知会员服务

65+阅读 · 2024年4月23日

大型语言模型的模型压缩与高效推理：综述

大型语言模型的模型压缩与高效推理：综述

专知会员服务

94+阅读 · 2024年2月17日

语言模型如何做算法推理？Google Hattie Zhou《通过语境学习来教算法推理》，附Slides与论文

语言模型如何做算法推理？Google Hattie Zhou《通过语境学习来教算法推理》，附Slides与论文

专知会员服务

27+阅读 · 2023年3月10日

「大型语言模型推理」综述

「大型语言模型推理」综述

专知会员服务

96+阅读 · 2022年12月24日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

强化学习的两大话题之一，仍有极大探索空间

强化学习的两大话题之一，仍有极大探索空间

AI科技评论

22+阅读 · 2020年8月22日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

理解人类推理的深度学习

理解人类推理的深度学习

论智

19+阅读 · 2018年11月7日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

【干货】NLP中“词袋”模型和词嵌入模型的比较（附代码）

【干货】NLP中“词袋”模型和词嵌入模型的比较（附代码）

专知

11+阅读 · 2018年8月4日

【CVPR2018】如何增强Attention Model的推理能力

【CVPR2018】如何增强Attention Model的推理能力

专知

15+阅读 · 2018年7月2日

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

人工智能头条

10+阅读 · 2018年6月29日

【学界】机器学习模型的“可解释性”到底有多重要？

【学界】机器学习模型的“可解释性”到底有多重要？

GAN生成式对抗网络

12+阅读 · 2018年3月3日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于格值逻辑的语言真值α-群锁语义归结自动推理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

基于关系语义的空间场景信息理解

国家自然科学基金

5+阅读 · 2014年12月31日

概率图模型学习及其在数据分析中的应用研究

国家自然科学基金

16+阅读 · 2013年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

Quantifying Consistency in LLM Logical Reasoning via Structural Uncertainty

Arxiv

0+阅读 · 6月15日

Disentangling Perception and Reasoning in Multimodal LLMs via Reward Design

Arxiv

0+阅读 · 6月15日

Reasoning as Pattern Matching: Shared Mechanisms in Human and LLM Everyday Reasoning

Arxiv

0+阅读 · 6月11日

Reasoning Models Know What's Important, and Encode It in Their Activations

Arxiv

0+阅读 · 6月11日

The Periodic Table of LLM Reasoning: A Structured Survey of Reasoning Paradigms, Methods, and Failure Modes

Arxiv

0+阅读 · 6月9日

Reasoning Models Don't Just Think Longer, They Move Differently

Arxiv

0+阅读 · 6月4日

Failed Reasoning Traces Tell You What Is Fixable (But Not by Reading Them)

Arxiv

0+阅读 · 6月3日

DeInfer: Efficient Parallel Inferencing for Decomposed Large Language Models

Arxiv

0+阅读 · 6月3日

Explaining Too Much? Understanding How Large Language Model Reasoning Traces Influence Performance and Metacognition

Arxiv

0+阅读 · 5月25日

Asynchronous Reasoning: Training-Free Interactive Thinking LLMs

Arxiv

0+阅读 · 5月13日

VIP会员

文章信息

相关主题

最新内容

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 今天4:35

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 今天4:24

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 今天4:18

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 今天4:15

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 今天4:08

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

7+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

“史诗怒火”行动：现代多域作战的重要节点

“史诗怒火”行动：现代多域作战的重要节点

专知会员服务

8+阅读 · 7月30日

《下一代无线网络中的多无人机通信资源管理》

《下一代无线网络中的多无人机通信资源管理》

专知会员服务

8+阅读 · 7月30日

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

专知会员服务

9+阅读 · 7月30日

《人机协同在安全关键型操作决策中的应用》120页

《人机协同在安全关键型操作决策中的应用》120页

专知会员服务

8+阅读 · 7月30日

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

专知会员服务

6+阅读 · 7月30日

相关VIP内容

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

12+阅读 · 7月20日

大语言模型的智能体化推理

大语言模型的智能体化推理

专知会员服务

35+阅读 · 1月21日

从感知到推理：深度思考赋能多模态大语言模型

从感知到推理：深度思考赋能多模态大语言模型

专知会员服务

26+阅读 · 2025年11月19日

【NeurIPS2025】语言模型是高效的推理者吗？——来自逻辑编程的视角

【NeurIPS2025】语言模型是高效的推理者吗？——来自逻辑编程的视角

专知会员服务

17+阅读 · 2025年11月3日

大语言模型中的隐式推理：综合综述

大语言模型中的隐式推理：综合综述

专知会员服务

34+阅读 · 2025年9月4日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

大型语言模型高效推理综述

大型语言模型高效推理综述

专知会员服务

65+阅读 · 2024年4月23日

大型语言模型的模型压缩与高效推理：综述

大型语言模型的模型压缩与高效推理：综述

专知会员服务

94+阅读 · 2024年2月17日

语言模型如何做算法推理？Google Hattie Zhou《通过语境学习来教算法推理》，附Slides与论文

语言模型如何做算法推理？Google Hattie Zhou《通过语境学习来教算法推理》，附Slides与论文

专知会员服务

27+阅读 · 2023年3月10日

「大型语言模型推理」综述

「大型语言模型推理」综述

专知会员服务

96+阅读 · 2022年12月24日

热门VIP内容

开通专知VIP会员享更多权益服务

隐身技术前沿综述：物理机理、工程实践与战略展望

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

强化学习的两大话题之一，仍有极大探索空间

强化学习的两大话题之一，仍有极大探索空间

AI科技评论

22+阅读 · 2020年8月22日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

理解人类推理的深度学习

理解人类推理的深度学习

论智

19+阅读 · 2018年11月7日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

【干货】NLP中“词袋”模型和词嵌入模型的比较（附代码）

【干货】NLP中“词袋”模型和词嵌入模型的比较（附代码）

专知

11+阅读 · 2018年8月4日

【CVPR2018】如何增强Attention Model的推理能力

【CVPR2018】如何增强Attention Model的推理能力

专知

15+阅读 · 2018年7月2日

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

人工智能头条

10+阅读 · 2018年6月29日

【学界】机器学习模型的“可解释性”到底有多重要？

【学界】机器学习模型的“可解释性”到底有多重要？

GAN生成式对抗网络

12+阅读 · 2018年3月3日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

相关论文

Quantifying Consistency in LLM Logical Reasoning via Structural Uncertainty

Arxiv

0+阅读 · 6月15日

Disentangling Perception and Reasoning in Multimodal LLMs via Reward Design

Arxiv

0+阅读 · 6月15日

Reasoning as Pattern Matching: Shared Mechanisms in Human and LLM Everyday Reasoning

Arxiv

0+阅读 · 6月11日

Reasoning Models Know What's Important, and Encode It in Their Activations

Arxiv

0+阅读 · 6月11日

The Periodic Table of LLM Reasoning: A Structured Survey of Reasoning Paradigms, Methods, and Failure Modes

Arxiv

0+阅读 · 6月9日

Reasoning Models Don't Just Think Longer, They Move Differently

Arxiv

0+阅读 · 6月4日

Failed Reasoning Traces Tell You What Is Fixable (But Not by Reading Them)

Arxiv

0+阅读 · 6月3日

DeInfer: Efficient Parallel Inferencing for Decomposed Large Language Models

Arxiv

0+阅读 · 6月3日

Explaining Too Much? Understanding How Large Language Model Reasoning Traces Influence Performance and Metacognition

Arxiv

0+阅读 · 5月25日

Asynchronous Reasoning: Training-Free Interactive Thinking LLMs

Arxiv

0+阅读 · 5月13日

相关基金

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于格值逻辑的语言真值α-群锁语义归结自动推理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

基于关系语义的空间场景信息理解

国家自然科学基金

5+阅读 · 2014年12月31日

概率图模型学习及其在数据分析中的应用研究

国家自然科学基金

16+阅读 · 2013年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员