Reasoning-trained language models often spend more tokens on harder problems, but longer chains of thought do not show whether a model is merely computing for more steps or following a different internal trajectory. We study this distinction through hidden-state trajectories during chain-of-thought generation across competitive programming, mathematics, and Boolean satisfiability. Raw trajectory geometry is strongly shaped by generation length: longer generations mechanically alter path statistics, so difficulty-dependent comparisons are misleading without adjustment. After residualizing trajectory statistics on length, difficulty remains systematically coupled to corrected trajectory geometry across all domains studied. The clearest reasoning-specific separation appears in the code domain, where harder problems show more direct corrected trajectories and less heterogeneous local curvature in reasoning-trained models than in matched instruction-tuned baselines. Corrected difficulty-geometry coupling is weaker, but still present, in mathematics and Boolean satisfiability. Prompt-stage linear probes do not mirror the code-domain separation, and behavioral annotations show that stronger corrected coupling co-occurs with strategy shifts and uncertainty monitoring. Together, these findings establish length correction as a prerequisite for generation-time trajectory analysis and show that reasoning training can be associated with distinct corrected trajectory geometry, with the strength of the effect depending on the domain.


翻译:经过推理训练的语言模型通常在更困难的问题上会生成更多token,但更长的思维链并不能表明模型只是在计算更多步骤,还是遵循了不同的内部轨迹。我们通过竞技编程、数学和布尔可满足性问题中思维链生成期间的隐藏状态轨迹来研究这一区别。原始轨迹几何形态强烈受到生成长度的影响:更长的生成过程会机械性地改变路径统计特性,因此未经调整的难度依赖型比较会产生误导。在对轨迹统计数据进行长度残差化处理后,难度在所有研究领域中仍然系统性地与修正后的轨迹几何形态相关联。最清晰的推理特异性分离出现在代码领域:与经过指令调整的匹配基线模型相比,在推理训练模型中,更困难的问题表现出更直接的修正后轨迹,以及更不异质的局部曲率。在数学和布尔可满足性问题中,修正后的难度-几何关联性较弱,但仍然存在。提示阶段线性探针并未反映代码领域的分离现象,而行为注释表明,更强的修正后关联性与策略转变和不确定性监测同时出现。这些发现共同确立了长度修正是生成时轨迹分析的前提条件,并表明推理训练可能与独特的修正后轨迹几何形态相关联,其效应强度取决于具体领域。

0
下载
关闭预览

相关内容

从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
25+阅读 · 2025年11月19日
多模态推理的基础、方法与未来前沿
专知会员服务
27+阅读 · 2025年7月6日
小型推理模型简要综述:训练、推理、应用与研究方向
专知会员服务
42+阅读 · 2025年4月16日
AI进入推理模型时代,一文带你读懂思维链
专知会员服务
40+阅读 · 2025年3月17日
复杂推理与慢思考
专知会员服务
49+阅读 · 2025年3月11日
【大模型对齐】利用对齐使大型语言模型更好地推理
专知会员服务
48+阅读 · 2023年9月8日
社区分享|如何让模型在生产环境上推理得更快
深入理解BERT Transformer ,不仅仅是注意力机制
大数据文摘
22+阅读 · 2019年3月19日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
如果你研究多因子模型,这篇文章看不懂就别玩了!
量化投资与机器学习
26+阅读 · 2018年7月31日
【因果关系】由模仿“人脑”转向“因果推理”
产业智能官
10+阅读 · 2018年7月13日
论文浅尝 | 变分知识图谱推理:在KG中引入变分推理框架
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
2+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关资讯
社区分享|如何让模型在生产环境上推理得更快
深入理解BERT Transformer ,不仅仅是注意力机制
大数据文摘
22+阅读 · 2019年3月19日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
如果你研究多因子模型,这篇文章看不懂就别玩了!
量化投资与机器学习
26+阅读 · 2018年7月31日
【因果关系】由模仿“人脑”转向“因果推理”
产业智能官
10+阅读 · 2018年7月13日
论文浅尝 | 变分知识图谱推理:在KG中引入变分推理框架
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员