Large language models (LLMs) often fail to learn effective long chain-of-thought (Long CoT) reasoning from human or non-Long-CoT LLMs imitation. To understand this, we propose that effective and learnable Long CoT trajectories feature stable molecular-like structures in unified view, which are formed by three interaction types: Deep-Reasoning (covalent-like), Self-Reflection (hydrogen-bond-like), and Self-Exploration (van der Waals-like). Analysis of distilled trajectories reveals these structures emerge from Long CoT fine-tuning, not keyword imitation. We introduce Effective Semantic Isomers and show that only bonds promoting fast entropy convergence support stable Long CoT learning, while structural competition impairs training. Drawing on these findings, we present Mole-Syn, a distribution-transfer-graph method that guides synthesis of effective Long CoT structures, boosting performance and RL stability across benchmarks.


翻译:大型语言模型(LLM)往往难以通过模仿人类或非长链推理LLM来习得有效的长链推理能力。为探究此问题,我们提出在统一视角下,有效且可习得的长链推理轨迹具有类似分子的稳定结构,该结构由三种相互作用类型构成:深度推理(类共价键)、自我反思(类氢键)与自我探索(类范德华力)。对蒸馏轨迹的分析表明,这些结构源于长链推理微调过程,而非关键词模仿。我们提出有效语义异构体概念,并证明仅能促进熵快速收敛的键合才能支撑稳定的长链推理学习,而结构竞争会损害训练效果。基于这些发现,我们提出Mole-Syn——一种分布转移图方法,可引导有效长链推理结构的合成,在多项基准测试中显著提升性能与强化学习稳定性。

0
下载
关闭预览

相关内容

大语言模型中的隐式推理:综合综述
专知会员服务
32+阅读 · 2025年9月4日
《潜在推理综述》
专知会员服务
21+阅读 · 2025年7月9日
超越语言的推理:潜在思维链推理的综合综述
专知会员服务
22+阅读 · 2025年5月23日
迈向推理时代:大型语言模型的长链推理研究综述
专知会员服务
46+阅读 · 2025年3月13日
通过逻辑推理赋能大语言模型:综述
专知会员服务
32+阅读 · 2025年2月24日
迈向大型推理模型:基于大型语言模型的强化推理综述
专知会员服务
49+阅读 · 2025年1月17日
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
【清华大学】元知识图谱推理
专知
129+阅读 · 2019年9月2日
长文本表示学习概述
云栖社区
15+阅读 · 2019年5月9日
自然语言处理(NLP)知识结构总结
AI100
51+阅读 · 2018年8月17日
论文浅尝 | 变分知识图谱推理:在KG中引入变分推理框架
论文浅尝 | 基于神经网络的知识推理
开放知识图谱
15+阅读 · 2018年3月12日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关资讯
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
【清华大学】元知识图谱推理
专知
129+阅读 · 2019年9月2日
长文本表示学习概述
云栖社区
15+阅读 · 2019年5月9日
自然语言处理(NLP)知识结构总结
AI100
51+阅读 · 2018年8月17日
论文浅尝 | 变分知识图谱推理:在KG中引入变分推理框架
论文浅尝 | 基于神经网络的知识推理
开放知识图谱
15+阅读 · 2018年3月12日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员