Large language models (LLMs) often fail to learn effective long chain-of-thought (Long CoT) reasoning from human or non-Long-CoT LLMs imitation. To understand this, we propose that effective and learnable Long CoT trajectories feature stable molecular-like structures in unified view, which are formed by three interaction types: Deep-Reasoning (covalent-like), Self-Reflection (hydrogen-bond-like), and Self-Exploration (van der Waals-like). Analysis of distilled trajectories reveals these structures emerge from Long CoT fine-tuning, not keyword imitation. We introduce Effective Semantic Isomers and show that only bonds promoting fast entropy convergence support stable Long CoT learning, while structural competition impairs training. Drawing on these findings, we present Mole-Syn, a distribution-transfer-graph method that guides synthesis of effective Long CoT structures, boosting performance and RL stability across benchmarks.


翻译:大型语言模型(LLM)往往难以通过模仿人类或非长链推理LLM来习得有效的长链推理能力。为探究此问题,我们提出在统一视角下,有效且可习得的长链推理轨迹具有类似分子的稳定结构,该结构由三种相互作用类型构成:深度推理(类共价键作用)、自我反思(类氢键作用)与自我探索(类范德华作用)。对蒸馏轨迹的分析表明,这些结构源于长链推理微调过程,而非关键词模仿。我们提出有效语义异构体概念,并证明仅促进快速熵收敛的键合作用能支撑稳定的长链推理学习,而结构竞争会损害训练效果。基于这些发现,我们提出Mole-Syn——一种分布转移图方法,可引导有效长链推理结构的合成,在多项基准测试中显著提升性能并增强强化学习稳定性。

0
下载
关闭预览

相关内容

《潜在推理综述》
专知会员服务
21+阅读 · 2025年7月9日
超越语言的推理:潜在思维链推理的综合综述
专知会员服务
22+阅读 · 2025年5月23日
迈向推理时代:大型语言模型的长链推理研究综述
专知会员服务
46+阅读 · 2025年3月13日
迈向大型推理模型:基于大型语言模型的强化推理综述
专知会员服务
49+阅读 · 2025年1月17日
【清华大学】元知识图谱推理
专知
129+阅读 · 2019年9月2日
长文本表示学习概述
云栖社区
15+阅读 · 2019年5月9日
自然语言处理(NLP)知识结构总结
AI100
51+阅读 · 2018年8月17日
论文浅尝 | 基于神经网络的知识推理
开放知识图谱
15+阅读 · 2018年3月12日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员