LLM reasoning traces suffer from complex flaws -- *Step Internal Flaws* (logical errors, hallucinations, etc.) and *Step-wise Flaws* (overthinking, underthinking), which vary by sample. A natural approach would be to provide ground-truth labels to guide LLMs' reasoning. Contrary to intuition, we show that this yields no improvement in reasoning ability. We then propose CRAFT, a unified framework that mitigates both types of Step flaws, which builds a Reasoning Knowledge Graph (RKG) based on the consensus parts of multiple candidate traces, and synthesizes a high-quality trace through topological generation. Our approach improves label-prediction accuracy by 10+% on average, and consistently outperforms all baselines across both logical and mathematical reasoning benchmarks. Further, detailed benchmark evaluation proves that our method also improves the quality of LLMs' reasoning traces in multiple dimensions.


翻译:大语言模型的推理轨迹存在复杂缺陷——*步骤内部缺陷*(逻辑错误、幻觉等)和*步骤间缺陷*(过度思考、思考不足),这些缺陷因样本而异。一种自然的方法是为大语言模型提供真实标签以引导其推理。与直觉相反,我们证明这并未提升推理能力。为此,我们提出CRAFT——一个统一框架,用于缓解两类步骤缺陷:该框架基于多条候选轨迹的共识部分构建推理知识图谱(RKG),并通过拓扑生成合成高质量轨迹。我们的方法平均将标签预测准确率提升10%以上,并在逻辑推理与数学推理基准测试中持续优于所有基线方法。此外,详细的基准评估证明,该方法还能从多个维度提升大语言模型推理轨迹的质量。

0
下载
关闭预览

相关内容

大型语言模型推理增强外部知识:综述
专知会员服务
38+阅读 · 2025年6月2日
超越语言的推理:潜在思维链推理的综合综述
专知会员服务
22+阅读 · 2025年5月23日
通过逻辑推理赋能大语言模型:综述
专知会员服务
32+阅读 · 2025年2月24日
大模型数学推理数据合成相关方法
专知会员服务
36+阅读 · 2025年1月19日
迈向大型推理模型:基于大型语言模型的强化推理综述
专知会员服务
50+阅读 · 2025年1月17日
【大模型对齐】利用对齐使大型语言模型更好地推理
专知会员服务
48+阅读 · 2023年9月8日
【AAAI2021】知识图谱增强的预训练模型的生成式常识推理
【清华大学】元知识图谱推理
专知
129+阅读 · 2019年9月2日
自然语言处理常识推理综述论文,60页pdf
专知
73+阅读 · 2019年4月4日
论文浅尝 | 变分知识图谱推理:在KG中引入变分推理框架
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
0+阅读 · 4月19日
VIP会员
最新内容
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
2+阅读 · 6月24日
重新思考无人机时代的生存能力
专知会员服务
6+阅读 · 6月24日
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
5+阅读 · 6月24日
在人工智能加速决策环境中拓展OODA循环
专知会员服务
6+阅读 · 6月24日
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
5+阅读 · 6月24日
综述 | 世界动作模型:少做梦,多行动
专知会员服务
7+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
12+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关VIP内容
大型语言模型推理增强外部知识:综述
专知会员服务
38+阅读 · 2025年6月2日
超越语言的推理:潜在思维链推理的综合综述
专知会员服务
22+阅读 · 2025年5月23日
通过逻辑推理赋能大语言模型:综述
专知会员服务
32+阅读 · 2025年2月24日
大模型数学推理数据合成相关方法
专知会员服务
36+阅读 · 2025年1月19日
迈向大型推理模型:基于大型语言模型的强化推理综述
专知会员服务
50+阅读 · 2025年1月17日
【大模型对齐】利用对齐使大型语言模型更好地推理
专知会员服务
48+阅读 · 2023年9月8日
【AAAI2021】知识图谱增强的预训练模型的生成式常识推理
相关基金
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员