Effective tool use and reasoning are essential capabilities for large reasoning models~(LRMs) to address complex real-world problems. Through empirical analysis, we identify that current LRMs lack the capability of sub-task decomposition in complex tool use scenarios, leading to Lazy Reasoning. To address this, we propose a two-stage training framework D-CORE~(\underline{\textbf{D}}ecomposing tasks and \underline{\textbf{Co}}mposing \underline{\textbf{Re}}asoning processes) that first incentivize the LRMs' task decomposition reasoning capability via self-distillation, followed by diversity-aware reinforcement learning~(RL) to restore LRMs' reflective reasoning capability. D-CORE achieves robust tool-use improvements across diverse benchmarks and model scales. Experiments on BFCLv3 demonstrate superiority of our method: D-CORE-8B reaches 77.7\% accuracy, surpassing the best-performing 8B model by 5.7\%. Meanwhile, D-CORE-14B establishes a new state-of-the-art at 79.3\%, outperforming 70B models despite being 5$\times$ smaller. The source code is available at https://github.com/alibaba/EfficientAI.


翻译:有效的工具使用和推理能力是大型推理模型(LRMs)解决复杂现实问题的关键。通过实证分析,我们发现当前LRMs在复杂工具使用场景中缺乏子任务分解能力,导致“惰性推理”问题。为解决此问题,我们提出一个两阶段训练框架D-CORE(任务分解与推理过程组合),首先通过自蒸馏机制激励LRMs的任务分解推理能力,随后采用多样性感知强化学习恢复LRMs的反思推理能力。D-CORE在不同基准测试和模型规模上均实现了稳健的工具使用性能提升。在BFCLv3上的实验表明本方法的优越性:D-CORE-8B达到77.7%准确率,超越最优8B模型5.7%;同时D-CORE-14B以79.3%准确率创下新纪录,尽管体积缩小5倍,性能仍超越70B模型。源代码发布于https://github.com/alibaba/EfficientAI。

0
下载
关闭预览

相关内容

大语言模型的智能体化推理
专知会员服务
32+阅读 · 1月21日
大模型推理的天花板在哪里?
专知会员服务
15+阅读 · 2025年6月12日
结合知识增强的大型语言模型复杂问题求解综述
专知会员服务
16+阅读 · 2025年5月7日
《大型推理模型的安全性:综述》
专知会员服务
24+阅读 · 2025年4月25日
小型推理模型简要综述:训练、推理、应用与研究方向
专知会员服务
42+阅读 · 2025年4月16日
大规模推理模型的高效推理:综述
专知会员服务
21+阅读 · 2025年4月3日
停止过度思考:大型语言模型高效推理研究综述
专知会员服务
37+阅读 · 2025年3月21日
Vision-R1:激励多模态大语言模型中的推理能力
专知会员服务
23+阅读 · 2025年3月12日
通过集成 XNNPACK 实现推理速度飞跃
TensorFlow
26+阅读 · 2020年7月30日
特定目标情感分析——神经网络这是要逆天么
计算机研究与发展
14+阅读 · 2017年9月5日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
41+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
VIP会员
相关VIP内容
大语言模型的智能体化推理
专知会员服务
32+阅读 · 1月21日
大模型推理的天花板在哪里?
专知会员服务
15+阅读 · 2025年6月12日
结合知识增强的大型语言模型复杂问题求解综述
专知会员服务
16+阅读 · 2025年5月7日
《大型推理模型的安全性:综述》
专知会员服务
24+阅读 · 2025年4月25日
小型推理模型简要综述:训练、推理、应用与研究方向
专知会员服务
42+阅读 · 2025年4月16日
大规模推理模型的高效推理:综述
专知会员服务
21+阅读 · 2025年4月3日
停止过度思考:大型语言模型高效推理研究综述
专知会员服务
37+阅读 · 2025年3月21日
Vision-R1:激励多模态大语言模型中的推理能力
专知会员服务
23+阅读 · 2025年3月12日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
41+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员