Tool-integrated reasoning (TIR) has become a key approach for improving large reasoning models (LRMs) on complex problems. Prior work has mainly studied when to invoke tools, while overlooking how tools are applied. We identify two common patterns: a calculator pattern that uses code for direct computation, and an algorithmic pattern that encodes problems as programs. Misaligned choices often cause failures even when reasoning is sound. We propose a two-stage framework that first builds code competence from both patterns and then aligns pattern selection with teacher preferences. Across challenging math datasets, our pattern-aware method substantially improves both code usage and accuracy, for instance raising Code@1 on MATH500 from 64.0% to 70.5% and on AIME24 from 26.7% to 50.0%. These gains highlight the effectiveness of a pattern-aware approach for tool-integrated reasoning.


翻译:工具集成推理已成为提升大型推理模型处理复杂问题能力的关键方法。现有研究主要关注何时调用工具,却忽视了工具的具体应用方式。我们识别出两种常见模式:一种是使用代码进行直接计算的“计算器模式”,另一种是将问题编码为程序的“算法模式”。即使推理过程正确,模式选择不当也常导致失败。为此,我们提出了一个两阶段框架:首先从两种模式中构建代码能力,然后将模式选择与教师偏好对齐。在多个具有挑战性的数学数据集上,我们的模式感知方法显著提升了代码使用效率和准确率,例如在MATH500上将Code@1从64.0%提升至70.5%,在AIME24上从26.7%提升至50.0%。这些成果凸显了模式感知方法在工具集成推理中的有效性。

0
下载
关闭预览

相关内容

[ICML2024]消除偏差:微调基础模型以进行半监督学习
专知会员服务
18+阅读 · 2024年5月23日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关资讯
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员