Large Language Models (LLMs) can enhance their reasoning capabilities by using external tools. However, many tasks lack predefined tools. Prior works have explored instructing LLMs to generate tools on their own, but such approaches depend heavily on internal knowledge and struggle when tasks fall outside the model's knowledge scope. To address this limitation, we propose RefTool, a reference-guided framework for automatic tool creation that leverages external materials, such as textbooks and knowledge snippets. RefTool consists of two modules: (1) tool creation, where LLMs generate executable tools from reference content, validate them using illustrative examples, and organize them hierarchically into a toolbox; and (2) tool utilization, where LLMs navigate the toolbox structure to select and apply the appropriate tools to solve problems. Experiments on causality, physics, and chemistry benchmarks demonstrate that RefTool outperforms existing tool-creation and domain-specific reasoning methods by 12.3% on average accuracy, while being cost-efficient and broadly generalizable to non-scientific tasks, e.g., extremely low-resource language translation. Analyses reveal that grounding tool creation in references produces accurate and faithful tools, and that the hierarchical structure facilitates effective tool selection. RefTool enables LLMs to overcome internal knowledge limitations, advancing generalizable reasoning in knowledge-intensive domains.


翻译:大型语言模型(LLM)可通过使用外部工具增强其推理能力。然而,许多任务缺乏预定义工具。已有研究探索指导LLM自主生成工具,但此类方法严重依赖模型内部知识,当任务超出模型知识范围时效果受限。为突破这一局限,我们提出RefTool——一种利用教科书、知识片段等外部材料的参考引导式自动工具创建框架。RefTool包含两个模块:(1)工具创建:LLM基于参考内容生成可执行工具,通过示例验证其有效性,并以层级结构组织成工具箱;(2)工具调用:LLM通过导航工具箱结构选择并应用合适工具解决问题。在因果推理、物理和化学基准测试上的实验表明,RefTool在平均准确率上优于现有工具创建方法与领域专用推理方法12.3%,同时具备高成本效益,并能泛化至非科学任务(如极低资源语言翻译)。分析表明:基于参考的工具创建能生成精确可靠的工具,层级结构则促进了有效的工具选择。RefTool使LLM能够突破内部知识限制,推动知识密集型领域的可泛化推理发展。

0
下载
关闭预览

相关内容

大型语言模型推理增强外部知识:综述
专知会员服务
38+阅读 · 2025年6月2日
迈向大型推理模型:基于大型语言模型的强化推理综述
专知会员服务
50+阅读 · 2025年1月17日
搜狗开源机器阅读理解工具箱
专知
19+阅读 · 2019年5月16日
知识在检索式对话系统的应用
微信AI
32+阅读 · 2018年9月20日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 38分钟前
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 40分钟前
美以伊冲突:无人机与人工智能的运用
专知会员服务
2+阅读 · 52分钟前
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员