ParaTool: Shifting Tool Representations from Context to Parameters - 专知论文

会员服务 ·

0

工具 · 上下文 · 参数化 · 参数空间 · 示例 ·

ParaTool: Shifting Tool Representations from Context to Parameters

翻译：ParaTool：将工具表征从上下文迁移至参数空间

Zekai Yu,Qi Meng,Qizhi Chu,Yu Hao,Chuan Shi,Cheng Yang

Tool calling extends large language models (LLMs) by enabling grounded interaction with external executable interfaces, thereby supporting environment-coupled problem solving. However, mainstream in-context learning (ICL) approaches typically incorporate detailed tool documentation and usage examples directly into the context. This results in substantial inference overhead and heightened risks of hallucination as the context length grows. Conversely, while tuning-based methods improve general tool-calling capabilities, they often fail to effectively internalize the specific details of previously seen tools, thereby retaining a dependency on in-context documentation. To address these limitations, we propose ParaTool, a framework that projects each tool into a dedicated, loadable set of parameters. By equipping a dynamic integration of these parameterized tools, the LLM can perform tool calling without relying on in-context documents or examples. Specifically, our approach consists of three stages: (1) parametric tool pre-training encapsulates the knowledge of different tools into independent parameter modules; (2) soft tool selection employs a gating network to dynamically weigh and aggregate relevant tool parameters; and (3) parametric tool fine-tuning jointly updates tool parameters to align the training and inference processes. Experiments on Stable ToolBench and BFCL demonstrate that ParaTool significantly outperforms strong ICL-based baselines, achieving superior performance while reducing computational complexity.

翻译：工具调用通过支持大语言模型（LLMs）与外部可执行接口进行有根交互，从而赋能环境耦合的问题求解。然而，主流情境学习（ICL）方法通常将详尽的工具文档及使用示例直接嵌入上下文之中，这导致随着上下文长度增长而产生显著的推理开销与幻觉风险。相反，基于微调的方法虽然能提升通用工具调用能力，但往往未能有效内化先前所见工具的具体细节，从而依然依赖于上下文文档。为应对这些局限，本文提出ParaTool框架，该框架将每个工具映射为一组可独立加载的参数集合。通过动态集成这些参数化工具，LLMs可在无需上下文文档或示例的条件下执行工具调用。具体而言，本方法包含三个阶段：（1）参数化工具预训练，将不同工具的知识封装至独立参数模块中；（2）软性工具选择，采用门控网络动态加权并聚合相关工具参数；（3）参数化工具微调，联合更新工具参数以对齐训练与推理过程。在Stable ToolBench和BFCL上的实验表明，ParaTool显著优于基于ICL的强基线方法，在降低计算复杂度的同时实现了更优性能。

0

相关内容

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

专知会员服务

29+阅读 · 4月6日

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

专知会员服务

43+阅读 · 2025年7月18日

【ICML2025】SparseLoRA：利用上下文稀疏性加速大语言模型微调

【ICML2025】SparseLoRA：利用上下文稀疏性加速大语言模型微调

专知会员服务

11+阅读 · 2025年6月23日

谷歌等最新《使用检索示例的大语言模型上下文学习》综述

谷歌等最新《使用检索示例的大语言模型上下文学习》综述

专知会员服务

57+阅读 · 2024年1月24日

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

专知会员服务

70+阅读 · 2023年12月21日

【NeurIPS2023】LLM 用于半自动数据科学：介绍 CAAFE，一种具有上下文感知的自动特征工程方法

【NeurIPS2023】LLM 用于半自动数据科学：介绍 CAAFE，一种具有上下文感知的自动特征工程方法

专知会员服务

37+阅读 · 2023年10月3日

现在大火的“In-context Learning”是什么？北大等最新《语境学习ICL》综述论文，详述ICL进展、挑战和方向

现在大火的“In-context Learning”是什么？北大等最新《语境学习ICL》综述论文，详述ICL进展、挑战和方向

专知会员服务

41+阅读 · 2023年1月3日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

【AAAI2020】Context-Transformer:上下文转换器:解决对象混淆的小样本检测，Context-Transformer: Tackling Object Confusion for Few-Shot Detection

【AAAI2020】Context-Transformer:上下文转换器:解决对象混淆的小样本检测，Context-Transformer: Tackling Object Confusion for Few-Shot Detection

专知会员服务

51+阅读 · 2020年3月17日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

【泡泡图灵智库】ContextDesc：用跨模态上下文增强的局部描述子

【泡泡图灵智库】ContextDesc：用跨模态上下文增强的局部描述子

泡泡机器人SLAM

34+阅读 · 2019年9月18日

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

AINLP

40+阅读 · 2019年6月9日

你的TextGAN调出来了么？来看看人在怎么调的

你的TextGAN调出来了么？来看看人在怎么调的

专知

85+阅读 · 2019年6月6日

BERT、GPT-2这些顶尖工具到底该怎么用到我的模型里?

BERT、GPT-2这些顶尖工具到底该怎么用到我的模型里?

新智元

44+阅读 · 2019年2月22日

图像和文本的融合表示学习——Text2Image和Image2Text

图像和文本的融合表示学习——Text2Image和Image2Text

专知

125+阅读 · 2018年6月11日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

情感分析的新方法，使用word2vec对微博文本进行情感分析和分类

情感分析的新方法，使用word2vec对微博文本进行情感分析和分类

数据挖掘入门与实战

22+阅读 · 2018年1月6日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

独家 | 一文读懂迁移学习（附学习工具包）

独家 | 一文读懂迁移学习（附学习工具包）

数据派THU

13+阅读 · 2017年7月13日

大数据背景下面向操作模式的约简算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于迁移学习的图像隐写分析新方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

基于日常移动平台的用户状态感知与软件协同技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

基于关系语义的空间场景信息理解

国家自然科学基金

5+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

Atlas: Orchestrating Heterogeneous Models and Tools for Multi-Domain Complex Reasoning

Arxiv

0+阅读 · 6月16日

Reward-SQL: Boosting Text-to-SQL via Stepwise Execution-Aware Reasoning and Process-Supervised Rewards

Arxiv

0+阅读 · 6月12日

PromptEmbedder: Efficient and Transferable Text Embedding via Dual-LLM Soft Prompting

Arxiv

0+阅读 · 6月9日

Contract2Tool: Learning Preconditions and Effects for Reliable Tool-Augmented LLM Agents

Arxiv

0+阅读 · 6月5日

ToolSense: A Diagnostic Framework for Auditing Parametric Tool Knowledge in LLMs

Arxiv

0+阅读 · 6月4日

From Talking Words to Sharing Thoughts: Scalable Multi-LLM Aggregation via Structured Message Passing

Arxiv

0+阅读 · 5月29日

optimize_anything: A Universal API for Optimizing any Text Parameter

Arxiv

0+阅读 · 5月19日

Understanding In-Context Learning for Nonlinear Regression with Transformers: Attention as Featurizer

Arxiv

0+阅读 · 5月6日

RaTA-Tool: Retrieval-based Tool Selection with Multimodal Large Language Models

Arxiv

0+阅读 · 4月16日

Instruction Tuning for Large Language Models: A Survey

Instruction Tuning for Large Language Models: A Survey

Arxiv

15+阅读 · 2023年8月21日

VIP会员

文章信息

相关主题

最新内容

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

5+阅读 · 今天8:00

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

4+阅读 · 今天7:44

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

4+阅读 · 今天7:28

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

4+阅读 · 今天7:18

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

5+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

4+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

4+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

5+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

4+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

8+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

7+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

4+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

相关VIP内容

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

专知会员服务

29+阅读 · 4月6日

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

专知会员服务

43+阅读 · 2025年7月18日

【ICML2025】SparseLoRA：利用上下文稀疏性加速大语言模型微调

【ICML2025】SparseLoRA：利用上下文稀疏性加速大语言模型微调

专知会员服务

11+阅读 · 2025年6月23日

谷歌等最新《使用检索示例的大语言模型上下文学习》综述

谷歌等最新《使用检索示例的大语言模型上下文学习》综述

专知会员服务

57+阅读 · 2024年1月24日

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

专知会员服务

70+阅读 · 2023年12月21日

【NeurIPS2023】LLM 用于半自动数据科学：介绍 CAAFE，一种具有上下文感知的自动特征工程方法

【NeurIPS2023】LLM 用于半自动数据科学：介绍 CAAFE，一种具有上下文感知的自动特征工程方法

专知会员服务

37+阅读 · 2023年10月3日

现在大火的“In-context Learning”是什么？北大等最新《语境学习ICL》综述论文，详述ICL进展、挑战和方向

现在大火的“In-context Learning”是什么？北大等最新《语境学习ICL》综述论文，详述ICL进展、挑战和方向

专知会员服务

41+阅读 · 2023年1月3日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

【AAAI2020】Context-Transformer:上下文转换器:解决对象混淆的小样本检测，Context-Transformer: Tackling Object Confusion for Few-Shot Detection

【AAAI2020】Context-Transformer:上下文转换器:解决对象混淆的小样本检测，Context-Transformer: Tackling Object Confusion for Few-Shot Detection

专知会员服务

51+阅读 · 2020年3月17日

热门VIP内容

开通专知VIP会员享更多权益服务

重新思考无人机时代的生存能力

在人工智能加速决策环境中拓展OODA循环

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

装甲突击旅：现代战争思考、战斗与组织

相关资讯

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

【泡泡图灵智库】ContextDesc：用跨模态上下文增强的局部描述子

【泡泡图灵智库】ContextDesc：用跨模态上下文增强的局部描述子

泡泡机器人SLAM

34+阅读 · 2019年9月18日

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

AINLP

40+阅读 · 2019年6月9日

你的TextGAN调出来了么？来看看人在怎么调的

你的TextGAN调出来了么？来看看人在怎么调的

专知

85+阅读 · 2019年6月6日

BERT、GPT-2这些顶尖工具到底该怎么用到我的模型里?

BERT、GPT-2这些顶尖工具到底该怎么用到我的模型里?

新智元

44+阅读 · 2019年2月22日

图像和文本的融合表示学习——Text2Image和Image2Text

图像和文本的融合表示学习——Text2Image和Image2Text

专知

125+阅读 · 2018年6月11日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

情感分析的新方法，使用word2vec对微博文本进行情感分析和分类

情感分析的新方法，使用word2vec对微博文本进行情感分析和分类

数据挖掘入门与实战

22+阅读 · 2018年1月6日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

独家 | 一文读懂迁移学习（附学习工具包）

独家 | 一文读懂迁移学习（附学习工具包）

数据派THU

13+阅读 · 2017年7月13日

相关论文

Atlas: Orchestrating Heterogeneous Models and Tools for Multi-Domain Complex Reasoning

Arxiv

0+阅读 · 6月16日

Reward-SQL: Boosting Text-to-SQL via Stepwise Execution-Aware Reasoning and Process-Supervised Rewards

Arxiv

0+阅读 · 6月12日

PromptEmbedder: Efficient and Transferable Text Embedding via Dual-LLM Soft Prompting

Arxiv

0+阅读 · 6月9日

Contract2Tool: Learning Preconditions and Effects for Reliable Tool-Augmented LLM Agents

Arxiv

0+阅读 · 6月5日

ToolSense: A Diagnostic Framework for Auditing Parametric Tool Knowledge in LLMs

Arxiv

0+阅读 · 6月4日

From Talking Words to Sharing Thoughts: Scalable Multi-LLM Aggregation via Structured Message Passing

Arxiv

0+阅读 · 5月29日

optimize_anything: A Universal API for Optimizing any Text Parameter

Arxiv

0+阅读 · 5月19日

Understanding In-Context Learning for Nonlinear Regression with Transformers: Attention as Featurizer

Arxiv

0+阅读 · 5月6日

RaTA-Tool: Retrieval-based Tool Selection with Multimodal Large Language Models

Arxiv

0+阅读 · 4月16日

Instruction Tuning for Large Language Models: A Survey

Instruction Tuning for Large Language Models: A Survey

Arxiv

15+阅读 · 2023年8月21日

相关基金

大数据背景下面向操作模式的约简算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于迁移学习的图像隐写分析新方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

基于日常移动平台的用户状态感知与软件协同技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

基于关系语义的空间场景信息理解

国家自然科学基金

5+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员