Trajectory2Task: Training Robust Tool-Calling Agents with Synthesized Yet Verifiable Data for Complex User Intents - 专知论文

会员服务 ·

0

工具 · 合成 · 鲁棒 · 用户意图 · 可行 ·

Trajectory2Task: Training Robust Tool-Calling Agents with Synthesized Yet Verifiable Data for Complex User Intents

翻译：轨迹转任务：利用可验证合成数据训练鲁棒工具调用智能体以应对复杂用户意图

Ziyi Wang,Yuxuan Lu,Yimeng Zhang,Ziwei Dong,Jing Huang,Jiri Gesi,Xianfeng Tang,Chen Luo,Yisi Sang,Hanqing Lu,Manling Li,Dakuo Wang

Tool-calling agents are increasingly deployed in real-world customer-facing workflows. Yet most studies on tool-calling agents focus on idealized settings with general, fixed, and well-specified tasks. In real-world applications, user requests are often (1) ambiguous, (2) changing over time, or (3) infeasible due to policy constraints, and training and evaluation data that cover these diverse, complex interaction patterns remain under-represented. To bridge the gap, we present Trajectory2Task, a verifiable data generation pipeline for studying tool use at scale under three realistic user scenarios: ambiguous intent, changing intent, and infeasible intents. The pipeline first conducts multi-turn exploration to produce valid tool-call trajectories. It then converts these trajectories into user-facing tasks with controlled intent adaptations. This process yields verifiable task that support closed-loop evaluation and training. We benchmark seven state-of-the-art LLMs on the generated complex user scenario tasks and observe frequent failures. Finally, using successful trajectories obtained from task rollouts, we fine-tune lightweight LLMs and find consistent improvements across all three conditions, along with better generalization to unseen tool-use domains, indicating stronger general tool-calling ability.

翻译：工具调用智能体正日益广泛应用于面向客户的现实工作流程中。然而，当前大多数关于工具调用智能体的研究仍聚焦于理想化场景，即处理通用、固定且明确指定的任务。在实际应用中，用户请求往往具有以下特征：(1) 意图模糊，(2) 随时间动态变化，或(3) 因策略约束而不可行。而涵盖这些多样化复杂交互模式的训练与评估数据仍严重不足。为弥合这一差距，我们提出了Trajectory2Task——一个可验证的数据生成流程，用于在三种现实用户场景（模糊意图、动态意图及不可行意图）下大规模研究工具使用。该流程首先通过多轮探索生成有效的工具调用轨迹，随后将这些轨迹转化为具有可控意图适配的用户导向任务。此过程产生可验证的任务数据，支持闭环评估与训练。我们在生成的复杂用户场景任务上对七种前沿大语言模型进行基准测试，观察到频繁的失败案例。最后，利用从任务执行中获得的成功轨迹对轻量化大语言模型进行微调，发现在所有三种场景下均取得稳定性能提升，同时模型在未见过的工具使用领域展现出更好的泛化能力，表明其获得了更强的通用工具调用能力。

0

相关内容

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

21+阅读 · 3月8日

通用智能体评估的逻辑架构

通用智能体评估的逻辑架构

专知会员服务

21+阅读 · 2月28日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

33+阅读 · 2025年12月31日

【博士论文】面向开放式世界的鲁棒智能体

【博士论文】面向开放式世界的鲁棒智能体

专知会员服务

24+阅读 · 2025年12月10日

数据驱动的具身学习探索

数据驱动的具身学习探索

专知会员服务

17+阅读 · 2025年2月26日

设计和构建强大的大语言模型智能体

设计和构建强大的大语言模型智能体

专知会员服务

55+阅读 · 2024年10月6日

【KDD2024】预训练语言模型适应设备上用户意图预测的群体到个体调优框架

【KDD2024】预训练语言模型适应设备上用户意图预测的群体到个体调优框架

专知会员服务

12+阅读 · 2024年8月20日

【WWW2024教程】大型语言模型驱动智能体，附slides

【WWW2024教程】大型语言模型驱动智能体，附slides

专知会员服务

64+阅读 · 2024年5月14日

博士论文 |《多智能体系统：协作辅助智能体和对对抗性攻击的鲁棒性》哈佛大学

博士论文 |《多智能体系统：协作辅助智能体和对对抗性攻击的鲁棒性》哈佛大学

专知会员服务

68+阅读 · 2023年2月27日

【多目标多智能体系统决策】196页PDF布鲁塞尔自由大学博士论文，Decision Making in Multi-Objective Multi-Agent Systems——A Utility-Based Perspective

【多目标多智能体系统决策】196页PDF布鲁塞尔自由大学博士论文，Decision Making in Multi-Objective Multi-Agent Systems——A Utility-Based Perspective

专知会员服务

118+阅读 · 2022年3月18日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

32+阅读 · 2022年10月17日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

【美国陆军】《人工智能系统能否提高陆军任务指挥过程中的信息收集效率？》39页技术报告

【美国陆军】《人工智能系统能否提高陆军任务指挥过程中的信息收集效率？》39页技术报告

专知

51+阅读 · 2022年8月31日

推荐！【中文版】《人工智能在指挥和控制系统中的决策支持》瑞典国防研究局

推荐！【中文版】《人工智能在指挥和控制系统中的决策支持》瑞典国防研究局

专知

35+阅读 · 2022年7月31日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

人工智能训练师的再定义

人工智能训练师的再定义

竹间智能Emotibot

10+阅读 · 2019年5月15日

今日面试题分享：请写出你了解的机器学习特征工程操作，以及它的意义

今日面试题分享：请写出你了解的机器学习特征工程操作，以及它的意义

七月在线实验室

39+阅读 · 2019年3月20日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

基于车路协同的群体智能协同

基于车路协同的群体智能协同

智能交通技术

10+阅读 · 2019年1月23日

手动特征工程已经OUT了！自动特征工程才是改进机器学习的方式

手动特征工程已经OUT了！自动特征工程才是改进机器学习的方式

AI100

11+阅读 · 2018年9月4日

复合型移动群智感知关键技术研究

国家自然科学基金

9+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

数据驱动关键性能指标相关的故障诊断方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向大规模动态异构网络的支持多用户并发任务的物联网应用构建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于日常移动平台的用户状态感知与软件协同技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

XSkill: Continual Learning from Experience and Skills in Multimodal Agents

Arxiv

0+阅读 · 3月12日

TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training

Arxiv

0+阅读 · 3月2日

Gecko: A Simulation Environment with Stateful Feedback for Refining Agent Tool Calls

Arxiv

0+阅读 · 2月22日

Toward Scalable Verifiable Reward: Proxy State-Based Evaluation for Multi-turn Tool-Calling LLM Agents

Arxiv

0+阅读 · 2月18日

CM2: Reinforcement Learning with Checklist Rewards for Multi-Turn and Multi-Step Agentic Tool Use

Arxiv

0+阅读 · 2月12日

Learning to Compose for Cross-domain Agentic Workflow Generation

Arxiv

0+阅读 · 2月11日

AgentSkiller: Scaling Generalist Agent Intelligence through Semantically Integrated Cross-Domain Data Synthesis

Arxiv

1+阅读 · 2月10日

Supporting software engineering tasks with agentic AI: Demonstration on document retrieval and test scenario generation

Arxiv

0+阅读 · 2月4日

AgentRx: Diagnosing AI Agent Failures from Execution Trajectories

Arxiv

0+阅读 · 2月2日

From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

2025年大语言模型进展报告

2025年大语言模型进展报告

专知会员服务

1+阅读 · 今天13:30

多智能体协作机制

多智能体协作机制

专知会员服务

1+阅读 · 今天13:26

非对称优势：美海军开发低成本反无人机技术

非对称优势：美海军开发低成本反无人机技术

专知会员服务

4+阅读 · 今天4:39

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

专知会员服务

14+阅读 · 今天2:52

《美战争部小企业创新研究（SBIR）计划》

《美战争部小企业创新研究（SBIR）计划》

专知会员服务

6+阅读 · 今天2:48

《军事模拟：将军事条令与目标融入AI智能体》

《军事模拟：将军事条令与目标融入AI智能体》

专知会员服务

9+阅读 · 今天2:43

【NTU博士论文】3D人体动作生成

【NTU博士论文】3D人体动作生成

专知会员服务

7+阅读 · 4月24日

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

专知会员服务

8+阅读 · 4月24日

以色列军事技术对美国军力发展的持续性赋能

以色列军事技术对美国军力发展的持续性赋能

专知会员服务

8+阅读 · 4月24日

战场之外的较量：美伊冲突中的认知战与心理博弈

战场之外的较量：美伊冲突中的认知战与心理博弈

专知会员服务

6+阅读 · 4月24日

俄乌战争中乌克兰防空能力演变与见解（中文版）

俄乌战争中乌克兰防空能力演变与见解（中文版）

专知会员服务

7+阅读 · 4月24日

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

10+阅读 · 4月24日

《深度强化学习在兵棋推演中的应用》40页报告

《深度强化学习在兵棋推演中的应用》40页报告

专知会员服务

14+阅读 · 4月24日

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

10+阅读 · 4月24日

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

5+阅读 · 4月24日

相关VIP内容

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

21+阅读 · 3月8日

通用智能体评估的逻辑架构

通用智能体评估的逻辑架构

专知会员服务

21+阅读 · 2月28日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

33+阅读 · 2025年12月31日

【博士论文】面向开放式世界的鲁棒智能体

【博士论文】面向开放式世界的鲁棒智能体

专知会员服务

24+阅读 · 2025年12月10日

数据驱动的具身学习探索

数据驱动的具身学习探索

专知会员服务

17+阅读 · 2025年2月26日

设计和构建强大的大语言模型智能体

设计和构建强大的大语言模型智能体

专知会员服务

55+阅读 · 2024年10月6日

【KDD2024】预训练语言模型适应设备上用户意图预测的群体到个体调优框架

【KDD2024】预训练语言模型适应设备上用户意图预测的群体到个体调优框架

专知会员服务

12+阅读 · 2024年8月20日

【WWW2024教程】大型语言模型驱动智能体，附slides

【WWW2024教程】大型语言模型驱动智能体，附slides

专知会员服务

64+阅读 · 2024年5月14日

博士论文 |《多智能体系统：协作辅助智能体和对对抗性攻击的鲁棒性》哈佛大学

博士论文 |《多智能体系统：协作辅助智能体和对对抗性攻击的鲁棒性》哈佛大学

专知会员服务

68+阅读 · 2023年2月27日

【多目标多智能体系统决策】196页PDF布鲁塞尔自由大学博士论文，Decision Making in Multi-Objective Multi-Agent Systems——A Utility-Based Perspective

【多目标多智能体系统决策】196页PDF布鲁塞尔自由大学博士论文，Decision Making in Multi-Objective Multi-Agent Systems——A Utility-Based Perspective

专知会员服务

118+阅读 · 2022年3月18日

热门VIP内容

开通专知VIP会员享更多权益服务

多智能体协作机制

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

2025年大语言模型进展报告

非对称优势：美海军开发低成本反无人机技术

相关资讯

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

32+阅读 · 2022年10月17日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

【美国陆军】《人工智能系统能否提高陆军任务指挥过程中的信息收集效率？》39页技术报告

【美国陆军】《人工智能系统能否提高陆军任务指挥过程中的信息收集效率？》39页技术报告

专知

51+阅读 · 2022年8月31日

推荐！【中文版】《人工智能在指挥和控制系统中的决策支持》瑞典国防研究局

推荐！【中文版】《人工智能在指挥和控制系统中的决策支持》瑞典国防研究局

专知

35+阅读 · 2022年7月31日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

人工智能训练师的再定义

人工智能训练师的再定义

竹间智能Emotibot

10+阅读 · 2019年5月15日

今日面试题分享：请写出你了解的机器学习特征工程操作，以及它的意义

今日面试题分享：请写出你了解的机器学习特征工程操作，以及它的意义

七月在线实验室

39+阅读 · 2019年3月20日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

基于车路协同的群体智能协同

基于车路协同的群体智能协同

智能交通技术

10+阅读 · 2019年1月23日

手动特征工程已经OUT了！自动特征工程才是改进机器学习的方式

手动特征工程已经OUT了！自动特征工程才是改进机器学习的方式

AI100

11+阅读 · 2018年9月4日

相关论文

XSkill: Continual Learning from Experience and Skills in Multimodal Agents

Arxiv

0+阅读 · 3月12日

TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training

Arxiv

0+阅读 · 3月2日

Gecko: A Simulation Environment with Stateful Feedback for Refining Agent Tool Calls

Arxiv

0+阅读 · 2月22日

Toward Scalable Verifiable Reward: Proxy State-Based Evaluation for Multi-turn Tool-Calling LLM Agents

Arxiv

0+阅读 · 2月18日

CM2: Reinforcement Learning with Checklist Rewards for Multi-Turn and Multi-Step Agentic Tool Use

Arxiv

0+阅读 · 2月12日

Learning to Compose for Cross-domain Agentic Workflow Generation

Arxiv

0+阅读 · 2月11日

AgentSkiller: Scaling Generalist Agent Intelligence through Semantically Integrated Cross-Domain Data Synthesis

Arxiv

1+阅读 · 2月10日

Supporting software engineering tasks with agentic AI: Demonstration on document retrieval and test scenario generation

Arxiv

0+阅读 · 2月4日

AgentRx: Diagnosing AI Agent Failures from Execution Trajectories

Arxiv

0+阅读 · 2月2日

From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents

Arxiv

0+阅读 · 1月30日

相关基金

复合型移动群智感知关键技术研究

国家自然科学基金

9+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

数据驱动关键性能指标相关的故障诊断方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向大规模动态异构网络的支持多用户并发任务的物联网应用构建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于日常移动平台的用户状态感知与软件协同技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员