Toward Scalable Terminal Task Synthesis via Skill Graphs - 专知论文

会员服务 ·

0

执行轨迹 · 多样性 · 路径 · 智能体 · 构建 ·

Toward Scalable Terminal Task Synthesis via Skill Graphs

翻译：面向可扩展的终端任务综合：基于技能图的方法

Zhiyuan Fan,Tinghao Yu,Yuanjun Cai,Jiangtao Guan,Yun Yang,Dingxin Hu,Jiang Zhou,Xing Wu,Zhuo Han,Feng Zhang,Lilin Wang

Terminal agents have demonstrated strong potential for autonomous command-line execution, yet their training remains constrained by the scarcity of high-quality and diverse execution trajectories. Existing approaches mitigate this bottleneck by synthesizing large-scale terminal task instances for trajectory sampling. However, they primarily focus on scaling the number of tasks while providing limited control over the diversity of execution trajectories that agents actually experience during training. In this paper, we present SkillSynth, an automated framework for terminal task synthesis built on a scenario-mediated skill graph. SkillSynth first constructs a large-scale skill graph, where scenarios serve as intermediate transition nodes that connect diverse command-line skills. It then samples paths from this graph as abstractions of real-world workflows, and uses a multi-agent harness to instantiate them into executable task instances. By grounding task synthesis in graph-sampled workflow paths, SkillSynth explicitly controls the diversity of minimal execution trajectories required to solve the synthesized tasks. Experiments on Terminal-Bench demonstrate the effectiveness of SkillSynth. Moreover, task instances synthesized by SkillSynth have been adopted to train Hy3 Preview, contributing to its enhanced agentic capabilities in terminal-based settings.

翻译：终端智能体在自主命令行执行方面展现出强大潜力，但其训练仍受限于高质量、多样化执行轨迹的匮乏。现有方法通过综合大规模终端任务实例进行轨迹采样来缓解这一瓶颈，然而它们主要致力于扩展任务数量，对智能体在训练过程中实际经历的执行轨迹多样性控制有限。本文提出SkillSynth——一种基于场景中介技能图的终端任务综合自动化框架。SkillSynth首先构建大规模技能图，其中场景作为连接多样化命令行技能的中间过渡节点；随后从该图中采样路径作为真实工作流的抽象表示，并利用多智能体协作系统将其实例化为可执行任务。通过将任务综合锚定在图采样的工作流路径上，SkillSynth明确控制了解答综合任务所需最小执行轨迹的多样性。在Terminal-Bench上的实验验证了SkillSynth的有效性。此外，由SkillSynth综合的任务实例已被用于训练Hy3 Preview模型，显著增强了其在终端环境中的智能体能力。

0

相关内容

执行轨迹

【博士论文】面向可扩展且可信智能系统的强化学习

【博士论文】面向可扩展且可信智能系统的强化学习

专知会员服务

12+阅读 · 5月13日

智能体技能综合综述：分类、技术与应用

智能体技能综合综述：分类、技术与应用

专知会员服务

33+阅读 · 5月11日

《面向大语言模型引导规划、Bandit算法驱动探索与多智能体导航的分层决策问题研究》180页

《面向大语言模型引导规划、Bandit算法驱动探索与多智能体导航的分层决策问题研究》180页

专知会员服务

16+阅读 · 4月16日

【牛津博士论文】面向长时程决策任务的高效智能体训练方法

【牛津博士论文】面向长时程决策任务的高效智能体训练方法

专知会员服务

19+阅读 · 3月27日

智能体世界模型：面向智能体化强化学习的无限合成环境

智能体世界模型：面向智能体化强化学习的无限合成环境

专知会员服务

23+阅读 · 2月11日

在从交互中学习时代面向大语言模型智能体的可扩展环境：综述

在从交互中学习时代面向大语言模型智能体的可扩展环境：综述

专知会员服务

22+阅读 · 2025年11月15日

面向大语言模型的智能体化强化学习图景：综述

面向大语言模型的智能体化强化学习图景：综述

专知会员服务

55+阅读 · 2025年9月3日

《面向人机协作的扩展型信念-愿望-意图模型》最新111页

《面向人机协作的扩展型信念-愿望-意图模型》最新111页

专知会员服务

36+阅读 · 2025年7月28日

《基于二元优化与图学习的多智能体行动方案自动生成》

《基于二元优化与图学习的多智能体行动方案自动生成》

专知会员服务

27+阅读 · 2025年6月26日

「可解释知识图谱推理」最新方法综述

「可解释知识图谱推理」最新方法综述

专知会员服务

89+阅读 · 2022年12月17日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

《综述：多智能体系统（MAS）中的任务分配技术》美国空军项目支持

《综述：多智能体系统（MAS）中的任务分配技术》美国空军项目支持

专知

55+阅读 · 2022年10月6日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

66+阅读 · 2022年8月25日

【博士论文】多任务学习视觉场景理解，140页pdf

【博士论文】多任务学习视觉场景理解，140页pdf

专知

28+阅读 · 2022年4月5日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

最新《多任务学习》综述，39页pdf

最新《多任务学习》综述，39页pdf

专知

28+阅读 · 2020年7月10日

多任务学习(Multitask-Learning)相关资料、经典论文、开源代码整理分享

多任务学习(Multitask-Learning)相关资料、经典论文、开源代码整理分享

深度学习与NLP

45+阅读 · 2019年10月22日

【斯坦福大学课程】深度多任务学习与元学习，CS 330: Deep Multi-Task and Meta Learning

【斯坦福大学课程】深度多任务学习与元学习，CS 330: Deep Multi-Task and Meta Learning

专知

29+阅读 · 2019年9月27日

综述：Image Caption 任务之语句多样性

综述：Image Caption 任务之语句多样性

PaperWeekly

22+阅读 · 2018年11月30日

学界 | 多任务学习概述论文：从定义和方法到应用和原理分析

学界 | 多任务学习概述论文：从定义和方法到应用和原理分析

机器之心

12+阅读 · 2018年3月9日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于草图的几何处理和应用

国家自然科学基金

2+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向任务成功性的可修系统重要度分析及优化

国家自然科学基金

0+阅读 · 2014年12月31日

面向地图综合的多尺度空间聚类理论与方法

国家自然科学基金

1+阅读 · 2014年12月31日

基于动态缩比模型的操纵面效能测试方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于桁架-机构映射的多体系统拓扑优化方法

国家自然科学基金

0+阅读 · 2014年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

SCALER:Synthetic Scalable Adaptive Learning Environment for Reasoning

Arxiv

0+阅读 · 4月20日

Scalable and Adaptive Parallel Training of Graph Transformer on Large Graphs

Arxiv

0+阅读 · 4月17日

Agentic Aggregation for Parallel Scaling of Long-Horizon Agentic Tasks

Arxiv

0+阅读 · 4月13日

SkillX: Automatically Constructing Skill Knowledge Bases for Agents

Arxiv

0+阅读 · 4月6日

SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization

Arxiv

0+阅读 · 4月2日

SkillRouter: Skill Routing for LLM Agents at Scale

Arxiv

0+阅读 · 3月31日

Towards Generalizable Robotic Data Flywheel: High-Dimensional Factorization and Composition

Arxiv

0+阅读 · 3月26日

Demystifying Reinforcement Learning for Long-Horizon Tool-Using Agents: A Comprehensive Recipe

Arxiv

0+阅读 · 3月23日

SkillProbe: Security Auditing for Emerging Agent Skill Marketplaces via Multi-Agent Collaboration

Arxiv

0+阅读 · 3月22日

Trends in Integration of Knowledge and Large Language Models: A Survey and Taxonomy of Methods, Benchmarks, and Applications

Arxiv

19+阅读 · 2023年11月10日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

3+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

4+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

6+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

6+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

22+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

【博士论文】面向可扩展且可信智能系统的强化学习

【博士论文】面向可扩展且可信智能系统的强化学习

专知会员服务

12+阅读 · 5月13日

智能体技能综合综述：分类、技术与应用

智能体技能综合综述：分类、技术与应用

专知会员服务

33+阅读 · 5月11日

《面向大语言模型引导规划、Bandit算法驱动探索与多智能体导航的分层决策问题研究》180页

《面向大语言模型引导规划、Bandit算法驱动探索与多智能体导航的分层决策问题研究》180页

专知会员服务

16+阅读 · 4月16日

【牛津博士论文】面向长时程决策任务的高效智能体训练方法

【牛津博士论文】面向长时程决策任务的高效智能体训练方法

专知会员服务

19+阅读 · 3月27日

智能体世界模型：面向智能体化强化学习的无限合成环境

智能体世界模型：面向智能体化强化学习的无限合成环境

专知会员服务

23+阅读 · 2月11日

在从交互中学习时代面向大语言模型智能体的可扩展环境：综述

在从交互中学习时代面向大语言模型智能体的可扩展环境：综述

专知会员服务

22+阅读 · 2025年11月15日

面向大语言模型的智能体化强化学习图景：综述

面向大语言模型的智能体化强化学习图景：综述

专知会员服务

55+阅读 · 2025年9月3日

《面向人机协作的扩展型信念-愿望-意图模型》最新111页

《面向人机协作的扩展型信念-愿望-意图模型》最新111页

专知会员服务

36+阅读 · 2025年7月28日

《基于二元优化与图学习的多智能体行动方案自动生成》

《基于二元优化与图学习的多智能体行动方案自动生成》

专知会员服务

27+阅读 · 2025年6月26日

「可解释知识图谱推理」最新方法综述

「可解释知识图谱推理」最新方法综述

专知会员服务

89+阅读 · 2022年12月17日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

《综述：多智能体系统（MAS）中的任务分配技术》美国空军项目支持

《综述：多智能体系统（MAS）中的任务分配技术》美国空军项目支持

专知

55+阅读 · 2022年10月6日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

66+阅读 · 2022年8月25日

【博士论文】多任务学习视觉场景理解，140页pdf

【博士论文】多任务学习视觉场景理解，140页pdf

专知

28+阅读 · 2022年4月5日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

最新《多任务学习》综述，39页pdf

最新《多任务学习》综述，39页pdf

专知

28+阅读 · 2020年7月10日

多任务学习(Multitask-Learning)相关资料、经典论文、开源代码整理分享

多任务学习(Multitask-Learning)相关资料、经典论文、开源代码整理分享

深度学习与NLP

45+阅读 · 2019年10月22日

【斯坦福大学课程】深度多任务学习与元学习，CS 330: Deep Multi-Task and Meta Learning

【斯坦福大学课程】深度多任务学习与元学习，CS 330: Deep Multi-Task and Meta Learning

专知

29+阅读 · 2019年9月27日

综述：Image Caption 任务之语句多样性

综述：Image Caption 任务之语句多样性

PaperWeekly

22+阅读 · 2018年11月30日

学界 | 多任务学习概述论文：从定义和方法到应用和原理分析

学界 | 多任务学习概述论文：从定义和方法到应用和原理分析

机器之心

12+阅读 · 2018年3月9日

相关论文

SCALER:Synthetic Scalable Adaptive Learning Environment for Reasoning

Arxiv

0+阅读 · 4月20日

Scalable and Adaptive Parallel Training of Graph Transformer on Large Graphs

Arxiv

0+阅读 · 4月17日

Agentic Aggregation for Parallel Scaling of Long-Horizon Agentic Tasks

Arxiv

0+阅读 · 4月13日

SkillX: Automatically Constructing Skill Knowledge Bases for Agents

Arxiv

0+阅读 · 4月6日

SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization

Arxiv

0+阅读 · 4月2日

SkillRouter: Skill Routing for LLM Agents at Scale

Arxiv

0+阅读 · 3月31日

Towards Generalizable Robotic Data Flywheel: High-Dimensional Factorization and Composition

Arxiv

0+阅读 · 3月26日

Demystifying Reinforcement Learning for Long-Horizon Tool-Using Agents: A Comprehensive Recipe

Arxiv

0+阅读 · 3月23日

SkillProbe: Security Auditing for Emerging Agent Skill Marketplaces via Multi-Agent Collaboration

Arxiv

0+阅读 · 3月22日

Trends in Integration of Knowledge and Large Language Models: A Survey and Taxonomy of Methods, Benchmarks, and Applications

Arxiv

19+阅读 · 2023年11月10日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于草图的几何处理和应用

国家自然科学基金

2+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向任务成功性的可修系统重要度分析及优化

国家自然科学基金

0+阅读 · 2014年12月31日

面向地图综合的多尺度空间聚类理论与方法

国家自然科学基金

1+阅读 · 2014年12月31日

基于动态缩比模型的操纵面效能测试方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于桁架-机构映射的多体系统拓扑优化方法

国家自然科学基金

0+阅读 · 2014年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员