Training capable OS agents requires data that simultaneously captures structured user intents, multi-turn task delegation, and grounded tool execution--properties absent from existing datasets. We propose ISE (Intent -> Simulate -> Execute), a three-stage synthesis paradigm that addresses these gaps jointly. Stage 1 constructs roughly 50000 structured intents via a 4D framework (Persona x Domain x Task x Complexity); after deduplication the pool contains 43956 unique intents and attains a Vendi Score of 61.57 over the entire pool on mpnet-base-v2 embeddings (cosine kernel, q=1). Stage 2 drives multi-turn user-agent interaction through a role-locked user simulator that grounds each user turn in actual execution outcomes, producing 23132 complete trajectories averaging 8.12 user turns and 68.24 total dialogue turns. Stage 3 runs every tool call inside a live, isolated OS workspace, generating authentic failure-recovery dynamics instead of simulated responses. Fine-tuning on ISETrace improves ClawEval pass@1 from 19.3 to 37.7 using Qwen3-8B on agent tool-use tasks with a standard protocol. This result outperforms zero-shot GPT-4o and the larger Qwen3-32B base model which is four times bigger. An ablation on Stage 2 proves multi-turn simulation brings a large portion of the performance gain. We release all source code and dataset at https://github.com/Valiere01/ISE-Trace.


翻译:训练高效的操作系统代理需要同时具备结构化用户意图、多轮任务委派和基于实际环境的工具执行等特性的数据,而现有数据集普遍缺失这些属性。我们提出ISE(意图→模拟→执行)三阶段合成范式,系统性解决上述问题。第一阶段通过四维框架(人物×领域×任务×复杂度)构建约5万个结构化意图;经去重后得到43956个独特意图,基于mpnet-base-v2嵌入(余弦核,q=1)对整体池计算Vendi评分达61.57。第二阶段通过角色锁定用户模拟器驱动多轮人机交互,将每轮用户输入锚定于实际执行结果,生成23132条完整轨迹(平均8.12个用户轮次、68.24个总对话轮次)。第三阶段在实时隔离的操作系统工作区执行所有工具调用,产生真实的故障恢复动态而非模拟响应。在标准协议下,基于Qwen3-8B对ISETrace进行微调后,ClawEval的pass@1指标从19.3提升至37.7。该结果超越零样本GPT-4o及规模四倍于本体的Qwen3-32B基座模型。对第二阶段的消融实验表明,多轮模拟贡献了性能提升的主要部分。我们已在https://github.com/Valiere01/ISE-Trace 开源全部源代码与数据集。

0
下载
关闭预览

相关内容

利用ISTAR加强军事行动决策
专知会员服务
25+阅读 · 2025年4月5日
详解 | 推荐系统的工程实现
AI100
42+阅读 · 2019年3月15日
综述:Image Caption 任务之语句多样性
PaperWeekly
22+阅读 · 2018年11月30日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
Arxiv
0+阅读 · 5月16日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
3+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员