Mobile agents powered by vision-language models have demonstrated impressive capabilities in automating mobile tasks, with recent leading models achieving a marked performance leap, e.g., nearly 70% success on AndroidWorld. However, these systems keep their training data closed and remain opaque about their task and trajectory synthesis recipes. We present OpenMobile, an open-source framework that synthesizes high-quality task instructions and agent trajectories, with two key components: (1) The first is a scalable task synthesis pipeline that constructs a global environment memory from exploration, then leverages it to generate diverse and grounded instructions. and (2) a policy-switching strategy for trajectory rollout. By alternating between learner and expert models, it captures essential error-recovery data often missing in standard imitation learning. Agents trained on our data achieve competitive results across three dynamic mobile agent benchmarks: notably, our fine-tuned Qwen2.5-VL and Qwen3-VL reach 51.7% and 64.7% on AndroidWorld, far surpassing existing open-data approaches. Furthermore, we conduct transparent analyses on the overlap between our synthetic instructions and benchmark test sets, and verify that performance gains stem from broad functionality coverage rather than benchmark overfitting. We release data and code at https://njucckevin.github.io/openmobile/ to bridge the data gap and facilitate broader mobile agent research.


翻译:基于视觉-语言模型的移动代理在移动任务自动化中展现出强大能力,近期领先模型实现了显著性能飞跃(例如在AndroidWorld基准测试中成功率接近70%)。然而,这些系统对其训练数据保持闭源,且任务与轨迹合成方案不透明。我们提出OpenMobile这一开源框架,用于合成高质量任务指令与代理轨迹,其核心组件包括:(1)可扩展任务合成流水线,通过探索构建全局环境记忆,并据此生成多样化且具情境基础的指令;(2)用于轨迹生成的策略切换机制。通过在学徒模型与专家模型间交替切换,该方法捕获了标准模仿学习常缺失的关键错误恢复数据。基于本框架数据训练的代理在三个动态移动代理基准测试中均取得竞争性表现:经微调的Qwen2.5-VL与Qwen3-VL模型在AndroidWorld上分别达到51.7%和64.7%的准确率,大幅超越现有开源数据方法。此外,我们对合成指令与基准测试集的重叠性进行了透明分析,验证性能提升源于广泛的功能覆盖而非基准过拟合。我们在https://njucckevin.github.io/openmobile/ 开源数据与代码,以弥合数据鸿沟并推动移动代理领域的广泛研究。

0
下载
关闭预览

相关内容

OpenAI“开放权重模型”即将进入美军作战体系
专知会员服务
31+阅读 · 2025年11月20日
综述:面向移动端大语言模型的隐私与安全
专知会员服务
19+阅读 · 2025年9月7日
GPT-4o发布,关注强交互场景落地
专知会员服务
31+阅读 · 2024年5月15日
OpenAI更新促进应用生态繁荣,应用端产品落地进程加速
专知会员服务
35+阅读 · 2023年11月9日
OpenNRE 2.0:可一键运行的开源关系抽取工具包
PaperWeekly
22+阅读 · 2019年10月30日
美团:基于跨平台框架Flutter的动态化平台建设
前端之巅
14+阅读 · 2019年6月17日
无人驾驶开源仿真平台整理
智能交通技术
27+阅读 · 2019年5月9日
AnDOSid - 适用于黑客的Android应用程序
黑白之道
11+阅读 · 2019年3月14日
React Native 分包哪家强?看这文就够了!
程序人生
13+阅读 · 2019年1月16日
【干货】通过OpenFace来理解人脸识别
专知
56+阅读 · 2018年1月23日
资源 | 清华大学开源OpenKE:知识表示学习平台
机器之心
10+阅读 · 2017年11月4日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关资讯
OpenNRE 2.0:可一键运行的开源关系抽取工具包
PaperWeekly
22+阅读 · 2019年10月30日
美团:基于跨平台框架Flutter的动态化平台建设
前端之巅
14+阅读 · 2019年6月17日
无人驾驶开源仿真平台整理
智能交通技术
27+阅读 · 2019年5月9日
AnDOSid - 适用于黑客的Android应用程序
黑白之道
11+阅读 · 2019年3月14日
React Native 分包哪家强?看这文就够了!
程序人生
13+阅读 · 2019年1月16日
【干货】通过OpenFace来理解人脸识别
专知
56+阅读 · 2018年1月23日
资源 | 清华大学开源OpenKE:知识表示学习平台
机器之心
10+阅读 · 2017年11月4日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员