A useful phone agent needs to be personally intelligent. It should reason over a user's identity, history, and preferences as they exist on the device, not just follow isolated instructions in an impersonal sandbox. Existing mobile agent benchmarks lack this kind of personalization. We introduce iOSWorld, the first interactive native iOS simulator benchmark built around a persistent user identity spanning 26 newly built iOS apps. These apps contain connected data such as transactions, messages, travel records, social relationships, and financial activity. iOSWorld includes 133 tasks across three increasingly difficult categories. Single-app tasks (27) test one app, multi-app tasks (60) span 2 to 8 apps, and memory and personalization tasks (46) require agents to infer patterns from personal data. We evaluate frontier and open-source computer-use models in both vision-only and privileged vision+XML settings. The best configuration reaches 52\% overall but only 37\% on multi-app tasks. Privileged vision+XML access improves frontier models by up to 26 percentage points, while smaller models do not benefit from added accessibility-tree input. We release iOSWorld as an open-source benchmark with all apps, seeded data, tasks, rubrics, and evaluation code.


翻译:一个实用的电话代理需要具备个人智能。它应当能够基于设备上存储的用户身份、历史记录与偏好进行推理,而非仅能在非个性化沙盒中执行独立指令。现有移动代理基准测试缺乏此类个性化能力。我们提出iOSWorld——首个基于持续用户身份构建的交互式原生iOS模拟器基准测试平台,该平台横跨26个全新开发的iOS应用。这些应用包含相互关联的数据,如交易记录、消息、出行记录、社交关系及金融活动。iOSWorld包含133项任务,按难度递增分为三个类别:单应用任务(27项)测试单一应用,多应用任务(60项)覆盖2至8个应用,记忆与个性化任务(46项)则要求代理从个人数据中推断模式。我们分别在纯视觉模式与特权视觉+XML模式下评估前沿及开源计算机应用模型。最佳配置在整体任务上达到52%的成功率,但在多应用任务中仅为37%。特权视觉+XML访问使前沿模型性能提升最多26个百分点,而较小模型并未从附加的辅助功能树输入中获益。我们以开源形式发布iOSWorld,包含所有应用、种子数据、任务、评分标准及评估代码。

0
下载
关闭预览

相关内容

AI大模型赋能手机终端,拥抱AI手机新机遇
专知会员服务
35+阅读 · 2024年7月4日
AI Agent:基于大模型的自主智能体
专知会员服务
250+阅读 · 2023年9月9日
移动互联网应用程序(APP)个人信息保护治理白皮书
专知会员服务
21+阅读 · 2021年11月24日
移动应用(APP)个人信息保护白皮书
专知会员服务
17+阅读 · 2021年10月31日
FaceNiff工具 - 适用于黑客的Android应用程序
黑白之道
151+阅读 · 2019年4月7日
AnDOSid - 适用于黑客的Android应用程序
黑白之道
11+阅读 · 2019年3月14日
ProxyDroid - 适用于黑客的Android应用程序
黑白之道
55+阅读 · 2019年3月9日
可能是 Android 上最好用的写作 App
少数派
11+阅读 · 2018年12月21日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
【智能客服】智能客服2.0,数字时代的人性化交互
产业智能官
13+阅读 · 2017年11月13日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
2+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
4+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
3+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关资讯
FaceNiff工具 - 适用于黑客的Android应用程序
黑白之道
151+阅读 · 2019年4月7日
AnDOSid - 适用于黑客的Android应用程序
黑白之道
11+阅读 · 2019年3月14日
ProxyDroid - 适用于黑客的Android应用程序
黑白之道
55+阅读 · 2019年3月9日
可能是 Android 上最好用的写作 App
少数派
11+阅读 · 2018年12月21日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
【智能客服】智能客服2.0,数字时代的人性化交互
产业智能官
13+阅读 · 2017年11月13日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员