iOSWorld: A Benchmark for Personally Intelligent Phone Agents - 专知论文

会员服务 ·

0

Agent · MoDELS · iOS · 张成子空间 · INTERACT ·

iOSWorld: A Benchmark for Personally Intelligent Phone Agents

翻译：iOSWorld：个人化智能电话代理基准测试平台

Lawrence Keunho Jang,Mareks Woodside,Geronimo Carom,Andrew Keunwoo Jang,Jing Yu Koh,Ruslan Salakhutdinov

A useful phone agent needs to be personally intelligent. It should reason over a user's identity, history, and preferences as they exist on the device, not just follow isolated instructions in an impersonal sandbox. Existing mobile agent benchmarks lack this kind of personalization. We introduce iOSWorld, the first interactive native iOS simulator benchmark built around a persistent user identity spanning 26 newly built iOS apps. These apps contain connected data such as transactions, messages, travel records, social relationships, and financial activity. iOSWorld includes 133 tasks across three increasingly difficult categories. Single-app tasks (27) test one app, multi-app tasks (60) span 2 to 8 apps, and memory and personalization tasks (46) require agents to infer patterns from personal data. We evaluate frontier and open-source computer-use models in both vision-only and privileged vision+XML settings. The best configuration reaches 52\% overall but only 37\% on multi-app tasks. Privileged vision+XML access improves frontier models by up to 26 percentage points, while smaller models do not benefit from added accessibility-tree input. We release iOSWorld as an open-source benchmark with all apps, seeded data, tasks, rubrics, and evaluation code.

翻译：一个实用的电话代理需要具备个人智能。它应当能够基于设备上存储的用户身份、历史记录与偏好进行推理，而非仅能在非个性化沙盒中执行独立指令。现有移动代理基准测试缺乏此类个性化能力。我们提出iOSWorld——首个基于持续用户身份构建的交互式原生iOS模拟器基准测试平台，该平台横跨26个全新开发的iOS应用。这些应用包含相互关联的数据，如交易记录、消息、出行记录、社交关系及金融活动。iOSWorld包含133项任务，按难度递增分为三个类别：单应用任务（27项）测试单一应用，多应用任务（60项）覆盖2至8个应用，记忆与个性化任务（46项）则要求代理从个人数据中推断模式。我们分别在纯视觉模式与特权视觉+XML模式下评估前沿及开源计算机应用模型。最佳配置在整体任务上达到52%的成功率，但在多应用任务中仅为37%。特权视觉+XML访问使前沿模型性能提升最多26个百分点，而较小模型并未从附加的辅助功能树输入中获益。我们以开源形式发布iOSWorld，包含所有应用、种子数据、任务、评分标准及评估代码。

0

相关内容

Agent

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

专知会员服务

17+阅读 · 5月20日

AI手机：AI发展重心逐步向端侧转移，苹果有望开启AI手机换机浪潮

AI手机：AI发展重心逐步向端侧转移，苹果有望开启AI手机换机浪潮

专知会员服务

28+阅读 · 2024年8月25日

AI大模型赋能手机终端，拥抱AI手机新机遇

AI大模型赋能手机终端，拥抱AI手机新机遇

专知会员服务

35+阅读 · 2024年7月4日

《信息技术移动设备增强现实系统技术规范（征求意见稿）》国家标准

《信息技术移动设备增强现实系统技术规范（征求意见稿）》国家标准

专知会员服务

23+阅读 · 2024年6月7日

如何评估具身智能？斯坦福李飞飞等发布《BEHAVIOR-1K: 以人为中心、具身化AI基准测试，含1000种日常活动和真实模拟》

如何评估具身智能？斯坦福李飞飞等发布《BEHAVIOR-1K: 以人为中心、具身化AI基准测试，含1000种日常活动和真实模拟》

专知会员服务

62+阅读 · 2024年3月15日

科研动态| 一句指令帮你操作手机，最新多模态手机助手Mobile-Agent来了！

科研动态| 一句指令帮你操作手机，最新多模态手机助手Mobile-Agent来了！

专知会员服务

35+阅读 · 2024年2月4日

AI Agent：基于大模型的自主智能体

AI Agent：基于大模型的自主智能体

专知会员服务

250+阅读 · 2023年9月9日

ChatGPT迎来史诗级iPhone时刻！OpenAI震撼登陆iOS，可精准识别中文

ChatGPT迎来史诗级iPhone时刻！OpenAI震撼登陆iOS，可精准识别中文

专知会员服务

37+阅读 · 2023年5月19日

移动互联网应用程序（APP）个人信息保护治理白皮书

移动互联网应用程序（APP）个人信息保护治理白皮书

专知会员服务

21+阅读 · 2021年11月24日

移动应用（APP）个人信息保护白皮书

移动应用（APP）个人信息保护白皮书

专知会员服务

17+阅读 · 2021年10月31日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

FaceNiff工具 - 适用于黑客的Android应用程序

FaceNiff工具 - 适用于黑客的Android应用程序

黑白之道

151+阅读 · 2019年4月7日

实战▍一个完整的电信客服分析平台大数据项目：架构、实现、数据

实战▍一个完整的电信客服分析平台大数据项目：架构、实现、数据

36大数据

13+阅读 · 2019年3月20日

AnDOSid - 适用于黑客的Android应用程序

AnDOSid - 适用于黑客的Android应用程序

黑白之道

11+阅读 · 2019年3月14日

ProxyDroid - 适用于黑客的Android应用程序

ProxyDroid - 适用于黑客的Android应用程序

黑白之道

55+阅读 · 2019年3月9日

Packet Sender - 免费的UDP和TCP网络测试实用程序（Android App）

Packet Sender - 免费的UDP和TCP网络测试实用程序（Android App）

黑白之道

25+阅读 · 2019年3月8日

可能是 Android 上最好用的写作 App

可能是 Android 上最好用的写作 App

少数派

11+阅读 · 2018年12月21日

深度 | 级联MobileNet-V2实现人脸关键点检测（附训练源码）

深度 | 级联MobileNet-V2实现人脸关键点检测（附训练源码）

机器之心

15+阅读 · 2018年3月11日

最新人机对话系统简略综述

最新人机对话系统简略综述

专知

26+阅读 · 2018年3月10日

【智能客服】智能客服2.0，数字时代的人性化交互

【智能客服】智能客服2.0，数字时代的人性化交互

产业智能官

13+阅读 · 2017年11月13日

移动互联网的用户隐私保护研究

国家自然科学基金

2+阅读 · 2017年12月31日

支持智能终端通信的物联网管控机制研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向应用商店的移动智能终端恶意软件检测关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

移动社会网络中情境感知的多维个性化信任评价研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于代数规约的Web服务在线测试理论和技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于超云平台的社会化移动网络大数据管理与分析关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

云计算环境下顾及用户关系的手机用户时空轨迹模式挖掘方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

移动互联网服务及隐私保护的理论与关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

MyPCBench: A Benchmark for Personally Intelligent Computer-Use Agents

Arxiv

0+阅读 · 6月15日

PhoneHarness: Harnessing Phone-Use Agents through Mixed GUI, CLI, and Tool Actions

Arxiv

0+阅读 · 6月12日

AgentBeats: Agentifying Agent Assessment for Openness, Standardization, and Reproducibility

Arxiv

0+阅读 · 6月11日

Workflow-GYM: Towards Long-Horizon Evaluation of Computer-use Agentic tasks in Real-World Professional Fields

Arxiv

0+阅读 · 6月11日

SpatialWorld: Benchmarking Interactive Spatial Reasoning of Multimodal Agents in Real-World Tasks

Arxiv

0+阅读 · 6月8日

MacArena: Benchmarking Computer Use Agents on an Online macOS Environment

Arxiv

0+阅读 · 6月4日

EVA-Bench: A New End-to-end Framework for Evaluating Voice Agents

Arxiv

0+阅读 · 5月27日

AndroidDaily: A Verifiable Benchmark for Mobile GUI Agents on Real-World Closed-Source Applications

Arxiv

0+阅读 · 5月26日

Claw-Anything: Benchmarking Always-On Personal Assistants with Broader Access to User's Digital World

Arxiv

0+阅读 · 5月25日

OSWorld-Human: Benchmarking the Efficiency of Computer-Use Agents

Arxiv

0+阅读 · 5月18日

VIP会员

文章信息

相关主题

张成子空间

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

2+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

4+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

3+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

专知会员服务

17+阅读 · 5月20日

AI手机：AI发展重心逐步向端侧转移，苹果有望开启AI手机换机浪潮

AI手机：AI发展重心逐步向端侧转移，苹果有望开启AI手机换机浪潮

专知会员服务

28+阅读 · 2024年8月25日

AI大模型赋能手机终端，拥抱AI手机新机遇

AI大模型赋能手机终端，拥抱AI手机新机遇

专知会员服务

35+阅读 · 2024年7月4日

《信息技术移动设备增强现实系统技术规范（征求意见稿）》国家标准

《信息技术移动设备增强现实系统技术规范（征求意见稿）》国家标准

专知会员服务

23+阅读 · 2024年6月7日

如何评估具身智能？斯坦福李飞飞等发布《BEHAVIOR-1K: 以人为中心、具身化AI基准测试，含1000种日常活动和真实模拟》

如何评估具身智能？斯坦福李飞飞等发布《BEHAVIOR-1K: 以人为中心、具身化AI基准测试，含1000种日常活动和真实模拟》

专知会员服务

62+阅读 · 2024年3月15日

科研动态| 一句指令帮你操作手机，最新多模态手机助手Mobile-Agent来了！

科研动态| 一句指令帮你操作手机，最新多模态手机助手Mobile-Agent来了！

专知会员服务

35+阅读 · 2024年2月4日

AI Agent：基于大模型的自主智能体

AI Agent：基于大模型的自主智能体

专知会员服务

250+阅读 · 2023年9月9日

ChatGPT迎来史诗级iPhone时刻！OpenAI震撼登陆iOS，可精准识别中文

ChatGPT迎来史诗级iPhone时刻！OpenAI震撼登陆iOS，可精准识别中文

专知会员服务

37+阅读 · 2023年5月19日

移动互联网应用程序（APP）个人信息保护治理白皮书

移动互联网应用程序（APP）个人信息保护治理白皮书

专知会员服务

21+阅读 · 2021年11月24日

移动应用（APP）个人信息保护白皮书

移动应用（APP）个人信息保护白皮书

专知会员服务

17+阅读 · 2021年10月31日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

FaceNiff工具 - 适用于黑客的Android应用程序

FaceNiff工具 - 适用于黑客的Android应用程序

黑白之道

151+阅读 · 2019年4月7日

实战▍一个完整的电信客服分析平台大数据项目：架构、实现、数据

实战▍一个完整的电信客服分析平台大数据项目：架构、实现、数据

36大数据

13+阅读 · 2019年3月20日

AnDOSid - 适用于黑客的Android应用程序

AnDOSid - 适用于黑客的Android应用程序

黑白之道

11+阅读 · 2019年3月14日

ProxyDroid - 适用于黑客的Android应用程序

ProxyDroid - 适用于黑客的Android应用程序

黑白之道

55+阅读 · 2019年3月9日

Packet Sender - 免费的UDP和TCP网络测试实用程序（Android App）

Packet Sender - 免费的UDP和TCP网络测试实用程序（Android App）

黑白之道

25+阅读 · 2019年3月8日

可能是 Android 上最好用的写作 App

可能是 Android 上最好用的写作 App

少数派

11+阅读 · 2018年12月21日

深度 | 级联MobileNet-V2实现人脸关键点检测（附训练源码）

深度 | 级联MobileNet-V2实现人脸关键点检测（附训练源码）

机器之心

15+阅读 · 2018年3月11日

最新人机对话系统简略综述

最新人机对话系统简略综述

专知

26+阅读 · 2018年3月10日

【智能客服】智能客服2.0，数字时代的人性化交互

【智能客服】智能客服2.0，数字时代的人性化交互

产业智能官

13+阅读 · 2017年11月13日

相关论文

MyPCBench: A Benchmark for Personally Intelligent Computer-Use Agents

Arxiv

0+阅读 · 6月15日

PhoneHarness: Harnessing Phone-Use Agents through Mixed GUI, CLI, and Tool Actions

Arxiv

0+阅读 · 6月12日

AgentBeats: Agentifying Agent Assessment for Openness, Standardization, and Reproducibility

Arxiv

0+阅读 · 6月11日

Workflow-GYM: Towards Long-Horizon Evaluation of Computer-use Agentic tasks in Real-World Professional Fields

Arxiv

0+阅读 · 6月11日

SpatialWorld: Benchmarking Interactive Spatial Reasoning of Multimodal Agents in Real-World Tasks

Arxiv

0+阅读 · 6月8日

MacArena: Benchmarking Computer Use Agents on an Online macOS Environment

Arxiv

0+阅读 · 6月4日

EVA-Bench: A New End-to-end Framework for Evaluating Voice Agents

Arxiv

0+阅读 · 5月27日

AndroidDaily: A Verifiable Benchmark for Mobile GUI Agents on Real-World Closed-Source Applications

Arxiv

0+阅读 · 5月26日

Claw-Anything: Benchmarking Always-On Personal Assistants with Broader Access to User's Digital World

Arxiv

0+阅读 · 5月25日

OSWorld-Human: Benchmarking the Efficiency of Computer-Use Agents

Arxiv

0+阅读 · 5月18日

相关基金

移动互联网的用户隐私保护研究

国家自然科学基金

2+阅读 · 2017年12月31日

支持智能终端通信的物联网管控机制研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向应用商店的移动智能终端恶意软件检测关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

移动社会网络中情境感知的多维个性化信任评价研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于代数规约的Web服务在线测试理论和技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于超云平台的社会化移动网络大数据管理与分析关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

云计算环境下顾及用户关系的手机用户时空轨迹模式挖掘方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

移动互联网服务及隐私保护的理论与关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员