With the rapid advancement of large language models (LLMs), mobile agents have emerged as promising tools for phone automation, simulating human interactions on screens to accomplish complex tasks. However, these agents often suffer from low accuracy, misinterpretation of user instructions, and failure on challenging tasks, with limited prior work examining why and where they fail. To address this, we introduce DailyDroid, a benchmark of 75 tasks in five scenarios across 25 Android apps, spanning three difficulty levels to mimic everyday smartphone use. We evaluate it using text-only and multimodal (text + screenshot) inputs on GPT-4o and o4-mini across 300 trials, revealing comparable performance with multimodal inputs yielding marginally higher success rates. Through in-depth failure analysis, we compile a handbook of common failures. Our findings reveal critical issues in UI accessibility, input modalities, and LLM/app design, offering implications for future mobile agents, applications, and UI development.


翻译:随着大语言模型的快速发展,移动智能体已逐渐成为实现手机自动化的有前景工具,通过模拟人类在屏幕上的交互来完成复杂任务。然而,这些智能体常存在准确率低、用户指令理解偏差以及挑战性任务失败等问题,而现有研究对其失败原因与场景的探讨十分有限。为此,我们提出DailyDroid基准测试,涵盖25个安卓应用中五个场景的75个任务,包含三个难度等级以模拟日常智能手机使用。我们采用纯文本与多模态(文本+截图)输入方式,在GPT-4o和o4-mini模型上开展300次实验,结果显示两种输入模式性能相当,多模态输入的成功率略高。通过深入的失败分析,我们汇编了常见失败模式手册。研究揭示了界面无障碍性、输入模态及大语言模型/应用设计中的关键问题,为未来移动智能体、应用及界面开发提供了重要启示。

0
下载
关闭预览

相关内容

智能手机是一种运算能力及功能比传统手机更强的手机,因为可以安装第三方软件,所以智能手机有丰富的功能。
AutoResearch AI综述:迈向AI驱动的科学发现自动化
专知会员服务
16+阅读 · 5月26日
LLM/智能体作为数据分析师:综述
专知会员服务
38+阅读 · 2025年9月30日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
深度解读:小米AI实验室AutoML团队最新成果FairNAS
PaperWeekly
32+阅读 · 2019年7月11日
爱奇艺基于AI的移动端自动化测试框架的设计
前端之巅
18+阅读 · 2019年2月27日
【AIDL专栏】鲁继文:面向视觉内容理解的深度度量学习
人工智能前沿讲习班
32+阅读 · 2018年5月22日
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 36分钟前
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 38分钟前
美以伊冲突:无人机与人工智能的运用
专知会员服务
2+阅读 · 50分钟前
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员