Do LLMs Need to See Everything? A Benchmark and Study of Failures in LLM-driven Smartphone Automation using Screentext vs. Screenshots - 专知论文

会员服务 ·

0

智能手机 · 基准 · 基准测试 · 模态 · 自动化 ·

Do LLMs Need to See Everything? A Benchmark and Study of Failures in LLM-driven Smartphone Automation using Screentext vs. Screenshots

翻译：AI需要看到一切吗？基于屏幕文本与截图的LLM驱动智能手机自动化失败案例基准测试与探究

Shiquan Zhang,Tianyi Zhang,Le Fang,Simon D'Alfonso,Hong Jia,Vassilis Kostakos

from arxiv, 29 pages. This study was conducted around May, 2025

With the rapid advancement of large language models (LLMs), mobile agents have emerged as promising tools for phone automation, simulating human interactions on screens to accomplish complex tasks. However, these agents often suffer from low accuracy, misinterpretation of user instructions, and failure on challenging tasks, with limited prior work examining why and where they fail. To address this, we introduce DailyDroid, a benchmark of 75 tasks in five scenarios across 25 Android apps, spanning three difficulty levels to mimic everyday smartphone use. We evaluate it using text-only and multimodal (text + screenshot) inputs on GPT-4o and o4-mini across 300 trials, revealing comparable performance with multimodal inputs yielding marginally higher success rates. Through in-depth failure analysis, we compile a handbook of common failures. Our findings reveal critical issues in UI accessibility, input modalities, and LLM/app design, offering implications for future mobile agents, applications, and UI development.

翻译：随着大语言模型的快速发展，移动智能体已逐渐成为实现手机自动化的有前景工具，通过模拟人类在屏幕上的交互来完成复杂任务。然而，这些智能体常存在准确率低、用户指令理解偏差以及挑战性任务失败等问题，而现有研究对其失败原因与场景的探讨十分有限。为此，我们提出DailyDroid基准测试，涵盖25个安卓应用中五个场景的75个任务，包含三个难度等级以模拟日常智能手机使用。我们采用纯文本与多模态（文本+截图）输入方式，在GPT-4o和o4-mini模型上开展300次实验，结果显示两种输入模式性能相当，多模态输入的成功率略高。通过深入的失败分析，我们汇编了常见失败模式手册。研究揭示了界面无障碍性、输入模态及大语言模型/应用设计中的关键问题，为未来移动智能体、应用及界面开发提供了重要启示。

0

相关内容

智能手机

智能手机是一种运算能力及功能比传统手机更强的手机，因为可以安装第三方软件，所以智能手机有丰富的功能。

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

专知会员服务

18+阅读 · 5月27日

AutoResearch AI综述：迈向AI驱动的科学发现自动化

AutoResearch AI综述：迈向AI驱动的科学发现自动化

专知会员服务

16+阅读 · 5月26日

超越个体智能：基于LLM的多智能体系统中的协作、故障归因与自演化综述

超越个体智能：基于LLM的多智能体系统中的协作、故障归因与自演化综述

专知会员服务

20+阅读 · 5月16日

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

专知会员服务

16+阅读 · 4月22日

从静态模板到动态运行时图：大语言模型智能体（LLM Agents）工作流优化综述

从静态模板到动态运行时图：大语言模型智能体（LLM Agents）工作流优化综述

专知会员服务

23+阅读 · 3月30日

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

专知会员服务

28+阅读 · 2月27日

LLM/智能体作为数据分析师：综述

LLM/智能体作为数据分析师：综述

专知会员服务

38+阅读 · 2025年9月30日

大型语言模型（LLM）智能体全栈安全的综述：数据、训练与部署

大型语言模型（LLM）智能体全栈安全的综述：数据、训练与部署

专知会员服务

33+阅读 · 2025年4月23日

【中国联通】AI隐私泄露危机四伏！如何确保数据安全？《人工智能隐私保护白皮书》揭示AI隐私风险与应对策略（附下载），45页pdf

【中国联通】AI隐私泄露危机四伏！如何确保数据安全？《人工智能隐私保护白皮书》揭示AI隐私风险与应对策略（附下载），45页pdf

专知会员服务

51+阅读 · 2023年12月10日

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

专知会员服务

170+阅读 · 2023年9月15日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

干货教程！百度AutoDL「自动深度学习: 理论、算法、平台和应用」132PPT

干货教程！百度AutoDL「自动深度学习: 理论、算法、平台和应用」132PPT

专知

21+阅读 · 2020年2月5日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

深度解读：小米AI实验室AutoML团队最新成果FairNAS

深度解读：小米AI实验室AutoML团队最新成果FairNAS

PaperWeekly

32+阅读 · 2019年7月11日

前瞻研究：工业制造领域机器视觉技术应用现状及展望 | 智周报告核心版

前瞻研究：工业制造领域机器视觉技术应用现状及展望 | 智周报告核心版

机器之能

22+阅读 · 2019年6月7日

爱奇艺基于AI的移动端自动化测试框架的设计

爱奇艺基于AI的移动端自动化测试框架的设计

前端之巅

18+阅读 · 2019年2月27日

【机器视觉】人工智能检测设备实现手机外观缺陷全自动检测、基于人工智能的PCB表面瑕疵检测

【机器视觉】人工智能检测设备实现手机外观缺陷全自动检测、基于人工智能的PCB表面瑕疵检测

产业智能官

15+阅读 · 2019年2月1日

【AIDL专栏】鲁继文：面向视觉内容理解的深度度量学习

【AIDL专栏】鲁继文：面向视觉内容理解的深度度量学习

人工智能前沿讲习班

32+阅读 · 2018年5月22日

NLP中自动生产文摘（auto text summarization）

NLP中自动生产文摘（auto text summarization）

机器学习研究会

14+阅读 · 2017年10月10日

复合型移动群智感知关键技术研究

国家自然科学基金

9+阅读 · 2017年12月31日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

面向应用商店的移动智能终端恶意软件检测关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向多用户行为的无线识别关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

机器灵巧手基于触滑觉信息协同的自适应力控制方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

LLM-Powered AI Agent Systems and Their Applications in Industry

Arxiv

0+阅读 · 6月12日

Distorted Perspectives of LLM-Simulated Preferences: Can AI Mislead Design?

Arxiv

0+阅读 · 5月18日

IntenBot: Flexible and Imprecise Multimodal Input for LLMs to Understand User Intentions for Casual and Human-Like HRI

Arxiv

0+阅读 · 5月6日

Figures as Interfaces: Toward LLM-Native Artifacts for Scientific Discovery

Arxiv

0+阅读 · 4月9日

Analyzing Multimodal Interaction Strategies for LLM-Assisted Manipulation of 3D Scenes

Arxiv

0+阅读 · 4月8日

UI-AGILE: Advancing GUI Agents with Effective Reinforcement Learning and Precise Inference-Time Grounding

Arxiv

0+阅读 · 4月8日

LLM Inference at the Edge: Mobile, NPU, and GPU Performance Efficiency Trade-offs Under Sustained Load

Arxiv

0+阅读 · 3月24日

AI-Generated Code Is Not Reproducible (Yet): An Empirical Study of Dependency Gaps in LLM-Based Coding Agents

Arxiv

0+阅读 · 3月23日

Forging Vision Foundation Models for Autonomous Driving: Challenges, Methodologies, and Opportunities

Arxiv

11+阅读 · 2024年1月16日

Large Language Models Empowered Agent-based Modeling and Simulation: A Survey and Perspectives

Arxiv

27+阅读 · 2023年12月19日

VIP会员

文章信息

相关主题

最新内容

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

2+阅读 · 今天6:30

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

4+阅读 · 今天6:18

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

4+阅读 · 今天6:08

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

4+阅读 · 今天5:54

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

4+阅读 · 今天5:22

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

5+阅读 · 今天5:15

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

4+阅读 · 今天3:42

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

4+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

3+阅读 · 6月24日

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

9+阅读 · 6月24日

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

8+阅读 · 6月24日

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

6+阅读 · 6月24日

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

8+阅读 · 6月24日

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

7+阅读 · 6月24日

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

6+阅读 · 6月24日

相关VIP内容

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

专知会员服务

18+阅读 · 5月27日

AutoResearch AI综述：迈向AI驱动的科学发现自动化

AutoResearch AI综述：迈向AI驱动的科学发现自动化

专知会员服务

16+阅读 · 5月26日

超越个体智能：基于LLM的多智能体系统中的协作、故障归因与自演化综述

超越个体智能：基于LLM的多智能体系统中的协作、故障归因与自演化综述

专知会员服务

20+阅读 · 5月16日

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

专知会员服务

16+阅读 · 4月22日

从静态模板到动态运行时图：大语言模型智能体（LLM Agents）工作流优化综述

从静态模板到动态运行时图：大语言模型智能体（LLM Agents）工作流优化综述

专知会员服务

23+阅读 · 3月30日

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

专知会员服务

28+阅读 · 2月27日

LLM/智能体作为数据分析师：综述

LLM/智能体作为数据分析师：综述

专知会员服务

38+阅读 · 2025年9月30日

大型语言模型（LLM）智能体全栈安全的综述：数据、训练与部署

大型语言模型（LLM）智能体全栈安全的综述：数据、训练与部署

专知会员服务

33+阅读 · 2025年4月23日

【中国联通】AI隐私泄露危机四伏！如何确保数据安全？《人工智能隐私保护白皮书》揭示AI隐私风险与应对策略（附下载），45页pdf

【中国联通】AI隐私泄露危机四伏！如何确保数据安全？《人工智能隐私保护白皮书》揭示AI隐私风险与应对策略（附下载），45页pdf

专知会员服务

51+阅读 · 2023年12月10日

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

专知会员服务

170+阅读 · 2023年9月15日

热门VIP内容

开通专知VIP会员享更多权益服务

网状网络及其在军事领域的运用

无美国参与的欧洲战争方式（万字长文）

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

相关资讯

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

干货教程！百度AutoDL「自动深度学习: 理论、算法、平台和应用」132PPT

干货教程！百度AutoDL「自动深度学习: 理论、算法、平台和应用」132PPT

专知

21+阅读 · 2020年2月5日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

深度解读：小米AI实验室AutoML团队最新成果FairNAS

深度解读：小米AI实验室AutoML团队最新成果FairNAS

PaperWeekly

32+阅读 · 2019年7月11日

前瞻研究：工业制造领域机器视觉技术应用现状及展望 | 智周报告核心版

前瞻研究：工业制造领域机器视觉技术应用现状及展望 | 智周报告核心版

机器之能

22+阅读 · 2019年6月7日

爱奇艺基于AI的移动端自动化测试框架的设计

爱奇艺基于AI的移动端自动化测试框架的设计

前端之巅

18+阅读 · 2019年2月27日

【机器视觉】人工智能检测设备实现手机外观缺陷全自动检测、基于人工智能的PCB表面瑕疵检测

【机器视觉】人工智能检测设备实现手机外观缺陷全自动检测、基于人工智能的PCB表面瑕疵检测

产业智能官

15+阅读 · 2019年2月1日

【AIDL专栏】鲁继文：面向视觉内容理解的深度度量学习

【AIDL专栏】鲁继文：面向视觉内容理解的深度度量学习

人工智能前沿讲习班

32+阅读 · 2018年5月22日

NLP中自动生产文摘（auto text summarization）

NLP中自动生产文摘（auto text summarization）

机器学习研究会

14+阅读 · 2017年10月10日

相关论文

LLM-Powered AI Agent Systems and Their Applications in Industry

Arxiv

0+阅读 · 6月12日

Distorted Perspectives of LLM-Simulated Preferences: Can AI Mislead Design?

Arxiv

0+阅读 · 5月18日

IntenBot: Flexible and Imprecise Multimodal Input for LLMs to Understand User Intentions for Casual and Human-Like HRI

Arxiv

0+阅读 · 5月6日

Figures as Interfaces: Toward LLM-Native Artifacts for Scientific Discovery

Arxiv

0+阅读 · 4月9日

Analyzing Multimodal Interaction Strategies for LLM-Assisted Manipulation of 3D Scenes

Arxiv

0+阅读 · 4月8日

UI-AGILE: Advancing GUI Agents with Effective Reinforcement Learning and Precise Inference-Time Grounding

Arxiv

0+阅读 · 4月8日

LLM Inference at the Edge: Mobile, NPU, and GPU Performance Efficiency Trade-offs Under Sustained Load

Arxiv

0+阅读 · 3月24日

AI-Generated Code Is Not Reproducible (Yet): An Empirical Study of Dependency Gaps in LLM-Based Coding Agents

Arxiv

0+阅读 · 3月23日

Forging Vision Foundation Models for Autonomous Driving: Challenges, Methodologies, and Opportunities

Arxiv

11+阅读 · 2024年1月16日

Large Language Models Empowered Agent-based Modeling and Simulation: A Survey and Perspectives

Arxiv

27+阅读 · 2023年12月19日

相关基金

复合型移动群智感知关键技术研究

国家自然科学基金

9+阅读 · 2017年12月31日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

面向应用商店的移动智能终端恶意软件检测关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向多用户行为的无线识别关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

机器灵巧手基于触滑觉信息协同的自适应力控制方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员