Recent years have witnessed a rapid development of mobile GUI agents powered by large language models (LLMs), which can autonomously execute diverse device-control tasks based on natural language instructions. The increasing accuracy of these agents on standard benchmarks has raised expectations for large-scale real-world deployment, and there are already several commercial agents released and used by early adopters. However, are we really ready for GUI agents integrated into our daily devices as system building blocks? We argue that an important pre-deployment validation is missing to examine whether the agents can maintain their performance under real-world threats. Specifically, unlike existing common benchmarks that are based on simple static app contents (they have to do so to ensure environment consistency between different tests), real-world apps are filled with contents from untrustworthy third parties, such as advertisement emails, user-generated posts and medias, etc. ... To this end, we introduce a scalable app content instrumentation framework to enable flexible and targeted content modifications within existing applications. Leveraging this framework, we create a test suite comprising both a dynamic task execution environment and a static dataset of challenging GUI states. The dynamic environment encompasses 122 reproducible tasks, and the static dataset consists of over 3,000 scenarios constructed from commercial apps. We perform experiments on both open-source and commercial GUI agents. Our findings reveal that all examined agents can be significantly degraded due to third-party contents, with an average misleading rate of 42.0% and 36.1% in dynamic and static environments respectively. The framework and benchmark has been released at https://agenthazard.github.io.


翻译:近年来,基于大型语言模型的移动GUI代理迅速发展,能够根据自然语言指令自主执行多种设备控制任务。这些代理在标准基准测试中的准确率不断提升,引发了对其大规模实际部署的期待,已有多个商业代理发布并被早期用户采用。然而,我们是否真的准备好将GUI代理作为系统组件集成到日常设备中?我们认为,在部署前缺少一项重要验证——评估代理在真实世界威胁下能否维持其性能。具体而言,与现有基于简单静态应用内容的常见基准测试(为确保测试间环境一致性而必须如此)不同,真实世界的应用充满了来自不可信第三方的内容,例如广告邮件、用户生成的帖子和媒体等。为此,我们引入了一个可扩展的应用内容注入框架,支持在现有应用内灵活且定向地修改内容。利用该框架,我们构建了一个测试套件,包含动态任务执行环境和静态挑战性GUI状态数据集。动态环境涵盖122个可复现任务,静态数据集由从商业应用构建的3000多个场景组成。我们对开源和商业GUI代理进行了实验。结果表明,所有受测代理均因第三方内容显著降级,在动态和静态环境中的平均误导率分别为42.0%和36.1%。该框架和基准测试已发布在https://agenthazard.github.io。

0
下载
关闭预览

相关内容

综述:面向移动端大语言模型的隐私与安全
专知会员服务
19+阅读 · 2025年9月7日
Agent AI:多模态交互的新地平线
专知会员服务
22+阅读 · 2025年5月26日
大型语言模型代理的安全与隐私综述
专知会员服务
30+阅读 · 2024年8月5日
数字世界中的大模型Agent:机遇与风险
专知会员服务
61+阅读 · 2023年12月25日
CALDERA 一款对手自动模拟工具
黑白之道
20+阅读 · 2019年9月17日
通过Termux打造免root安卓渗透工具
黑客技术与网络安全
16+阅读 · 2019年8月16日
GCNet:当Non-local遇见SENet
极市平台
11+阅读 · 2019年5月9日
AnDOSid - 适用于黑客的Android应用程序
黑白之道
11+阅读 · 2019年3月14日
ProxyDroid - 适用于黑客的Android应用程序
黑白之道
55+阅读 · 2019年3月9日
React Native 分包哪家强?看这文就够了!
程序人生
13+阅读 · 2019年1月16日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关主题
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关资讯
CALDERA 一款对手自动模拟工具
黑白之道
20+阅读 · 2019年9月17日
通过Termux打造免root安卓渗透工具
黑客技术与网络安全
16+阅读 · 2019年8月16日
GCNet:当Non-local遇见SENet
极市平台
11+阅读 · 2019年5月9日
AnDOSid - 适用于黑客的Android应用程序
黑白之道
11+阅读 · 2019年3月14日
ProxyDroid - 适用于黑客的Android应用程序
黑白之道
55+阅读 · 2019年3月9日
React Native 分包哪家强?看这文就够了!
程序人生
13+阅读 · 2019年1月16日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员