The rapid development of GUI foundation models and mobile GUI agents has spurred numerous evaluation benchmarks, yet most rely on simulated environments or open-source applications, leaving real-world closed-source applications largely unevaluated. The core difficulty is that closed-source applications do not expose internal states, making traditional automatic verification inapplicable. To bridge this gap, we introduce AndroidDaily, a large-scale benchmark comprising 350 realistic daily-use tasks across 94 high-frequency Android applications spanning transportation, shopping, local services, entertainment, content creation, social media, and everyday utilities. To enable automatic and verifiable assessment in these opaque environments, we propose Guideline-grounded Reviewer for Automatic Diagnostic Evaluation (GRADE), a process-aware evaluator built on a three-tiered system of observable external guidelines: operational obligations, output quality, and negative constraints. GRADE tracks the agent's visual trajectory against these criteria and produces step-level diagnostic judgments, turning long-horizon, open-ended mobile interactions into verifiable evaluation without relying on hidden internal states. Experiments show that GRADE achieves 87.37\% agreement with human evaluators. The strongest model reaches a 62.0\% success rate on AndroidDaily, highlighting a substantial gap between current reasoning capabilities and practical execution in realistic mobile workflows.


翻译:图形用户界面基础模型与移动GUI智能体的快速发展催生了大量评估基准,然而现有基准大多依赖模拟环境或开源应用,真实世界的闭源应用评估长期处于空白。核心难点在于闭源应用不暴露内部状态,使得传统自动验证方法难以适用。为弥补这一空白,我们提出AndroidDaily——一个覆盖交通、购物、本地服务、娱乐、内容创作、社交媒体及日常工具等94款高频Android应用的350项日常任务的大规模基准测试。针对这些不透明环境中的自动可验证评估,我们提出基于指南的自动诊断评估评审器(GRADE),该过程感知评估器建立在由操作义务、输出质量与负面约束构成的三级可观测外部指南体系之上。GRADE通过追踪智能体视觉轨迹与上述准则的符合程度,生成步骤级诊断判断,在不依赖隐藏内部状态的前提下,将长时域开放型移动交互转化为可验证评估。实验表明,GRADE与人类评估者的判定一致性达87.37%。当前最强模型在AndroidDaily上仅取得62.0%的成功率,揭示了现有推理能力与现实移动工作流执行实践之间的显著差距。

0
下载
关闭预览

相关内容

GPT-4o发布,关注强交互场景落地
专知会员服务
31+阅读 · 2024年5月15日
移动应用(APP)个人信息保护白皮书
专知会员服务
17+阅读 · 2021年10月31日
【Facebook】人工智能基准(Benchmarking)测试再思考,55页ppt
专知会员服务
31+阅读 · 2020年12月20日
iOS如何区分App和SDK内部crash
CocoaChina
11+阅读 · 2019年4月17日
AnDOSid - 适用于黑客的Android应用程序
黑白之道
11+阅读 · 2019年3月14日
爱奇艺基于AI的移动端自动化测试框架的设计
前端之巅
18+阅读 · 2019年2月27日
可能是 Android 上最好用的写作 App
少数派
11+阅读 · 2018年12月21日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员