Phone agents are increasingly expected to complete real mobile workflows rather than merely predict the next screen action. However, much of the current mobile-agent literature still evaluates agents primarily as GUI controllers that observe a screen, emit taps and swipes, and are scored by target app state. Real phone-use tasks are broader: they require deciding when to use app GUIs, device-side commands, or structured tools, while leaving evidence that the intended side effect actually occurred. We introduce PhoneHarness, a mixed-action benchmark and execution harness for studying phone-use agents on verifiable mobile workflows. PhoneHarness runs a device-side agent loop over GUI, CLI, and host-side tool actions, combining deterministic action routing with bounded GUI delegation and auditable execution traces. Its benchmark, PhoneHarness Bench, evaluates whether agents complete tasks with observable side effects, not only whether they produce plausible final answers. On the annotated evaluation split, PhoneHarness reaches a 75.0% pass rate, outperforming the strongest non-PhoneHarness settings by 12.9 percentage points. PhoneHarness and PhoneHarness Bench therefore play distinct but mutually dependent roles: the harness makes mixed phone workflows executable, while the benchmark measures whether agents can use that harness reliably and safely. Our findings suggest that reliable phone automation depends on action-surface routing and verifiable execution, not only visual GUI control.


翻译:手机代理日益被期望完成真实的移动工作流,而不仅仅是预测下一个屏幕操作。然而,当前移动代理文献中,多数评估仍将代理视为仅能观察屏幕、发出点击和滑动操作、并通过目标应用状态评分的图形用户界面(GUI)控制器。实际手机使用任务范围更广:它们需要决定何时使用应用GUI、设备端命令或结构化工具,同时留下预期副作用实际发生的证据。我们提出PhoneHarness,这是一个用于研究手机代理在可验证移动工作流上的混合操作基准与执行框架。PhoneHarness运行一个设备端代理循环,涵盖GUI、命令行界面(CLI)与主机端工具操作,结合确定性操作路由、受限GUI委托以及可审计的执行轨迹。其基准测试PhoneHarness Bench评估代理是否完成具有可观察副作用的任务,而不仅仅是生成合理的最终答案。在标注的评估划分中,PhoneHarness达到75.0%的通过率,比非PhoneHarness设置中最强的基线高出12.9个百分点。因此,PhoneHarness与PhoneHarness Bench扮演着截然不同但相互依赖的角色:框架使混合手机工作流可执行,而基准测试则衡量代理能否可靠且安全地使用该框架。我们的研究结果表明,可靠的手机自动化依赖于操作表面路由与可验证执行,而不仅仅是视觉GUI控制。

0
下载
关闭预览

相关内容

AI大模型赋能手机终端,拥抱AI手机新机遇
专知会员服务
35+阅读 · 2024年7月4日
AI Agent:基于大模型的自主智能体
专知会员服务
250+阅读 · 2023年9月9日
移动应用(APP)个人信息保护白皮书
专知会员服务
17+阅读 · 2021年10月31日
通过Termux打造免root安卓渗透工具
黑客技术与网络安全
16+阅读 · 2019年8月16日
FaceNiff工具 - 适用于黑客的Android应用程序
黑白之道
151+阅读 · 2019年4月7日
AnDOSid - 适用于黑客的Android应用程序
黑白之道
11+阅读 · 2019年3月14日
ProxyDroid - 适用于黑客的Android应用程序
黑白之道
55+阅读 · 2019年3月9日
推荐系统
炼数成金订阅号
28+阅读 · 2019年1月17日
可能是 Android 上最好用的写作 App
少数派
11+阅读 · 2018年12月21日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
重新思考无人机时代的生存能力
专知会员服务
3+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
3+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
5+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关资讯
通过Termux打造免root安卓渗透工具
黑客技术与网络安全
16+阅读 · 2019年8月16日
FaceNiff工具 - 适用于黑客的Android应用程序
黑白之道
151+阅读 · 2019年4月7日
AnDOSid - 适用于黑客的Android应用程序
黑白之道
11+阅读 · 2019年3月14日
ProxyDroid - 适用于黑客的Android应用程序
黑白之道
55+阅读 · 2019年3月9日
推荐系统
炼数成金订阅号
28+阅读 · 2019年1月17日
可能是 Android 上最好用的写作 App
少数派
11+阅读 · 2018年12月21日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员