Graphical User Interface (GUI) grounding aims to translate natural language instructions into executable screen coordinates, enabling automated GUI interaction. Nevertheless, incorrect grounding can result in costly, hard-to-reverse actions (e.g., erroneous payment approvals), raising concerns about model reliability. In this paper, we introduce SafeGround, an uncertainty-aware framework for GUI grounding models that enables risk-aware predictions through calibrations before testing. SafeGround leverages a distribution-aware uncertainty quantification method to capture the spatial dispersion of stochastic samples from outputs of any given model. Then, through the calibration process, SafeGround derives a test-time decision threshold with statistically guaranteed false discovery rate (FDR) control. We apply SafeGround on multiple GUI grounding models for the challenging ScreenSpot-Pro benchmark. Experimental results show that our uncertainty measure consistently outperforms existing baselines in distinguishing correct from incorrect predictions, while the calibrated threshold reliably enables rigorous risk control and potentials of substantial system-level accuracy improvements. Across multiple GUI grounding models, SafeGround improves system-level accuracy by up to 5.38\% percentage points over Gemini-only inference.


翻译:图形用户界面(GUI)接地的目标是将自然语言指令转化为可执行的屏幕坐标,从而实现自动化的 GUI 交互。然而,不正确的接地可能导致代价高昂且难以逆转的操作(例如错误的支付批准),引发了人们对模型可靠性的担忧。本文介绍了 SafeGround,一个用于 GUI 接地模型的不确定性感知框架,它通过在测试前进行校准来实现风险感知预测。SafeGround 利用一种分布感知的不确定性量化方法,来捕捉来自任何给定模型输出的随机样本的空间离散度。然后,通过校准过程,SafeGround 推导出一个在测试时具有统计保证的误发现率(FDR)控制的决策阈值。我们将 SafeGround 应用于多个 GUI 接地模型,以应对具有挑战性的 ScreenSpot-Pro 基准测试。实验结果表明,我们的不确定性度量在区分正确与错误预测方面始终优于现有基线,而经过校准的阈值能够可靠地实现严格的风险控制,并具有显著提升系统级准确性的潜力。在多个 GUI 接地模型上,与仅使用 Gemini 推理相比,SafeGround 将系统级准确性提高了高达 5.38 个百分点。

0
下载
关闭预览

相关内容

iOS如何区分App和SDK内部crash
CocoaChina
11+阅读 · 2019年4月17日
FaceNiff工具 - 适用于黑客的Android应用程序
黑白之道
148+阅读 · 2019年4月7日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
网络安全态势感知浅析
计算机与网络安全
18+阅读 · 2017年10月13日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员