Modern mobile applications rely on hidden interactions--gestures without visual cues like long presses and swipes--to provide functionality without cluttering interfaces. While experienced users may discover these interactions through prior use or onboarding tutorials, their implicit nature makes them difficult for most users to uncover. Similarly, mobile agents--systems designed to automate tasks on mobile user interfaces, powered by vision language models (VLMs)--struggle to detect veiled interactions or determine actions for completing tasks. To address this challenge, we present GhostUI, a new dataset designed to enable the detection of hidden interactions in mobile applications. GhostUI provides before-and-after screenshots, simplified view hierarchies, gesture metadata, and task descriptions, allowing VLMs to better recognize concealed gestures and anticipate post-interaction states. Quantitative evaluations with VLMs show that models fine-tuned on GhostUI outperform baseline VLMs, particularly in predicting hidden interactions and inferring post-interaction screens, underscoring GhostUI's potential as a foundation for advancing mobile task automation.


翻译:现代移动应用程序依赖隐藏交互(如长按和滑动等无视觉提示的手势)来提供功能,同时避免界面杂乱。虽然经验丰富的用户可能通过先前使用或入门教程发现这些交互,但其隐含特性使得大多数用户难以察觉。同样,由视觉语言模型驱动的移动代理(旨在自动化移动用户界面任务的系统)也难以检测隐蔽交互或确定完成任务所需的操作。为应对这一挑战,我们提出了GhostUI——一个专为检测移动应用中隐藏交互而设计的新数据集。GhostUI提供前后对比截图、简化的视图层级结构、手势元数据及任务描述,使视觉语言模型能更准确地识别隐蔽手势并预测交互后状态。基于视觉语言模型的定量评估表明,在GhostUI上微调的模型显著优于基线视觉语言模型,尤其在预测隐藏交互和推断交互后界面方面表现突出,这印证了GhostUI作为推进移动任务自动化基础资源的潜力。

0
下载
关闭预览

相关内容

综述:面向移动端大语言模型的隐私与安全
专知会员服务
19+阅读 · 2025年9月7日
AI大模型赋能手机终端,拥抱AI手机新机遇
专知会员服务
35+阅读 · 2024年7月4日
面向虚实融合的人机交互
专知会员服务
71+阅读 · 2023年6月25日
专知会员服务
34+阅读 · 2021年10月11日
【Tutorial】计算机视觉中的Transformer,98页ppt
专知
21+阅读 · 2021年10月25日
用户画像基础
DataFunTalk
12+阅读 · 2020年8月1日
FaceNiff工具 - 适用于黑客的Android应用程序
黑白之道
148+阅读 · 2019年4月7日
AnDOSid - 适用于黑客的Android应用程序
黑白之道
11+阅读 · 2019年3月14日
ProxyDroid - 适用于黑客的Android应用程序
黑白之道
55+阅读 · 2019年3月9日
超像素、语义分割、实例分割、全景分割 傻傻分不清?
计算机视觉life
19+阅读 · 2018年11月27日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
看完后,别再说自己不懂用户画像了
R语言中文社区
15+阅读 · 2017年8月28日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关资讯
【Tutorial】计算机视觉中的Transformer,98页ppt
专知
21+阅读 · 2021年10月25日
用户画像基础
DataFunTalk
12+阅读 · 2020年8月1日
FaceNiff工具 - 适用于黑客的Android应用程序
黑白之道
148+阅读 · 2019年4月7日
AnDOSid - 适用于黑客的Android应用程序
黑白之道
11+阅读 · 2019年3月14日
ProxyDroid - 适用于黑客的Android应用程序
黑白之道
55+阅读 · 2019年3月9日
超像素、语义分割、实例分割、全景分割 傻傻分不清?
计算机视觉life
19+阅读 · 2018年11月27日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
看完后,别再说自己不懂用户画像了
R语言中文社区
15+阅读 · 2017年8月28日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员