With the widespread adoption of Graphical User Interface (GUI) agents for automating GUI interaction tasks, substantial research focused on improving GUI perception to ground task instructions into concrete action steps. However, the step execution capability of these agents has gradually emerged as a new bottleneck for task completion. In particular, existing GUI agents often adopt overly simplified strategies for handling swipe interactions, preventing them from accurately replicating human-like behavior. To address this limitation, we decompose human swipe gestures into multiple quantifiable dimensions and propose an automated pipeline SwipeGen to synthesize human-like swipe interactions through GUI exploration. Based on this pipeline, we construct and release the first benchmark for evaluating the swipe execution capability of GUI agents. Furthermore, leveraging the synthesized data, we propose GUISwiper, a GUI agent with enhanced interaction execution capabilities. Experimental results demonstrate that GUISwiper achieves a swipe execution accuracy of 69.07%, representing a 214% improvement over existing VLM baselines.


翻译:随着图形用户界面(Graphical User Interface, GUI)智能体在自动化GUI交互任务中的广泛应用,大量研究聚焦于改进GUI感知能力,以将任务指令落实到具体操作步骤。然而,这些智能体的步骤执行能力已逐渐成为任务完成的新瓶颈。特别是,现有GUI智能体在处理滑动交互时通常采用过于简化的策略,导致其无法准确复现类人行为。为突破此限制,我们将人类滑动手势分解为多个可量化维度,并提出一种自动化流程SwipeGen,通过GUI探索合成类人滑动交互。基于此流程,我们构建并发布了首个用于评估GUI智能体滑动执行能力的基准测试。此外,利用合成数据,我们提出了具备增强交互执行能力的GUI智能体GUISwiper。实验结果表明,GUISwiper实现了69.07%的滑动执行准确率,相较于现有VLM基线提升了214%。

0
下载
关闭预览

相关内容

智能体工程(Agent Engineering)
专知会员服务
28+阅读 · 2025年12月31日
智能体网络:用AI智能体编织下一代网络
专知会员服务
30+阅读 · 2025年8月5日
【斯坦福博士论文】为人类使用优化人工智能模型
专知会员服务
17+阅读 · 2025年6月20日
设计和构建强大的大语言模型智能体
专知会员服务
55+阅读 · 2024年10月6日
【WWW2024教程】大型语言模型驱动智能体,附slides
专知会员服务
64+阅读 · 2024年5月14日
面向虚实融合的人机交互
专知会员服务
71+阅读 · 2023年6月25日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
如何独立实现一个基于知识图谱的问答系统
PaperWeekly
11+阅读 · 2019年6月13日
人工智能训练师的再定义
竹间智能Emotibot
10+阅读 · 2019年5月15日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
基于人体骨架的行为识别【附PPT与视频资料】
人工智能前沿讲习班
31+阅读 · 2019年1月15日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
干货|基于双流递归神经网络的人体骨架行为识别!
全球人工智能
13+阅读 · 2017年12月15日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
相关VIP内容
智能体工程(Agent Engineering)
专知会员服务
28+阅读 · 2025年12月31日
智能体网络:用AI智能体编织下一代网络
专知会员服务
30+阅读 · 2025年8月5日
【斯坦福博士论文】为人类使用优化人工智能模型
专知会员服务
17+阅读 · 2025年6月20日
设计和构建强大的大语言模型智能体
专知会员服务
55+阅读 · 2024年10月6日
【WWW2024教程】大型语言模型驱动智能体,附slides
专知会员服务
64+阅读 · 2024年5月14日
面向虚实融合的人机交互
专知会员服务
71+阅读 · 2023年6月25日
相关资讯
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
如何独立实现一个基于知识图谱的问答系统
PaperWeekly
11+阅读 · 2019年6月13日
人工智能训练师的再定义
竹间智能Emotibot
10+阅读 · 2019年5月15日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
基于人体骨架的行为识别【附PPT与视频资料】
人工智能前沿讲习班
31+阅读 · 2019年1月15日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
干货|基于双流递归神经网络的人体骨架行为识别!
全球人工智能
13+阅读 · 2017年12月15日
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员