SwipeGen: Bridging the Execution Gap in GUI Agents via Human-like Swipe Synthesis - 专知论文

会员服务 ·

0

合成 · 交互 · 智能体 · 自动化 · 图形用户界面 ·

SwipeGen: Bridging the Execution Gap in GUI Agents via Human-like Swipe Synthesis

翻译：SwipeGen：通过类人滑动合成弥合GUI智能体执行鸿沟

Xuan Wang,Siyuan Su,Quantong Fu,Yongxiang Hu,Yangfan Zhou

from arxiv, 15 pages, 3 figures. Under review. Code and dataset will be released upon acceptance

With the widespread adoption of Graphical User Interface (GUI) agents for automating GUI interaction tasks, substantial research focused on improving GUI perception to ground task instructions into concrete action steps. However, the step execution capability of these agents has gradually emerged as a new bottleneck for task completion. In particular, existing GUI agents often adopt overly simplified strategies for handling swipe interactions, preventing them from accurately replicating human-like behavior. To address this limitation, we decompose human swipe gestures into multiple quantifiable dimensions and propose an automated pipeline SwipeGen to synthesize human-like swipe interactions through GUI exploration. Based on this pipeline, we construct and release the first benchmark for evaluating the swipe execution capability of GUI agents. Furthermore, leveraging the synthesized data, we propose GUISwiper, a GUI agent with enhanced interaction execution capabilities. Experimental results demonstrate that GUISwiper achieves a swipe execution accuracy of 69.07%, representing a 214% improvement over existing VLM baselines.

翻译：随着图形用户界面（Graphical User Interface, GUI）智能体在自动化GUI交互任务中的广泛应用，大量研究聚焦于改进GUI感知能力，以将任务指令落实到具体操作步骤。然而，这些智能体的步骤执行能力已逐渐成为任务完成的新瓶颈。特别是，现有GUI智能体在处理滑动交互时通常采用过于简化的策略，导致其无法准确复现类人行为。为突破此限制，我们将人类滑动手势分解为多个可量化维度，并提出一种自动化流程SwipeGen，通过GUI探索合成类人滑动交互。基于此流程，我们构建并发布了首个用于评估GUI智能体滑动执行能力的基准测试。此外，利用合成数据，我们提出了具备增强交互执行能力的GUI智能体GUISwiper。实验结果表明，GUISwiper实现了69.07%的滑动执行准确率，相较于现有VLM基线提升了214%。

0

相关内容

专业软件开发者不靠“氛围编程”（Vibe Coding），而靠“控制”：2025 年 AI Agent 在编程中的应用研究

专业软件开发者不靠“氛围编程”（Vibe Coding），而靠“控制”：2025 年 AI Agent 在编程中的应用研究

专知会员服务

21+阅读 · 2025年12月31日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

33+阅读 · 2025年12月31日

智能体网络：用AI智能体编织下一代网络

智能体网络：用AI智能体编织下一代网络

专知会员服务

30+阅读 · 2025年8月5日

【斯坦福博士论文】为人类使用优化人工智能模型

【斯坦福博士论文】为人类使用优化人工智能模型

专知会员服务

17+阅读 · 2025年6月20日

【CMU博士论文】外部知识增强的语言模型：用于代码生成与智能体开发

【CMU博士论文】外部知识增强的语言模型：用于代码生成与智能体开发

专知会员服务

25+阅读 · 2025年3月9日

设计和构建强大的大语言模型智能体

设计和构建强大的大语言模型智能体

专知会员服务

55+阅读 · 2024年10月6日

【伯克利博士论文】迈向能够理解丰富交流的智能体，219页pdf

【伯克利博士论文】迈向能够理解丰富交流的智能体，219页pdf

专知会员服务

37+阅读 · 2024年9月13日

【WWW2024教程】大型语言模型驱动智能体，附slides

【WWW2024教程】大型语言模型驱动智能体，附slides

专知会员服务

64+阅读 · 2024年5月14日

面向虚实融合的人机交互

面向虚实融合的人机交互

专知会员服务

72+阅读 · 2023年6月25日

重磅！大模型模拟人生？斯坦福发布《生成式智能体:人类行为的交互式拟像》

重磅！大模型模拟人生？斯坦福发布《生成式智能体:人类行为的交互式拟像》

专知会员服务

61+阅读 · 2023年4月11日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

如何独立实现一个基于知识图谱的问答系统

如何独立实现一个基于知识图谱的问答系统

PaperWeekly

11+阅读 · 2019年6月13日

人工智能训练师的再定义

人工智能训练师的再定义

竹间智能Emotibot

10+阅读 · 2019年5月15日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

基于人体骨架的行为识别【附PPT与视频资料】

基于人体骨架的行为识别【附PPT与视频资料】

人工智能前沿讲习班

31+阅读 · 2019年1月15日

最新人机对话系统简略综述

最新人机对话系统简略综述

专知

26+阅读 · 2018年3月10日

DeepType：用神经分类系统自动实现实体消歧

DeepType：用神经分类系统自动实现实体消歧

论智

20+阅读 · 2018年2月9日

干货｜基于双流递归神经网络的人体骨架行为识别！

干货｜基于双流递归神经网络的人体骨架行为识别！

全球人工智能

13+阅读 · 2017年12月15日

复合型移动群智感知关键技术研究

国家自然科学基金

9+阅读 · 2017年12月31日

融合人脑意图与力觉反馈的外骨骼机器人步态控制CPG模型及调节方法

国家自然科学基金

0+阅读 · 2015年12月31日

支持新产品快速设计的复杂产品系统功能模块化方法

国家自然科学基金

1+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

GUI-GENESIS: Automated Synthesis of Efficient Environments with Verifiable Rewards for GUI Agent Post-Training

Arxiv

0+阅读 · 2月15日

How Smart Is Your GUI Agent? A Framework for the Future of Software Interaction

Arxiv

0+阅读 · 2月12日

TreeCUA: Efficiently Scaling GUI Automation with Tree-Structured Verifiable Evolution

Arxiv

0+阅读 · 2月10日

AgentSkiller: Scaling Generalist Agent Intelligence through Semantically Integrated Cross-Domain Data Synthesis

Arxiv

1+阅读 · 2月10日

Bridging Gulfs in UI Generation through Semantic Guidance

Arxiv

0+阅读 · 2月9日

OpenPhone: Mobile Agentic Foundation Models

Arxiv

0+阅读 · 2月7日

M$^2$-Miner: Multi-Agent Enhanced MCTS for Mobile GUI Agent Data Mining

Arxiv

0+阅读 · 2月5日

Learning with Challenges: Adaptive Difficulty-Aware Data Generation for Mobile GUI Agent Training

Arxiv

0+阅读 · 1月30日

OmegaUse: Building a General-Purpose GUI Agent for Autonomous Task Execution

Arxiv

0+阅读 · 1月28日

MobileBench-OL: A Comprehensive Chinese Benchmark for Evaluating Mobile GUI Agents in Real-World Environment

Arxiv

0+阅读 · 1月28日

VIP会员

文章信息

相关主题

图形用户界面

最新内容

（中文版）美空军部发布《空军部数据战略》与《人工智能战略》两份战略：旨在加速建立军事优势

（中文版）美空军部发布《空军部数据战略》与《人工智能战略》两份战略：旨在加速建立军事优势

专知会员服务

3+阅读 · 今天2:55

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

1+阅读 · 4月23日

大语言模型智能体长期记忆安全性综述：迈向记忆主权

大语言模型智能体长期记忆安全性综述：迈向记忆主权

专知会员服务

1+阅读 · 4月23日

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

4+阅读 · 4月23日

人工智能赋能无人机：俄乌战争（万字长文）

人工智能赋能无人机：俄乌战争（万字长文）

专知会员服务

6+阅读 · 4月23日

国外海军作战管理系统与作战训练系统

国外海军作战管理系统与作战训练系统

专知会员服务

3+阅读 · 4月23日

美军条令《海军陆战队规划流程（2026版）》

美军条令《海军陆战队规划流程（2026版）》

专知会员服务

10+阅读 · 4月23日

《压缩式分布式交互仿真标准》120页

《压缩式分布式交互仿真标准》120页

专知会员服务

4+阅读 · 4月23日

《电子战数据交换模型研究报告》

《电子战数据交换模型研究报告》

专知会员服务

6+阅读 · 4月23日

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

专知会员服务

4+阅读 · 4月23日

《基于Transformer的异常舰船导航识别与跟踪》80页

《基于Transformer的异常舰船导航识别与跟踪》80页

专知会员服务

8+阅读 · 4月23日

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

专知会员服务

6+阅读 · 4月23日

《低数据领域军事目标检测模型研究》

《低数据领域军事目标检测模型研究》

专知会员服务

6+阅读 · 4月23日

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

专知会员服务

7+阅读 · 4月23日

【CMU博士论文】物理世界的视觉感知与深度理解

【CMU博士论文】物理世界的视觉感知与深度理解

专知会员服务

10+阅读 · 4月22日

相关VIP内容

专业软件开发者不靠“氛围编程”（Vibe Coding），而靠“控制”：2025 年 AI Agent 在编程中的应用研究

专业软件开发者不靠“氛围编程”（Vibe Coding），而靠“控制”：2025 年 AI Agent 在编程中的应用研究

专知会员服务

21+阅读 · 2025年12月31日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

33+阅读 · 2025年12月31日

智能体网络：用AI智能体编织下一代网络

智能体网络：用AI智能体编织下一代网络

专知会员服务

30+阅读 · 2025年8月5日

【斯坦福博士论文】为人类使用优化人工智能模型

【斯坦福博士论文】为人类使用优化人工智能模型

专知会员服务

17+阅读 · 2025年6月20日

【CMU博士论文】外部知识增强的语言模型：用于代码生成与智能体开发

【CMU博士论文】外部知识增强的语言模型：用于代码生成与智能体开发

专知会员服务

25+阅读 · 2025年3月9日

设计和构建强大的大语言模型智能体

设计和构建强大的大语言模型智能体

专知会员服务

55+阅读 · 2024年10月6日

【伯克利博士论文】迈向能够理解丰富交流的智能体，219页pdf

【伯克利博士论文】迈向能够理解丰富交流的智能体，219页pdf

专知会员服务

37+阅读 · 2024年9月13日

【WWW2024教程】大型语言模型驱动智能体，附slides

【WWW2024教程】大型语言模型驱动智能体，附slides

专知会员服务

64+阅读 · 2024年5月14日

面向虚实融合的人机交互

面向虚实融合的人机交互

专知会员服务

72+阅读 · 2023年6月25日

重磅！大模型模拟人生？斯坦福发布《生成式智能体:人类行为的交互式拟像》

重磅！大模型模拟人生？斯坦福发布《生成式智能体:人类行为的交互式拟像》

专知会员服务

61+阅读 · 2023年4月11日

热门VIP内容

开通专知VIP会员享更多权益服务

【斯坦福博士论文】语言模型的机械可解释性与控制

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

（中文版）美空军部发布《空军部数据战略》与《人工智能战略》两份战略：旨在加速建立军事优势

大语言模型智能体长期记忆安全性综述：迈向记忆主权

相关资讯

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

如何独立实现一个基于知识图谱的问答系统

如何独立实现一个基于知识图谱的问答系统

PaperWeekly

11+阅读 · 2019年6月13日

人工智能训练师的再定义

人工智能训练师的再定义

竹间智能Emotibot

10+阅读 · 2019年5月15日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

基于人体骨架的行为识别【附PPT与视频资料】

基于人体骨架的行为识别【附PPT与视频资料】

人工智能前沿讲习班

31+阅读 · 2019年1月15日

最新人机对话系统简略综述

最新人机对话系统简略综述

专知

26+阅读 · 2018年3月10日

DeepType：用神经分类系统自动实现实体消歧

DeepType：用神经分类系统自动实现实体消歧

论智

20+阅读 · 2018年2月9日

干货｜基于双流递归神经网络的人体骨架行为识别！

干货｜基于双流递归神经网络的人体骨架行为识别！

全球人工智能

13+阅读 · 2017年12月15日

相关论文

GUI-GENESIS: Automated Synthesis of Efficient Environments with Verifiable Rewards for GUI Agent Post-Training

Arxiv

0+阅读 · 2月15日

How Smart Is Your GUI Agent? A Framework for the Future of Software Interaction

Arxiv

0+阅读 · 2月12日

TreeCUA: Efficiently Scaling GUI Automation with Tree-Structured Verifiable Evolution

Arxiv

0+阅读 · 2月10日

AgentSkiller: Scaling Generalist Agent Intelligence through Semantically Integrated Cross-Domain Data Synthesis

Arxiv

1+阅读 · 2月10日

Bridging Gulfs in UI Generation through Semantic Guidance

Arxiv

0+阅读 · 2月9日

OpenPhone: Mobile Agentic Foundation Models

Arxiv

0+阅读 · 2月7日

M$^2$-Miner: Multi-Agent Enhanced MCTS for Mobile GUI Agent Data Mining

Arxiv

0+阅读 · 2月5日

Learning with Challenges: Adaptive Difficulty-Aware Data Generation for Mobile GUI Agent Training

Arxiv

0+阅读 · 1月30日

OmegaUse: Building a General-Purpose GUI Agent for Autonomous Task Execution

Arxiv

0+阅读 · 1月28日

MobileBench-OL: A Comprehensive Chinese Benchmark for Evaluating Mobile GUI Agents in Real-World Environment

Arxiv

0+阅读 · 1月28日

相关基金

复合型移动群智感知关键技术研究

国家自然科学基金

9+阅读 · 2017年12月31日

融合人脑意图与力觉反馈的外骨骼机器人步态控制CPG模型及调节方法

国家自然科学基金

0+阅读 · 2015年12月31日

支持新产品快速设计的复杂产品系统功能模块化方法

国家自然科学基金

1+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员