时空令牌剪枝：面向高效高分辨率图形用户界面智能体的方法 (Spatio-Temporal Token Pruning for Efficient High-Resolution GUI Agents) - 专知论文

会员服务 ·

0

剪枝 · 高分辨 · 高分辨率 · 图形用户界面 · 令牌 ·

Spatio-Temporal Token Pruning for Efficient High-Resolution GUI Agents

翻译：时空令牌剪枝：面向高效高分辨率图形用户界面智能体的方法

Zhou Xu,Bowen Zhou,Qi Wang,Shuwen Feng,Jingyu Xiao

Pure-vision GUI agents provide universal interaction capabilities but suffer from severe efficiency bottlenecks due to the massive spatiotemporal redundancy inherent in high-resolution screenshots and historical trajectories. We identify two critical misalignments in existing compression paradigms: the temporal mismatch, where uniform history encoding diverges from the agent's "fading memory" attention pattern, and the spatial topology conflict, where unstructured pruning compromises the grid integrity required for precise coordinate grounding, inducing spatial hallucinations. To address these challenges, we introduce GUIPruner, a training-free framework tailored for high-resolution GUI navigation. It synergizes Temporal-Adaptive Resolution (TAR), which eliminates historical redundancy via decay-based resizing, and Stratified Structure-aware Pruning (SSP), which prioritizes interactive foregrounds and semantic anchors while safeguarding global layout. Extensive evaluations across diverse benchmarks demonstrate that GUIPruner consistently achieves state-of-the-art performance, effectively preventing the collapse observed in large-scale models under high compression. Notably, on Qwen2-VL-2B, our method delivers a 3.4x reduction in FLOPs and a 3.3x speedup in vision encoding latency while retaining over 94% of the original performance, enabling real-time, high-precision navigation with minimal resource consumption.

翻译：纯视觉图形用户界面智能体虽具备通用交互能力，但由于高分辨率屏幕截图与历史轨迹中固有的海量时空冗余，其效率存在严重瓶颈。我们识别出现有压缩范式中两个关键错位问题：一是时间错配，即均匀历史编码与智能体"渐逝记忆"注意力模式相背离；二是空间拓扑冲突，即非结构化剪枝破坏了精确定位所需的网格完整性，引发空间幻觉。为解决这些挑战，我们提出GUIPruner——一个专为高分辨率图形用户界面导航设计的免训练框架。该框架协同整合了两种机制：时间自适应分辨率，通过基于衰减的尺寸调整消除历史冗余；分层结构感知剪枝，在保障全局布局的同时优先保留交互前景与语义锚点。跨多个基准的广泛评估表明，GUIPruner始终能实现最先进的性能，有效防止大规模模型在高压缩率下出现的性能崩溃。值得注意的是，在Qwen2-VL-2B模型上，本方法将浮点运算量降低3.4倍，视觉编码延迟加速3.3倍，同时保持超过94%的原始性能，从而以最小资源消耗实现实时高精度导航。

0

相关内容

【牛津博士论文】面向长时程决策任务的高效智能体训练方法

【牛津博士论文】面向长时程决策任务的高效智能体训练方法

专知会员服务

18+阅读 · 3月27日

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

专知会员服务

26+阅读 · 2月27日

【AAAI2026】AutoTool：面向大语言模型智能体的高效工具选择方法

【AAAI2026】AutoTool：面向大语言模型智能体的高效工具选择方法

专知会员服务

19+阅读 · 2025年11月19日

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

专知会员服务

24+阅读 · 2025年11月17日

基于大语言模型的时序知识图谱推理模型蒸馏方法

基于大语言模型的时序知识图谱推理模型蒸馏方法

专知会员服务

36+阅读 · 2025年1月10日

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

专知会员服务

66+阅读 · 2023年6月10日

【ICLR2022】UniFormer：无缝集成 Transformer，更高效的时空表征学习框架

【ICLR2022】UniFormer：无缝集成 Transformer，更高效的时空表征学习框架

专知会员服务

50+阅读 · 2022年2月16日

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

专知会员服务

43+阅读 · 2020年10月29日

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

专知会员服务

34+阅读 · 2020年4月2日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

70+阅读 · 2020年1月17日

BiSeNet V2来了！156 FPS，72.6%mIoU！让语义分割飞起来！

BiSeNet V2来了！156 FPS，72.6%mIoU！让语义分割飞起来！

CVer

13+阅读 · 2020年4月14日

解决实例分割任务中边缘不够精细：PointRend: Image Segmentation as Rendering

解决实例分割任务中边缘不够精细：PointRend: Image Segmentation as Rendering

极市平台

10+阅读 · 2020年1月19日

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

量子位

11+阅读 · 2019年5月15日

南邮提出实时语义分割的轻量级网络：LEDNET，可达 71 FPS！70.6% class mIoU！即将开源

南邮提出实时语义分割的轻量级网络：LEDNET，可达 71 FPS！70.6% class mIoU！即将开源

极市平台

17+阅读 · 2019年5月10日

【知识图谱】知识图谱+人工智能=新型网络信息体系

【知识图谱】知识图谱+人工智能=新型网络信息体系

产业智能官

14+阅读 · 2018年11月18日

CVPR 2018|分割算法——可以分割一切目标（附各种分割总结）

CVPR 2018|分割算法——可以分割一切目标（附各种分割总结）

极市平台

16+阅读 · 2018年9月26日

BiSeNet：双向分割网络进行实时语义分割

BiSeNet：双向分割网络进行实时语义分割

统计学习与视觉计算组

22+阅读 · 2018年8月23日

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

AI前线

11+阅读 · 2018年5月15日

如何设计基于深度学习的图像压缩算法

如何设计基于深度学习的图像压缩算法

论智

41+阅读 · 2018年4月26日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

支持新产品快速设计的复杂产品系统功能模块化方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度卷积神经网络的多源遥感图像时空融合方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

人体行为识别的时空耦合随机图模型及其高效推理算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向智能交通的车联网时空数据流异常分析研究

国家自然科学基金

7+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

高维时间序列的降维与建模

国家自然科学基金

23+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的高时效并行计算机系统结构与技术

国家自然科学基金

0+阅读 · 2014年12月31日

行为轨迹数据高性能时空聚类及社会分析

国家自然科学基金

2+阅读 · 2014年12月31日

面向时空变化的GIS数据模型

国家自然科学基金

6+阅读 · 2014年12月31日

CRAFT-GUI: Curriculum-Reinforced Agent For GUI Tasks

Arxiv

0+阅读 · 3月13日

History-Conditioned Spatio-Temporal Visual Token Pruning for Efficient Vision-Language Navigation

Arxiv

0+阅读 · 3月6日

Sculpting the Vector Space: Towards Efficient Multi-Vector Visual Document Retrieval via Prune-then-Merge Framework

Arxiv

0+阅读 · 2月23日

WorldGUI: An Interactive Benchmark for Desktop GUI Automation from Any Starting Point

Arxiv

0+阅读 · 2月22日

EntropyPrune: Matrix Entropy Guided Visual Token Pruning for Multimodal Large Language Models

Arxiv

0+阅读 · 2月19日

IntentCUA: Learning Intent-level Representations for Skill Abstraction and Multi-Agent Planning in Computer-Use Agents

Arxiv

0+阅读 · 2月19日

WebClipper: Efficient Evolution of Web Agents with Graph-based Trajectory Pruning

Arxiv

0+阅读 · 2月13日

Focus-Scan-Refine: From Human Visual Perception to Efficient Visual Token Pruning

Arxiv

0+阅读 · 2月5日

SWE-Pruner: Self-Adaptive Context Pruning for Coding Agents

Arxiv

0+阅读 · 2月4日

Multi-Agent Monte Carlo Tree Search for Makespan-Efficient Object Rearrangement in Cluttered Spaces

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

图形用户界面

最新内容

人工智能与机器人自主系统等新兴技术革命将如何影响地面作战的指挥控制？

人工智能与机器人自主系统等新兴技术革命将如何影响地面作战的指挥控制？

专知会员服务

3+阅读 · 4月12日

弹性指挥控制：北约、伊朗与俄罗斯指挥控制架构的比较分析

弹性指挥控制：北约、伊朗与俄罗斯指挥控制架构的比较分析

专知会员服务

5+阅读 · 4月12日

最新“指挥控制”领域出版物合集（16份）

最新“指挥控制”领域出版物合集（16份）

专知会员服务

7+阅读 · 4月12日

面向军事作战需求开发的人工智能（RAIMOND）

面向军事作战需求开发的人工智能（RAIMOND）

专知会员服务

15+阅读 · 4月12日

检测算法战：一个识别军事行动中人工智能特征的框架

检测算法战：一个识别军事行动中人工智能特征的框架

专知会员服务

10+阅读 · 4月12日

软件定义多域战术网络：基础与未来方向（综述）

软件定义多域战术网络：基础与未来方向（综述）

专知会员服务

11+阅读 · 4月12日

水下战战术决策中的气象与海洋预报（50页报告）

水下战战术决策中的气象与海洋预报（50页报告）

专知会员服务

4+阅读 · 4月12日

远程空中优势：新一代超视距导弹的兴起

远程空中优势：新一代超视距导弹的兴起

专知会员服务

2+阅读 · 4月12日

大语言模型溯因推理的统一分类学与综述

大语言模型溯因推理的统一分类学与综述

专知会员服务

4+阅读 · 4月12日

CVPR 2026 Findings | 算力砍半、性能不降！全开源 A₁模型：让机器人大模型真正走向落地

CVPR 2026 Findings | 算力砍半、性能不降！全开源 A₁模型：让机器人大模型真正走向落地

专知会员服务

1+阅读 · 4月12日

大语言模型与国防战略：升级风险与国家安全挑战（综述）

大语言模型与国防战略：升级风险与国家安全挑战（综述）

专知会员服务

9+阅读 · 4月12日

《基于机器学习预测模型识别新型超视距战术及DARPA AIR智能体误差分析》

《基于机器学习预测模型识别新型超视距战术及DARPA AIR智能体误差分析》

专知会员服务

11+阅读 · 4月11日

以机器速度作战：人工智能与美陆军反火力作战——第二部分

以机器速度作战：人工智能与美陆军反火力作战——第二部分

专知会员服务

10+阅读 · 4月11日

以机器速度作战：人工智能与美陆军反火力作战——第一部分

以机器速度作战：人工智能与美陆军反火力作战——第一部分

专知会员服务

9+阅读 · 4月11日

大视觉语言模型的高效推理：瓶颈剖析、关键技术与未来展望

大视觉语言模型的高效推理：瓶颈剖析、关键技术与未来展望

专知会员服务

7+阅读 · 4月11日

相关VIP内容

【牛津博士论文】面向长时程决策任务的高效智能体训练方法

【牛津博士论文】面向长时程决策任务的高效智能体训练方法

专知会员服务

18+阅读 · 3月27日

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

专知会员服务

26+阅读 · 2月27日

【AAAI2026】AutoTool：面向大语言模型智能体的高效工具选择方法

【AAAI2026】AutoTool：面向大语言模型智能体的高效工具选择方法

专知会员服务

19+阅读 · 2025年11月19日

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

专知会员服务

24+阅读 · 2025年11月17日

基于大语言模型的时序知识图谱推理模型蒸馏方法

基于大语言模型的时序知识图谱推理模型蒸馏方法

专知会员服务

36+阅读 · 2025年1月10日

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

专知会员服务

66+阅读 · 2023年6月10日

【ICLR2022】UniFormer：无缝集成 Transformer，更高效的时空表征学习框架

【ICLR2022】UniFormer：无缝集成 Transformer，更高效的时空表征学习框架

专知会员服务

50+阅读 · 2022年2月16日

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

专知会员服务

43+阅读 · 2020年10月29日

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

专知会员服务

34+阅读 · 2020年4月2日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

70+阅读 · 2020年1月17日

热门VIP内容

开通专知VIP会员享更多权益服务

弹性指挥控制：北约、伊朗与俄罗斯指挥控制架构的比较分析

面向军事作战需求开发的人工智能（RAIMOND）

人工智能与机器人自主系统等新兴技术革命将如何影响地面作战的指挥控制？

最新“指挥控制”领域出版物合集（16份）

相关资讯

BiSeNet V2来了！156 FPS，72.6%mIoU！让语义分割飞起来！

BiSeNet V2来了！156 FPS，72.6%mIoU！让语义分割飞起来！

CVer

13+阅读 · 2020年4月14日

解决实例分割任务中边缘不够精细：PointRend: Image Segmentation as Rendering

解决实例分割任务中边缘不够精细：PointRend: Image Segmentation as Rendering

极市平台

10+阅读 · 2020年1月19日

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

量子位

11+阅读 · 2019年5月15日

南邮提出实时语义分割的轻量级网络：LEDNET，可达 71 FPS！70.6% class mIoU！即将开源

南邮提出实时语义分割的轻量级网络：LEDNET，可达 71 FPS！70.6% class mIoU！即将开源

极市平台

17+阅读 · 2019年5月10日

【知识图谱】知识图谱+人工智能=新型网络信息体系

【知识图谱】知识图谱+人工智能=新型网络信息体系

产业智能官

14+阅读 · 2018年11月18日

CVPR 2018|分割算法——可以分割一切目标（附各种分割总结）

CVPR 2018|分割算法——可以分割一切目标（附各种分割总结）

极市平台

16+阅读 · 2018年9月26日

BiSeNet：双向分割网络进行实时语义分割

BiSeNet：双向分割网络进行实时语义分割

统计学习与视觉计算组

22+阅读 · 2018年8月23日

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

AI前线

11+阅读 · 2018年5月15日

如何设计基于深度学习的图像压缩算法

如何设计基于深度学习的图像压缩算法

论智

41+阅读 · 2018年4月26日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

相关论文

CRAFT-GUI: Curriculum-Reinforced Agent For GUI Tasks

Arxiv

0+阅读 · 3月13日

History-Conditioned Spatio-Temporal Visual Token Pruning for Efficient Vision-Language Navigation

Arxiv

0+阅读 · 3月6日

Sculpting the Vector Space: Towards Efficient Multi-Vector Visual Document Retrieval via Prune-then-Merge Framework

Arxiv

0+阅读 · 2月23日

WorldGUI: An Interactive Benchmark for Desktop GUI Automation from Any Starting Point

Arxiv

0+阅读 · 2月22日

EntropyPrune: Matrix Entropy Guided Visual Token Pruning for Multimodal Large Language Models

Arxiv

0+阅读 · 2月19日

IntentCUA: Learning Intent-level Representations for Skill Abstraction and Multi-Agent Planning in Computer-Use Agents

Arxiv

0+阅读 · 2月19日

WebClipper: Efficient Evolution of Web Agents with Graph-based Trajectory Pruning

Arxiv

0+阅读 · 2月13日

Focus-Scan-Refine: From Human Visual Perception to Efficient Visual Token Pruning

Arxiv

0+阅读 · 2月5日

SWE-Pruner: Self-Adaptive Context Pruning for Coding Agents

Arxiv

0+阅读 · 2月4日

Multi-Agent Monte Carlo Tree Search for Makespan-Efficient Object Rearrangement in Cluttered Spaces

Arxiv

0+阅读 · 2月2日

相关基金

支持新产品快速设计的复杂产品系统功能模块化方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度卷积神经网络的多源遥感图像时空融合方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

人体行为识别的时空耦合随机图模型及其高效推理算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向智能交通的车联网时空数据流异常分析研究

国家自然科学基金

7+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

高维时间序列的降维与建模

国家自然科学基金

23+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的高时效并行计算机系统结构与技术

国家自然科学基金

0+阅读 · 2014年12月31日

行为轨迹数据高性能时空聚类及社会分析

国家自然科学基金

2+阅读 · 2014年12月31日

面向时空变化的GIS数据模型

国家自然科学基金

6+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员