Large Multimodal Models (LMMs) have recently emerged as promising backbones for GUI-agent models, where high-resolution GUI screenshots are introduced to the prompts at each iteration step. However, these screenshots exhibit highly non-uniform spatial information density: large regions may carry little information and are visually homogeneous, while key text and icons may require high visual fidelity. Existing approaches to this problem either require additional training or rely on attention-based token compression, ignoring the structured layout and spatial redundancy of GUI screenshots. To fill the gap, this paper proposes AquaUI, a training-free inference-time token reduction method for GUI agent models that utilizes the non-uniform information density in screenshots. AQuaUI constructs an adaptive quadtree on each screenshot input and keeps one representative merged token per leaf of the quadtree. AQuaUI preserves the spatial positions of retained tokens throughout the pipeline to ensure that all position-encoding stages remain consistent. To further improve temporal consistency across multi-step GUI interactions, we propose a conditional quadtree algorithm that leverages the continuity between consecutive screenshots within a single request. Specifically, it refines the current quadtree using previous quadtrees as references, helping preserve fine-grained regions across static or mildly shifted GUI states. We implement AQuaUI on state-of-the-art GUI agent models and conduct experiments on standard grounding and navigational benchmarks. AQuaUI consistently shows improved accuracy-efficiency trade-offs over prior baselines. Notably, on GUI-Owl-1.5-32B-Instruct, AQuaUI achieves up to 13.22% speedup and 29.52% fewer visual tokens while retaining 99.06% of full-token performance, suggesting that the spatial redundancy of GUI screenshots can be exploited at inference without retraining.


翻译:大型多模态模型(LMMs)近期已成为图形用户界面(GUI)代理模型的重要基础架构,其每次迭代需向提示词输入高分辨率GUI截图。然而这类截图的空间信息密度呈现高度非均匀分布:大面积区域可能携带极少信息且视觉同质,而关键文本与图标则需高视觉保真度。现有方法或需额外训练,或依赖基于注意力机制的令牌压缩,未充分利用GUI截图的结构化布局与空间冗余性。为填补这一空白,本文提出AquaUI——一种无需训练的推理阶段令牌压缩方法,专门针对GUI代理模型设计,利用截图中的非均匀信息密度特性。AQuaUI为每张截图构建自适应四叉树,每个叶子节点仅保留一个代表性融合令牌。该方法在整个处理流程中保持保留令牌的空间位置不变,确保所有位置编码阶段的一致性。进一步地,为提升多步GUI交互的时间连续性,我们提出条件四叉树算法:利用单次请求中连续截图间的视觉连续性,以前序四叉树为参考优化当前四叉树,从而在静态或轻微位移的GUI状态下有效保留细粒度区域。我们在多个最新GUI代理模型上实现AQuaUI,并在标准定位与导航基准上进行实验。结果表明,AQuaUI在精度-效率权衡方面持续优于现有基线方法。值得注意的是,在GUI-Owl-1.5-32B-Instruct模型上,AQuaUI在保留全令牌性能99.06%的同时,实现了最高13.22%的速度提升和29.52%的视觉令牌削减,证明GUI截图的空间冗余性可在无需重训练的条件下被有效利用。

0
下载
关闭预览

相关内容

【NeurIPS 2025】视觉指令瓶颈微调
专知会员服务
6+阅读 · 2025年10月5日
视频大模型中视觉上下文表示的scaling law
专知会员服务
24+阅读 · 2024年10月21日
Deformable Kernels,用于图像/视频去噪,即将开源
极市平台
13+阅读 · 2019年8月29日
AmpliGraph:知识图谱表示学习工具包
专知
40+阅读 · 2019年4月6日
超像素、语义分割、实例分割、全景分割 傻傻分不清?
计算机视觉life
19+阅读 · 2018年11月27日
一文读懂图像压缩算法
七月在线实验室
17+阅读 · 2018年5月2日
如何设计基于深度学习的图像压缩算法
论智
41+阅读 · 2018年4月26日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员