We propose Confidence-Guided Token Merging (Co-Me), an acceleration mechanism for visual geometric transformers without retraining or finetuning the base model. Co-Me distilled a light-weight confidence predictor to rank tokens by uncertainty and selectively merge low-confidence ones, effectively reducing computation while maintaining spatial coverage. Compared to similarity-based merging or pruning, the confidence signal in Co-Me reliably indicates regions emphasized by the transformer, enabling substantial acceleration without degrading performance. Co-Me applies seamlessly to various multi-view and streaming visual geometric transformers, achieving speedups that scale with sequence length. When applied to VGGT and Pi3, Co-Me achieves up to 21.5x and 20.4x speedup, making visual geometric transformers practical for real-time 3D perception and reconstruction.


翻译:我们提出置信度引导令牌合并(Confidence-Guided Token Merging,Co-Me)方法,这是一种无需重新训练或微调基础模型即可加速视觉几何变换器的机制。Co-Me 通过蒸馏轻量级置信度预测器,按不确定性对令牌进行排序,并选择性合并低置信度令牌,在保持空间覆盖的同时有效降低计算量。与基于相似性的合并或剪枝相比,Co-Me 中的置信度信号能够可靠地指示变换器关注的区域,从而在不降低性能的情况下实现大幅加速。Co-Me 可无缝应用于多种多视图和流式视觉几何变换器,其加速比随序列长度扩展。在 VGGT 和 Pi3 上应用时,Co-Me 分别实现了最高 21.5 倍和 20.4 倍的加速,使得视觉几何变换器在实时 3D 感知与重建中具备实用性。

0
下载
关闭预览

相关内容

深度学习的下一步:Transformer和注意力机制
云头条
56+阅读 · 2019年9月14日
用Attention玩转CV,一文总览自注意力语义分割进展
半监督深度学习小结:类协同训练和一致性正则化
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
55+阅读 · 2011年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
55+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员