Co-Me: Confidence-Guided Token Merging for Visual Geometric Transformers - 专知论文

会员服务 ·

0

词元分析器 · 变换 · 置信度 · Transformer · 基 ·

Co-Me: Confidence-Guided Token Merging for Visual Geometric Transformers

翻译：Co-Me：面向视觉几何变换器的置信度引导令牌合并

Yutian Chen,Yuheng Qiu,Ruogu Li,Ali Agha,Shayegan Omidshafiei,Jay Patrikar,Sebastian Scherer

We propose Confidence-Guided Token Merging (Co-Me), an acceleration mechanism for visual geometric transformers without retraining or finetuning the base model. Co-Me distilled a light-weight confidence predictor to rank tokens by uncertainty and selectively merge low-confidence ones, effectively reducing computation while maintaining spatial coverage. Compared to similarity-based merging or pruning, the confidence signal in Co-Me reliably indicates regions emphasized by the transformer, enabling substantial acceleration without degrading performance. Co-Me applies seamlessly to various multi-view and streaming visual geometric transformers, achieving speedups that scale with sequence length. When applied to VGGT and Pi3, Co-Me achieves up to 21.5x and 20.4x speedup, making visual geometric transformers practical for real-time 3D perception and reconstruction.

翻译：我们提出置信度引导令牌合并（Confidence-Guided Token Merging，Co-Me）方法，这是一种无需重新训练或微调基础模型即可加速视觉几何变换器的机制。Co-Me 通过蒸馏轻量级置信度预测器，按不确定性对令牌进行排序，并选择性合并低置信度令牌，在保持空间覆盖的同时有效降低计算量。与基于相似性的合并或剪枝相比，Co-Me 中的置信度信号能够可靠地指示变换器关注的区域，从而在不降低性能的情况下实现大幅加速。Co-Me 可无缝应用于多种多视图和流式视觉几何变换器，其加速比随序列长度扩展。在 VGGT 和 Pi3 上应用时，Co-Me 分别实现了最高 21.5 倍和 20.4 倍的加速，使得视觉几何变换器在实时 3D 感知与重建中具备实用性。

0

相关内容

词元分析器

词元分析器

《CommandSwarm：面向机器人集群的安全感知自然语言到行为树生成》

《CommandSwarm：面向机器人集群的安全感知自然语言到行为树生成》

专知会员服务

16+阅读 · 5月16日

《COA-GPT 2.0：加速军事决策流程的代理式人工智能规划工具》

《COA-GPT 2.0：加速军事决策流程的代理式人工智能规划工具》

专知会员服务

57+阅读 · 2025年11月10日

【CVPR2024】Token 转换的重要性：面向视觉 Transformer 的忠实事后解释

【CVPR2024】Token 转换的重要性：面向视觉 Transformer 的忠实事后解释

专知会员服务

21+阅读 · 2024年3月23日

《COA-GPT：军事作战中加速行动方案（COA）制定的生成式预训练Transformer》美陆军研究实验室2024最新论文

《COA-GPT：军事作战中加速行动方案（COA）制定的生成式预训练Transformer》美陆军研究实验室2024最新论文

专知会员服务

148+阅读 · 2024年2月9日

【KDD2023】考虑约束的排序蒸馏令牌修剪，用于高效的Transformer推断

【KDD2023】考虑约束的排序蒸馏令牌修剪，用于高效的Transformer推断

专知会员服务

23+阅读 · 2023年7月20日

CVPR 2023｜打破CAM的局限性！ToCo：进一步激发 ViT 在弱监督语义分割的潜力

CVPR 2023｜打破CAM的局限性！ToCo：进一步激发 ViT 在弱监督语义分割的潜力

专知会员服务

21+阅读 · 2023年3月31日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

专知会员服务

43+阅读 · 2020年10月29日

【推荐论文】多通道注意力选择GAN的图像到图像转换，Multi-Channel Attention Selection GANs for Guided Image-to-Image Translation

【推荐论文】多通道注意力选择GAN的图像到图像转换，Multi-Channel Attention Selection GANs for Guided Image-to-Image Translation

专知会员服务

30+阅读 · 2020年2月6日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

71+阅读 · 2020年1月17日

美国陆军“项目融合（PC）”最新简介2022年6月2日更新，美国国会研究服务处（CRS）

美国陆军“项目融合（PC）”最新简介2022年6月2日更新，美国国会研究服务处（CRS）

专知

85+阅读 · 2022年6月11日

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

CVer

12+阅读 · 2020年6月30日

再发力！Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新SOTA准确率

再发力！Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新SOTA准确率

专知

48+阅读 · 2020年3月11日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

用Attention玩转CV，一文总览自注意力语义分割进展

用Attention玩转CV，一文总览自注意力语义分割进展

机器之心

14+阅读 · 2019年8月26日

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

机器之心

11+阅读 · 2019年6月3日

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

专知

54+阅读 · 2019年4月12日

半监督深度学习小结：类协同训练和一致性正则化

半监督深度学习小结：类协同训练和一致性正则化

PaperWeekly

15+阅读 · 2018年12月24日

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

专知

32+阅读 · 2018年8月14日

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

专知

17+阅读 · 2018年2月11日

量子导引的判定、度量与几何表示

国家自然科学基金

1+阅读 · 2017年12月31日

空间非合作目标基于点云模型的视觉与惯性融合相对导航方法与实验研究

国家自然科学基金

17+阅读 · 2015年12月31日

基于秩一张量近似的多目标跟踪

国家自然科学基金

0+阅读 · 2015年12月31日

多信源协作网络编码与QC-LDPC码的联合设计和迭代译码研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

8+阅读 · 2015年12月31日

复杂低空飞行中机会信号导航的信号优选及融合定位方法研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于框架提升变换的多源图像融合研究

国家自然科学基金

2+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

选择吸附导向合成CO变换催化剂及其结构优化

国家自然科学基金

0+阅读 · 2014年12月31日

面向武器系统协同的态势感知一致性计算方法研究

国家自然科学基金

55+阅读 · 2011年12月31日

Stepwise Token Selection for Efficient Multimodal Large Language Models

Arxiv

0+阅读 · 6月14日

Vision Transformers for Face Recognition Need More Registers

Arxiv

0+阅读 · 6月10日

UniReason-Med: A Shared Grounded Reasoning Interface for 2D-to-3D Transfer in Medical VQA

Arxiv

0+阅读 · 6月10日

MeCo: One-Step MeanFlow-based Corrector for Multi-Channel Speech Separation

Arxiv

0+阅读 · 6月8日

Multi-SPIN: Multi-Access Speculative Inference for Cooperative Token Generation at the Edge

Arxiv

0+阅读 · 6月7日

CRAM: Centroid-Routing and Adaptive MoE for Multimodal Continual Instruction Tuning

Arxiv

0+阅读 · 6月1日

Vision Transformers Need Better Token Interaction

Arxiv

0+阅读 · 5月22日

Layer-wise Token Compression for Efficient Document Reranking

Arxiv

0+阅读 · 5月20日

On the Adversarial Robustness of Large Vision-Language Models under Visual Token Compression

Arxiv

0+阅读 · 5月17日

One Trajectory, One Token: Grounded Video Tokenization via Panoptic Sub-object Trajectory

Arxiv

0+阅读 · 5月10日

VIP会员

文章信息

相关主题

词元分析器

最新内容

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

4+阅读 · 今天2:42

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

1+阅读 · 今天2:37

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

5+阅读 · 今天2:23

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

6+阅读 · 今天2:21

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

2+阅读 · 今天1:46

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

6+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

4+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

8+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

8+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

8+阅读 · 7月31日

相关VIP内容

《CommandSwarm：面向机器人集群的安全感知自然语言到行为树生成》

《CommandSwarm：面向机器人集群的安全感知自然语言到行为树生成》

专知会员服务

16+阅读 · 5月16日

《COA-GPT 2.0：加速军事决策流程的代理式人工智能规划工具》

《COA-GPT 2.0：加速军事决策流程的代理式人工智能规划工具》

专知会员服务

57+阅读 · 2025年11月10日

【CVPR2024】Token 转换的重要性：面向视觉 Transformer 的忠实事后解释

【CVPR2024】Token 转换的重要性：面向视觉 Transformer 的忠实事后解释

专知会员服务

21+阅读 · 2024年3月23日

《COA-GPT：军事作战中加速行动方案（COA）制定的生成式预训练Transformer》美陆军研究实验室2024最新论文

《COA-GPT：军事作战中加速行动方案（COA）制定的生成式预训练Transformer》美陆军研究实验室2024最新论文

专知会员服务

148+阅读 · 2024年2月9日

【KDD2023】考虑约束的排序蒸馏令牌修剪，用于高效的Transformer推断

【KDD2023】考虑约束的排序蒸馏令牌修剪，用于高效的Transformer推断

专知会员服务

23+阅读 · 2023年7月20日

CVPR 2023｜打破CAM的局限性！ToCo：进一步激发 ViT 在弱监督语义分割的潜力

CVPR 2023｜打破CAM的局限性！ToCo：进一步激发 ViT 在弱监督语义分割的潜力

专知会员服务

21+阅读 · 2023年3月31日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

专知会员服务

43+阅读 · 2020年10月29日

【推荐论文】多通道注意力选择GAN的图像到图像转换，Multi-Channel Attention Selection GANs for Guided Image-to-Image Translation

【推荐论文】多通道注意力选择GAN的图像到图像转换，Multi-Channel Attention Selection GANs for Guided Image-to-Image Translation

专知会员服务

30+阅读 · 2020年2月6日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

71+阅读 · 2020年1月17日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

美国陆军“项目融合（PC）”最新简介2022年6月2日更新，美国国会研究服务处（CRS）

美国陆军“项目融合（PC）”最新简介2022年6月2日更新，美国国会研究服务处（CRS）

专知

85+阅读 · 2022年6月11日

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

CVer

12+阅读 · 2020年6月30日

再发力！Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新SOTA准确率

再发力！Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新SOTA准确率

专知

48+阅读 · 2020年3月11日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

用Attention玩转CV，一文总览自注意力语义分割进展

用Attention玩转CV，一文总览自注意力语义分割进展

机器之心

14+阅读 · 2019年8月26日

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

机器之心

11+阅读 · 2019年6月3日

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

专知

54+阅读 · 2019年4月12日

半监督深度学习小结：类协同训练和一致性正则化

半监督深度学习小结：类协同训练和一致性正则化

PaperWeekly

15+阅读 · 2018年12月24日

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

专知

32+阅读 · 2018年8月14日

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

专知

17+阅读 · 2018年2月11日

相关论文

Stepwise Token Selection for Efficient Multimodal Large Language Models

Arxiv

0+阅读 · 6月14日

Vision Transformers for Face Recognition Need More Registers

Arxiv

0+阅读 · 6月10日

UniReason-Med: A Shared Grounded Reasoning Interface for 2D-to-3D Transfer in Medical VQA

Arxiv

0+阅读 · 6月10日

MeCo: One-Step MeanFlow-based Corrector for Multi-Channel Speech Separation

Arxiv

0+阅读 · 6月8日

Multi-SPIN: Multi-Access Speculative Inference for Cooperative Token Generation at the Edge

Arxiv

0+阅读 · 6月7日

CRAM: Centroid-Routing and Adaptive MoE for Multimodal Continual Instruction Tuning

Arxiv

0+阅读 · 6月1日

Vision Transformers Need Better Token Interaction

Arxiv

0+阅读 · 5月22日

Layer-wise Token Compression for Efficient Document Reranking

Arxiv

0+阅读 · 5月20日

On the Adversarial Robustness of Large Vision-Language Models under Visual Token Compression

Arxiv

0+阅读 · 5月17日

One Trajectory, One Token: Grounded Video Tokenization via Panoptic Sub-object Trajectory

Arxiv

0+阅读 · 5月10日

相关基金

量子导引的判定、度量与几何表示

国家自然科学基金

1+阅读 · 2017年12月31日

空间非合作目标基于点云模型的视觉与惯性融合相对导航方法与实验研究

国家自然科学基金

17+阅读 · 2015年12月31日

基于秩一张量近似的多目标跟踪

国家自然科学基金

0+阅读 · 2015年12月31日

多信源协作网络编码与QC-LDPC码的联合设计和迭代译码研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

8+阅读 · 2015年12月31日

复杂低空飞行中机会信号导航的信号优选及融合定位方法研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于框架提升变换的多源图像融合研究

国家自然科学基金

2+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

选择吸附导向合成CO变换催化剂及其结构优化

国家自然科学基金

0+阅读 · 2014年12月31日

面向武器系统协同的态势感知一致性计算方法研究

国家自然科学基金

55+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员