多模态跟踪领域的参数高效微调(PEFT)研究近期呈现出一种令人担忧的趋势:性能的提升往往以膨胀的参数预算为代价,这从根本上削弱了 PEFT 的效率优势。在本文中,我们提出了 SEATrack,一种简明、高效且具备自适应能力的双流多模态跟踪器,旨在从两个互补的角度解决性能与效率之间的困境。 首先,我们优先考虑了匹配响应(matching responses)的跨模态对齐。我们认为这是一个被长期忽视但至关重要的因素,是打破性能权衡僵局的关键。具体而言,我们观察到现有双流方法中的模态特有偏置(modality-specific biases)会产生相互冲突的匹配注意力图,从而阻碍有效的联合表示学习。为了缓解这一问题,我们提出了 AMG-LoRA,该模块将用于领域自适应的低秩自适应(LoRA)与自适应相互引导(AMG)无缝集成,以动态地细化并对齐跨模态的注意力图。 其次,我们背离了传统的局部融合方法,引入了层级混合专家模型(HMoE)。该模型能够实现高效的全局关系建模,在跨模态融合中有效平衡了表达能力与计算效率。凭借这些创新,SEATrack 在 RGB-T、RGB-D 及 RGB-E 跟踪任务中均取得了显著进展,在性能与效率的平衡上超越了现有前沿(SOTA)方法。相关代码已开源。

成为VIP会员查看完整内容
4

相关内容

【CVPR2023】面向自监督视觉表示学习的混合自编码器
专知会员服务
25+阅读 · 2023年4月3日
【CVPR2023】带缺失模态多模态提示的视觉识别
专知会员服务
23+阅读 · 2023年3月10日
【CVPR 2021】变换器跟踪TransT: Transformer Tracking
专知会员服务
22+阅读 · 2021年4月20日
【CVPR2020-谷歌】多目标(车辆)跟踪与检测框架 RetinaTrack
专知会员服务
45+阅读 · 2020年4月10日
【学界】CVPR 2019 Oral 目标跟踪最强算法SiamRPN++开源实现
GAN生成式对抗网络
16+阅读 · 2019年5月3日
CVPR2019 | SiamMask:视频跟踪最高精度
极市平台
21+阅读 · 2019年3月8日
论文笔记:多任务相关粒子滤波跟踪器
统计学习与视觉计算组
10+阅读 · 2017年7月7日
国家自然科学基金
14+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
18+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
VIP会员
最新内容
人工智能在战场行动中的演进及伊朗案例
专知会员服务
7+阅读 · 4月18日
美AI公司Anthropic推出网络安全模型“Mythos”
专知会员服务
4+阅读 · 4月18日
【博士论文】面向城市环境的可解释计算机视觉
大语言模型的自改进机制:技术综述与未来展望
《第四代军事特种作战部队选拔与评估》
专知会员服务
3+阅读 · 4月18日
相关基金
国家自然科学基金
14+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
18+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
微信扫码咨询专知VIP会员