多模态跟踪领域的参数高效微调(PEFT)研究近期呈现出一种令人担忧的趋势:性能的提升往往以膨胀的参数预算为代价,这从根本上削弱了 PEFT 的效率优势。在本文中,我们提出了 SEATrack,一种简明、高效且具备自适应能力的双流多模态跟踪器,旨在从两个互补的角度解决性能与效率之间的困境。 首先,我们优先考虑了匹配响应(matching responses)的跨模态对齐。我们认为这是一个被长期忽视但至关重要的因素,是打破性能权衡僵局的关键。具体而言,我们观察到现有双流方法中的模态特有偏置(modality-specific biases)会产生相互冲突的匹配注意力图,从而阻碍有效的联合表示学习。为了缓解这一问题,我们提出了 AMG-LoRA,该模块将用于领域自适应的低秩自适应(LoRA)与自适应相互引导(AMG)无缝集成,以动态地细化并对齐跨模态的注意力图。 其次,我们背离了传统的局部融合方法,引入了层级混合专家模型(HMoE)。该模型能够实现高效的全局关系建模,在跨模态融合中有效平衡了表达能力与计算效率。凭借这些创新,SEATrack 在 RGB-T、RGB-D 及 RGB-E 跟踪任务中均取得了显著进展,在性能与效率的平衡上超越了现有前沿(SOTA)方法。相关代码已开源。