https://dr.ntu.edu.sg/entities/publication/80539240-9346-4d44-ab6b-078d26c35143 视觉及视觉-语言模型在独立同分布(IID)基准测试(即训练数据与测试数据共享相同分布)中已取得令人瞩目的成果。然而,当面对分布与训练集不同的分布外(OOD)数据时,其性能通常会显著下降。导致这种泛化能力缺失的关键原因在于捷径学习(Shortcut Learning)——即模型倾向于依赖虚假相关性或表层特征。这些特征在训练数据中具有预测性,但并未反映正确结果背后的底层因果关系。 捷径学习的产生主要源于两个因素:(1) 训练数据中频繁包含在其他分布下不成立的虚假相关性;(2) 这些相关性极易被模型捕获,因为它们在损失函数曲面(Loss Landscape)中对应于基于梯度的优化算法所偏好的平坦极小值(Flat Minima)。因此,模型往往会优先选择非因果模式,而非稳健且具备泛化性的特征。

缓解策略与研究路径

因此,缓解捷径学习对于提升 OOD 泛化能力至关重要。这一挑战可以从两个互补的视角出发:在数据层面,数据增强和合成数据生成等干预技术可以打破虚假相关性,并凸显不变特征;在模型层面,通过架构设计扩大与因果特征相关的极小值范围,同时抑制与捷径特征相关的极小值,可以鼓励模型学习更具泛化性的特征。这两类方法共同促进了稳健表征的学习,并提升了 OOD 泛化性能。 本论文将捷径学习视为视觉及视觉-语言模型在 OOD 泛化中所面临的基础性挑战,并在视频识别、视频生成和视觉-语言理解等一系列任务中展开研究。这些任务涵盖了从单模态判别到像素级生成,再到跨模态推理的递进过程,旨在不断增加表征与建模需求的基础上,对捷径缓解策略进行系统的评估。

成为VIP会员查看完整内容
0

相关内容

VIP会员
最新内容
自主、人工智能与可消耗集群时代的海军情报
专知会员服务
4+阅读 · 今天9:50
“史诗狂怒行动”中的海军动态
专知会员服务
8+阅读 · 4月5日
大语言模型同策略蒸馏研究综述
专知会员服务
7+阅读 · 4月5日
无人机蜂群:研究、挑战、未来发展方向
专知会员服务
11+阅读 · 4月4日
【博士论文】已对齐 AI 系统的持续脆弱性
专知会员服务
8+阅读 · 4月3日
潜空间综述:基础、演化、机制、能力与展望
专知会员服务
13+阅读 · 4月3日
《人工智能时代的国防工业政策》
专知会员服务
9+阅读 · 4月3日
微信扫码咨询专知VIP会员