Contrastive learning is effective for aligning paired views or modalities, but alignment beyond two modalities remains non-trivial and comparatively underexplored. Pairwise CLIP-style losses decompose multi-modal alignment into independent two-way comparisons and therefore do not explicitly model higher-order dependencies among multiple modalities. Recent beyond-pairwise objectives approach this problem from statistical or geometric perspectives, but arbitrary-modality alignment still lacks a principled criterion for defining what each modality should preserve and compress relative to the others. We revisit arbitrary-modality alignment through the Information Bottleneck principle. In multi-modal learning, sufficiency should preserve information predictable from the remaining modalities, while minimality should compress modality-specific information not supported by them. This naturally leads to a One-vs-All view, where each modality is characterized with respect to the remaining modalities. We propose OVA-IB, an Information Bottleneck framework for arbitrary-modality alignment. OVA-IB optimizes a tractable One-vs-All contrastive lower bound for sufficiency connected to a Dual Total Correlation-style objective, uses a parameter-free geometry-aware projection score, and derives a tractable upper-bound regularizer for minimality by bounding each representation's dependence on its own input with representation distributions induced by the remaining modalities. Experiments on classification, regression, modality-agnostic evaluation, and cross-modal retrieval benchmarks demonstrate strong and robust performance.


翻译:对比学习在配对的视图或模态对齐中效果显著,但超越两种模态的对齐仍具挑战性且研究相对不足。成对CLIP式损失将多模态对齐分解为独立的双向比较,因此未能显式建模多模态间的高阶依赖关系。近期超越成对的目标函数从统计或几何角度解决该问题,但任意模态对齐仍缺乏一个原则性准则来定义每个模态应保留和压缩哪些与其他模态相关的信息。我们通过信息瓶颈原理重新审视任意模态对齐问题。在多模态学习中,充分性应保留可由其余模态预测的信息,而最小性应压缩其他模态不支持的模态特有信息。这自然引出一对多视角:每个模态通过与其他模态的关系进行表征。我们提出OVA-IB,一个针对任意模态对齐的信息瓶颈框架。OVA-IB优化了可处理的一对多对比下界(与充分性相关)并连接至双重总相关性风格目标函数,采用无参数几何感知投影分数,并通过其余模态诱导的表示分布约束各模态表示对其自身输入的依赖,从而导出可处理的上界正则化项(用于最小性)。在分类、回归、模态无关评估及跨模态检索基准上的实验展现了强大且鲁棒的性能。

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
【ICML2025】学习最优多模态信息瓶颈表示
专知会员服务
11+阅读 · 2025年5月28日
对比预训练和多模态生成式人工智能的统计理论
专知会员服务
22+阅读 · 2025年1月12日
《多模态对齐与融合》综述
专知会员服务
99+阅读 · 2024年11月27日
【CVPR2023】多模态表示学习中潜在模态结构的理解和构建
【ICML2022】几何多模态对比表示学习
专知会员服务
45+阅读 · 2022年7月17日
专知会员服务
16+阅读 · 2021年10月4日
专知会员服务
26+阅读 · 2021年9月9日
专知会员服务
44+阅读 · 2021年7月1日
【AAAI2023】用于图对比学习的谱特征增强
专知
20+阅读 · 2022年12月11日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
【ICML2020】对比多视角表示学习
专知
19+阅读 · 2020年6月28日
跨多个异构数据源的实体对齐
FCS
15+阅读 · 2019年3月13日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
1+阅读 · 今天14:45
定向能反无人机系统最新发展动态
专知会员服务
5+阅读 · 今天13:50
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 今天13:33
相关VIP内容
【ICML2025】学习最优多模态信息瓶颈表示
专知会员服务
11+阅读 · 2025年5月28日
对比预训练和多模态生成式人工智能的统计理论
专知会员服务
22+阅读 · 2025年1月12日
《多模态对齐与融合》综述
专知会员服务
99+阅读 · 2024年11月27日
【CVPR2023】多模态表示学习中潜在模态结构的理解和构建
【ICML2022】几何多模态对比表示学习
专知会员服务
45+阅读 · 2022年7月17日
专知会员服务
16+阅读 · 2021年10月4日
专知会员服务
26+阅读 · 2021年9月9日
专知会员服务
44+阅读 · 2021年7月1日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员