The success of contrastive learning depends on the construction and utilization of high-quality positive pairs. However, current methods face critical limitations on two fronts: on the construction side, both handcrafted and generative augmentations often suffer from limited diversity and risk semantic corruption; on the learning side, the absence of a quality assessment mechanism leads to suboptimal supervision where all pairs are treated equally. To tackle these challenges, we propose GenView++, a unified framework that addresses both fronts by introducing two synergistic innovations. To improve pair construction, GenView++ introduces a multi-source adaptive view generation mechanism to synthesize diverse yet semantically coherent views by dynamically modulating generative parameters across image-conditioned, text-conditioned, and image-text-conditioned strategies. Second, a quality-driven contrastive learning mechanism assesses each pair's semantic alignment and diversity to dynamically reweight their training contribution, prioritizing high-quality pairs while suppressing redundant or misaligned pairs. Extensive experiments demonstrate the effectiveness of GenView++ across both vision and vision-language tasks. For vision representation learning, it improves MoCov2 by +2.5% on ImageNet linear classification. For vision-language learning, it raises the average zero-shot classification accuracy by +12.31% over CLIP and +5.31% over SLIP across ten datasets, and further improves Flickr30k text retrieval R@5 by +3.2%.


翻译:对比学习的成功依赖于高质量正样本对的构建与利用。然而,现有方法面临两个关键局限:在构建层面,无论是手工设计还是生成式增强方法,往往存在多样性受限和语义损坏风险;在学习层面,缺乏质量评估机制导致所有样本对被平等对待,产生次优监督。为应对这些挑战,我们提出GenView++,一个通过两项协同创新统一解决上述问题的框架。为改进样本对构建,GenView++引入多源自适应视图生成机制,通过动态调制图像条件、文本条件及图像-文本条件三种策略的生成参数,合成兼具多样性与语义一致性的视图。其次,质量驱动对比学习机制评估每个样本对的语义对齐度与多样性,动态重加权其训练贡献,优先高质量样本对并抑制冗余或失准样本对。大量实验验证了GenView++在视觉与视觉-语言任务中的有效性。在视觉表示学习中,其将MoCov2在ImageNet线性分类任务上的性能提升+2.5%。在视觉-语言学习中,其在十个数据集上的平均零样本分类准确率较CLIP提升+12.31%,较SLIP提升+5.31%,并将Flickr30k文本检索的R@5指标进一步提升+3.2%。

0
下载
关闭预览

相关内容

最新《对比监督学习》综述论文,20页pdf
专知会员服务
86+阅读 · 2020年11月5日
【ICML2020】多视角对比图表示学习,Contrastive Multi-View GRL
专知会员服务
80+阅读 · 2020年6月11日
【Google】监督对比学习,Supervised Contrastive Learning
专知会员服务
75+阅读 · 2020年4月24日
【google】监督对比学习,Supervised Contrastive Learning
专知会员服务
33+阅读 · 2020年4月23日
对比自监督学习
深度学习自然语言处理
35+阅读 · 2020年7月15日
【ICML2020】对比多视角表示学习
专知
19+阅读 · 2020年6月28日
在TensorFlow中对比两大生成模型:VAE与GAN
机器之心
12+阅读 · 2017年10月23日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
VIP会员
最新内容
【CMU博士论文】迈向可解释机器学习的理论基础
专知会员服务
0+阅读 · 今天12:23
基于数据优化的人机协同与机器人僚机
专知会员服务
4+阅读 · 今天2:08
美陆军设想无人系统司令部
专知会员服务
3+阅读 · 4月15日
【博士论文】已对齐人工智能系统的持久脆弱性
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员