Domain Generalization (DG) seeks to develop a versatile model capable of performing effectively on unseen target domains. Notably, recent advances in pre-trained Visual Foundation Models (VFMs), such as CLIP, have demonstrated considerable potential in enhancing the generalization capabilities of deep learning models. Despite the increasing attention toward VFM-based domain prompt tuning within DG, the effective design of prompts capable of disentangling invariant features across diverse domains remains a critical challenge. In this paper, we propose addressing this challenge by leveraging the controllable and flexible language prompt of the VFM. Noting that the text modality of VFMs is naturally easier to disentangle, we introduce a novel framework for text feature-guided visual prompt tuning. This framework first automatically disentangles the text prompt using a large language model (LLM) and then learns domain-invariant visual representation guided by the disentangled text feature. However, relying solely on language to guide visual feature disentanglement has limitations, as visual features can sometimes be too complex or nuanced to be fully captured by descriptive text. To address this, we introduce Worst Explicit Representation Alignment (WERA), which extends text-guided visual prompts by incorporating an additional set of abstract prompts. These prompts enhance source domain diversity through stylized image augmentations, while alignment constraints ensure that visual representations remain consistent across both the original and augmented distributions. Experiments conducted on major DG datasets, including PACS, VLCS, OfficeHome, DomainNet, and TerraInc, demonstrate that our proposed method outperforms state-of-the-art DG methods.


翻译:领域泛化旨在开发一种能够在未见过的目标域上有效执行的通用模型。值得注意的是,近期基于预训练视觉基础模型(如CLIP)的进展已展现出增强深度学习模型泛化能力的巨大潜力。尽管当前基于视觉基础模型的域提示调优在领域泛化领域日益受到关注,但如何设计能有效解耦跨域不变特征的提示仍是一个关键挑战。本文提出利用视觉基础模型可控且灵活的语言提示来应对这一挑战。针对视觉基础模型文本模态天然更易解耦的特性,我们引入了一个文本特征引导的视觉提示调优新框架。该框架首先通过大语言模型自动解耦文本提示,随后基于解耦后的文本特征学习域不变视觉表征。然而,仅依赖语言引导视觉特征解耦存在局限——视觉特征有时过于复杂或微妙,难以被描述性文本完全捕捉。为此,我们提出最劣显式表征对齐方法,通过引入额外抽象提示集扩展文本引导的视觉提示:一方面通过风格化图像增强提升源域多样性,另一方面利用对齐约束确保视觉表征在原始分布与增强分布间保持一致性。在PACS、VLCS、OfficeHome、DomainNet和TerraInc等主流领域泛化数据集上的实验表明,我们提出的方法性能优于当前最优的领域泛化方法。

0
下载
关闭预览

相关内容

深度学习中泛化的量化、理解与改进
专知会员服务
17+阅读 · 2025年9月13日
CLIP通用提示学习的简要概述
专知会员服务
17+阅读 · 2025年3月13日
【NeurIPS2023】多样化的时空感知用于视频域泛化
专知会员服务
21+阅读 · 2023年10月30日
【KDD2023】对领域泛化的异质性进行定量度量和对比分析
专知会员服务
24+阅读 · 2023年5月29日
【伯克利博士论文】学习跨领域的可迁移表示
专知会员服务
47+阅读 · 2022年8月17日
专知会员服务
26+阅读 · 2021年10月20日
专知会员服务
42+阅读 · 2021年8月12日
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
【资源】领域自适应相关论文、代码分享
专知
32+阅读 · 2019年10月12日
领域自适应学习论文大列表
专知
71+阅读 · 2019年3月2日
迁移学习之Domain Adaptation
全球人工智能
18+阅读 · 2018年4月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
深度学习中泛化的量化、理解与改进
专知会员服务
17+阅读 · 2025年9月13日
CLIP通用提示学习的简要概述
专知会员服务
17+阅读 · 2025年3月13日
【NeurIPS2023】多样化的时空感知用于视频域泛化
专知会员服务
21+阅读 · 2023年10月30日
【KDD2023】对领域泛化的异质性进行定量度量和对比分析
专知会员服务
24+阅读 · 2023年5月29日
【伯克利博士论文】学习跨领域的可迁移表示
专知会员服务
47+阅读 · 2022年8月17日
专知会员服务
26+阅读 · 2021年10月20日
专知会员服务
42+阅读 · 2021年8月12日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员