In multi-source learning with discrete labels, distributional heterogeneity across domains poses a central challenge to developing predictive models that transfer reliably to unseen domains. We study multi-source unsupervised domain adaptation, where labeled data are available from multiple source domains and only unlabeled data are observed from the target domain. To address potential distribution shifts, we propose a novel Conditional Group Distributionally Robust Optimization (CG-DRO) framework that learns a classifier by minimizing the worst-case cross-entropy loss over the convex combinations of the conditional outcome distributions from sources domains. We develop an efficient Mirror Prox algorithm for solving the minimax problem and employ a double machine learning procedure to estimate the risk function, ensuring that errors in nuisance estimation contribute only at higher-order rates. We establish fast statistical convergence rates for the empirical CG-DRO estimator by constructing two surrogate minimax optimization problems that serve as theoretical bridges. A distinguishing challenge for CG-DRO is the emergence of nonstandard asymptotics: the empirical CG-DRO estimator may fail to converge to a standard limiting distribution due to boundary effects and system instability. To address this, we introduce a perturbation-based inference procedure that enables uniformly valid inference, including confidence interval construction and hypothesis testing.


翻译:在多源学习与离散标签的场景中,跨领域的分布异质性构成了开发能够可靠迁移至未见领域的预测模型的核心挑战。本研究聚焦于多源无监督领域自适应问题,其中多个源领域提供带标签数据,而目标领域仅观测到无标签数据。为应对潜在的分布偏移,我们提出了一种新颖的条件分组分布鲁棒优化框架,该框架通过最小化源领域条件结果分布的凸组合上的最坏情况交叉熵损失来学习分类器。我们开发了一种高效的镜像近端算法来求解该极小极大问题,并采用双重机器学习程序来估计风险函数,确保干扰参数估计的误差仅以高阶速率影响结果。通过构建两个作为理论桥梁的代理极小极大优化问题,我们为经验CG-DRO估计量建立了快速的统计收敛速率。CG-DRO面临的一个显著挑战是非标准渐近性的出现:由于边界效应和系统不稳定性,经验CG-DRO估计量可能无法收敛到标准的极限分布。为解决此问题,我们引入了一种基于扰动的推断程序,该程序能够实现包括置信区间构建和假设检验在内的均匀有效推断。

0
下载
关闭预览

相关内容

《分布外泛化评估》综述
专知会员服务
43+阅读 · 2024年3月6日
【CMU博士论文】分布偏移下的不确定性量化,226页pdf
专知会员服务
31+阅读 · 2023年9月30日
【斯坦福博士论文】大模型驱动的鲁棒机器学习,243页pdf
综述 | 异质信息网络分析与应用综述
专知
27+阅读 · 2020年8月8日
【资源】领域自适应相关论文、代码分享
专知
32+阅读 · 2019年10月12日
非平衡数据集 focal loss 多类分类
AI研习社
33+阅读 · 2019年4月23日
领域自适应学习论文大列表
专知
71+阅读 · 2019年3月2日
基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】
人工智能前沿讲习班
27+阅读 · 2018年12月13日
迁移学习之Domain Adaptation
全球人工智能
18+阅读 · 2018年4月11日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员