We propose a "learning to reject" framework to address the problem of silent failures in Domain Generalization (DG), where the test distribution differs from the training distribution. Assuming a mild distribution shift, we wish to accept out-of-distribution (OOD) data whenever a model's estimated competence foresees trustworthy responses, instead of rejecting OOD data outright. Trustworthiness is then predicted via a proxy incompetence score that is tightly linked to the performance of a classifier. We present a comprehensive experimental evaluation of incompetence scores for classification and highlight the resulting trade-offs between rejection rate and accuracy gain. For comparability with prior work, we focus on standard DG benchmarks and consider the effect of measuring incompetence via different learned representations in a closed versus an open world setting. Our results suggest that increasing incompetence scores are indeed predictive of reduced accuracy, leading to significant improvements of the average accuracy below a suitable incompetence threshold. However, the scores are not yet good enough to allow for a favorable accuracy/rejection trade-off in all tested domains. Surprisingly, our results also indicate that classifiers optimized for DG robustness do not outperform a naive Empirical Risk Minimization (ERM) baseline in the competence region, that is, where test samples elicit low incompetence scores.


翻译:我们提出了一种“学会拒绝”框架,以解决领域泛化中测试分布与训练分布不同时的静默失败问题。假设存在温和的分布偏移,我们希望在模型估计的能力可预见可信响应时接受分布外数据,而非直接拒绝所有分布外数据。信任度通过一个与分类器性能紧密相关的代理能力不足分数来预测。我们针对分类任务中的能力不足分数进行了全面的实验评估,并强调了拒绝率与准确率提升之间的权衡。为与先前工作保持可比性,我们聚焦于标准领域泛化基准,并探讨在封闭与开放世界场景下通过不同学习表示测量能力不足的影响。结果表明,能力不足分数的增加确实能预测准确率的下降,从而在适当的能力不足阈值下显著提升平均准确率。然而,这些分数尚不足以在所有测试领域实现有利的准确率/拒绝率权衡。令人意外的是,我们的结果还显示,针对领域泛化鲁棒性优化的分类器在能力区域(即测试样本引发低能力不足分数的区域)内并未优于朴素的经验风险最小化基线。

0
下载
关闭预览

相关内容

机器学习系统设计系统评估标准
专知会员服务
52+阅读 · 2020年12月14日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
167+阅读 · 2020年3月18日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
GNN 新基准!Long Range Graph Benchmark
图与推荐
0+阅读 · 2022年10月18日
从ICML 2022看域泛化(Domain Generalization)最新进展
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
38+阅读 · 2021年8月31日
Arxiv
12+阅读 · 2021年8月19日
Arxiv
17+阅读 · 2021年7月18日
Arxiv
12+阅读 · 2021年6月29日
Arxiv
13+阅读 · 2021年3月29日
VIP会员
最新内容
美国陆军航空兵:以愿景引领转型
专知会员服务
0+阅读 · 24分钟前
《多域战场上反制小型无人机系统》150页
专知会员服务
14+阅读 · 6月11日
战场人工智能:增强陆地作战能力的发现与要求
以人工智能为中心的指挥控制
专知会员服务
3+阅读 · 6月11日
《基于深度强化学习的反无人机技术研究》178页
专知会员服务
13+阅读 · 6月10日
相关论文
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员