Measuring dataset similarity is fundamental in machine learning, particularly for transfer learning and domain adaptation. In the context of supervised learning, most existing approaches quantify similarity of two data sets based on their input feature distributions, neglecting label information and feature-response alignment. To address this, we propose the Cross-Learning Score (CLS), which measures dataset similarity through bidirectional generalization performance of decision rules. We establish its theoretical foundation by linking CLS to cosine similarity between decision boundaries under canonical linear models, providing a geometric interpretation. A robust ensemble-based estimator is developed that is easy to implement and bypasses high-dimensional density estimation entirely. For transfer learning applications, we introduce a "transferable zones" framework that categorizes source datasets into positive, ambiguous, and negative transfer regions. To accommodate deep learning, we extend CLS to encoder-head architectures, aligning with modern representation-based pipelines. Extensive experiments on synthetic and real-world datasets validate the effectiveness of CLS for similarity measurement and transfer assessment.


翻译:度量数据集相似性是机器学习的基本问题,尤其在迁移学习和领域适应中至关重要。在监督学习背景下,现有方法大多基于输入特征分布来量化两个数据集的相似性,忽略了标签信息及特征-响应对齐。为此,我们提出交叉学习分数(Cross-Learning Score, CLS),通过决策规则的双向泛化性能来度量数据集相似性。我们建立了其理论基础,将CLS与规范线性模型下决策边界之间的余弦相似度联系起来,提供了几何解释。同时开发了一种稳健的集成估计器,不仅易于实现,还完全绕过高维密度估计。针对迁移学习应用,我们引入了"可迁移区域"框架,将源数据集划分为正迁移、模糊迁移和负迁移区域。为适应深度学习,我们将CLS扩展至编码器-头部架构,与基于表示的现代流水线对齐。在合成数据集与真实数据集上的大量实验验证了CLS在相似性度量与迁移评估中的有效性。

0
下载
关闭预览

相关内容

专知会员服务
29+阅读 · 2021年6月7日
【MIT】反偏差对比学习,Debiased Contrastive Learning
专知会员服务
92+阅读 · 2020年7月4日
【google】监督对比学习,Supervised Contrastive Learning
专知会员服务
33+阅读 · 2020年4月23日
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
半监督深度学习小结:类协同训练和一致性正则化
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
18+阅读 · 2021年6月10日
VIP会员
相关主题
最新内容
认知战与交战性质的改变:神经战略视角
专知会员服务
5+阅读 · 5月8日
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员