Semivalue-based data valuation uses cooperative-game theory intuitions to assign each data point a value reflecting its contribution to a downstream task. Still, those values depend on the practitioner's choice of utility, raising the question: How robust is semivalue-based data valuation to changes in the utility? This issue is critical when the utility is set as a trade-off between several criteria and when practitioners must select among multiple equally valid utilities. We address this by introducing the notion of a dataset's spatial signature: given a semivalue, we embed each data point into a lower-dimensional space in which any utility becomes a linear functional, making the data valuation framework amenable to a simpler geometric picture. Building on this, we propose a practical methodology centered on an explicit robustness metric that informs practitioners whether and by how much their data valuation results will shift as the utility changes. We validate this approach across diverse datasets and semivalues, demonstrating strong agreement with rank-correlation analyses and offering analytical insight into how choosing a semivalue can amplify or diminish robustness.


翻译:基于半值的数据估值借鉴合作博弈论思想,为每个数据点分配反映其对下游任务贡献的价值。然而,这些价值取决于实践者对效用的选择,从而引出一个关键问题:基于半值的数据估值对效用变化的稳健性如何?当效用被设定为多个标准间的权衡取舍,或实践者必须在多个同等有效的效用函数中进行选择时,这一问题尤为重要。为此,我们引入数据集空间签名的概念:给定一个半值,我们将每个数据点嵌入低维空间,使得任意效用在该空间中均表现为线性泛函,从而将数据估值框架转化为更简洁的几何图景。基于此,我们提出一种以显式稳健性度量为核心的实用方法,该度量能够告知实践者其数据估值结果是否会随效用变化而发生偏移以及偏移的程度。我们在多样化数据集和半值上验证了该方法,结果表明其与秩相关分析高度一致,并为选择特定半值如何增强或削弱稳健性提供了分析性见解。

0
下载
关闭预览

相关内容

基于因果推断的推荐系统去偏研究
专知会员服务
21+阅读 · 2024年11月10日
[ICML2024]消除偏差:微调基础模型以进行半监督学习
专知会员服务
18+阅读 · 2024年5月23日
数据资产化前瞻性研究白皮书
专知会员服务
48+阅读 · 2021年11月19日
【上海交大】半监督学习理论及其研究进展概述
专知会员服务
71+阅读 · 2019年10月18日
基于深度学习的数据融合方法研究综述
专知
37+阅读 · 2020年12月10日
半监督学习加速AI产业数据标注
QCon
13+阅读 · 2019年4月2日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
0+阅读 · 17分钟前
软件定义多域战术网络:基础与未来方向(综述)
水下战战术决策中的气象与海洋预报(50页报告)
远程空中优势:新一代超视距导弹的兴起
专知会员服务
1+阅读 · 45分钟前
大语言模型溯因推理的统一分类学与综述
专知会员服务
0+阅读 · 今天12:07
美/以-伊战争:停火与后续情景与影响分析
专知会员服务
3+阅读 · 4月11日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员