Semivalue-based data valuation uses cooperative-game theory intuitions to assign each data point a value reflecting its contribution to a downstream task. Still, those values depend on the practitioner's choice of utility, raising the question: How robust is semivalue-based data valuation to changes in the utility? This issue is critical when the utility is set as a trade-off between several criteria and when practitioners must select among multiple equally valid utilities. We address this by introducing the notion of a dataset's spatial signature: given a semivalue, we embed each data point into a lower-dimensional space in which any utility becomes a linear functional, making the data valuation framework amenable to a simpler geometric picture. Building on this, we propose a practical methodology centered on an explicit robustness metric that informs practitioners whether and by how much their data valuation results will shift as the utility changes. We validate this approach across diverse datasets and semivalues, demonstrating strong agreement with rank-correlation analyses and offering analytical insight into how choosing a semivalue can amplify or diminish robustness.


翻译:基于半值的数据估值借鉴合作博弈论思想,为每个数据点分配反映其对下游任务贡献的价值。然而,这些价值取决于实践者对效用的选择,从而引出一个关键问题:基于半值的数据估值对效用变化的稳健性如何?当效用被设定为多个标准间的权衡取舍,或实践者必须在多个同等有效的效用函数中进行选择时,这一问题尤为重要。为此,我们引入数据集空间签名的概念:给定一个半值,我们将每个数据点嵌入低维空间,使得任意效用在该空间中均表现为线性泛函,从而将数据估值框架转化为更简洁的几何图景。基于此,我们提出一种以显式稳健性度量为核心的实用方法,该度量能够告知实践者其数据估值结果是否会随效用变化而发生偏移以及偏移的程度。我们在多样化数据集和半值上验证了该方法,结果表明其与秩相关分析高度一致,并为选择特定半值如何增强或削弱稳健性提供了分析性见解。

0
下载
关闭预览

相关内容

基于因果推断的推荐系统去偏研究
专知会员服务
21+阅读 · 2024年11月10日
[ICML2024]消除偏差:微调基础模型以进行半监督学习
专知会员服务
18+阅读 · 2024年5月23日
数据资产化前瞻性研究白皮书
专知会员服务
48+阅读 · 2021年11月19日
【上海交大】半监督学习理论及其研究进展概述
专知会员服务
71+阅读 · 2019年10月18日
基于深度学习的数据融合方法研究综述
专知
37+阅读 · 2020年12月10日
半监督学习加速AI产业数据标注
QCon
13+阅读 · 2019年4月2日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
战略前沿人工智能的再思考(中文)
专知会员服务
4+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
4+阅读 · 5月29日
“史诗怒火行动”中美军损失的作战飞机
专知会员服务
4+阅读 · 5月29日
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
5+阅读 · 5月28日
Agent Harness综述:大模型智能体执行器工程全景
专知会员服务
14+阅读 · 5月28日
《基于理论的威慑效能评估》
专知会员服务
8+阅读 · 5月28日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员