The Shapley value provides a principled framework for fairly distributing rewards among participants according to their individual contributions. While prior work has applied this concept to data valuation in machine learning, existing formulations overwhelmingly assume that each participant contributes a fixed, deterministic dataset. In practice, however, data owners often provide samples drawn from underlying probabilistic distributions, introducing stochasticity into their marginal contributions and rendering the Shapley value itself a random variable. This work addresses this gap by proposing a framework for the Shapley value of probabilistic data distributions that quantifies both the expected contribution and the variance of each participant, thereby capturing uncertainty induced by random sampling. We develop theoretical and empirical methodologies for estimating these quantities: on the theoretical side, we derive unbiased estimators for the expectation and variance of the probabilistic Shapley value and analyze their statistical properties; on the empirical side, we introduce three Monte Carlo-based estimation algorithms - a baseline estimator using independent samples, a pooled estimator that improves efficiency through sample reuse, and a stratified pooled estimator that adaptively allocates sampling budget based on player-specific variability. Experiments on synthetic and real datasets demonstrate that these methods achieve strong accuracy-efficiency trade-offs, with the stratified pooled approach attaining substantial variance reduction at minimal additional cost. By extending Shapley value analysis from deterministic datasets to probabilistic data distributions, this work provides both theoretical rigor and practical tools for fair and reliable data valuation in modern stochastic data-sharing environments.


翻译:Shapley值为根据个体贡献公平分配参与者报酬提供了一个原则性框架。尽管先前研究已将该概念应用于机器学习中的数据估值,但现有方法绝大多数假设每个参与者贡献的是固定、确定性的数据集。然而在实践中,数据所有者通常提供从基础概率分布中抽取的样本,这给其边际贡献引入了随机性,并使Shapley值本身成为随机变量。本研究通过提出一个针对概率数据分布的Shapley值框架来填补这一空白,该框架同时量化每个参与者的期望贡献和方差,从而捕捉随机抽样引发的不确定性。我们开发了估计这些量的理论与实证方法:在理论层面,我们推导出概率Shapley值期望与方差的无偏估计量,并分析其统计特性;在实证层面,我们提出三种基于蒙特卡洛的估计算法——使用独立样本的基线估计器、通过样本复用提升效率的池化估计器,以及根据参与者特定变异性自适应分配采样预算的分层池化估计器。在合成与真实数据集上的实验表明,这些方法实现了优异的精度-效率权衡,其中分层池化方法以最小附加成本获得了显著的方差缩减。通过将Shapley值分析从确定性数据集扩展到概率数据分布,本研究为现代随机数据共享环境中的公平可靠数据估值提供了理论严谨性与实用工具。

0
下载
关闭预览

相关内容

本话题关于日常用语「概率」,用于讨论生活中的运气、机会,及赌博、彩票、游戏中的「技巧」。关于抽象数学概念「概率」的讨论,请转 概率(数学)话题。
专知会员服务
19+阅读 · 2021年7月11日
您可以相信模型的不确定性吗?
TensorFlow
14+阅读 · 2020年1月31日
「PPT」深度学习中的不确定性估计
专知
27+阅读 · 2019年7月20日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
训练数据多少才够用
专知
16+阅读 · 2019年5月4日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月10日
Arxiv
0+阅读 · 2月6日
Arxiv
0+阅读 · 2月1日
VIP会员
相关VIP内容
专知会员服务
19+阅读 · 2021年7月11日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员