Reliable data attribution is essential for mitigating bias and reducing computational waste in modern machine learning, with the Shapley value serving as the theoretical gold standard. While recent "In-Run" methods bypass the prohibitive cost of retraining by estimating contributions dynamically, they heavily rely on the linear structure of Stochastic Gradient Descent (SGD) and fail to capture the complex dynamics of adaptive optimizers like Adam. In this work, we demonstrate that data attribution is inherently optimizer-dependent: we show that SGD-based proxies diverge significantly from true contributions under Adam (Pearson $R \approx 0.11$), rendering them ineffective for modern training pipelines. To bridge this gap, we propose Adam-Aware In-Run Data Shapley. We derive a closed-form approximation that restores additivity by redefining utility under a fixed-state assumption and enable scalable computation via a novel Linearized Ghost Approximation. This technique linearizes the variance-dependent scaling term, allowing us to compute pairwise gradient dot-products without materializing per-sample gradients. Extensive experiments show that our method achieves near-perfect fidelity to ground-truth marginal contributions ($R > 0.99$) while retaining $\sim$95\% of standard training throughput. Furthermore, our Adam-aware attribution significantly outperforms SGD-based baselines in data attribution downstream tasks.


翻译:可靠的数据归因对于减轻现代机器学习中的偏见和减少计算浪费至关重要,其中沙普利值被视为理论上的黄金标准。尽管近期的"运行中"方法通过动态估计贡献来规避重新训练的高昂成本,但它们严重依赖于随机梯度下降(SGD)的线性结构,无法捕捉像Adam这样的自适应优化器的复杂动态。在这项工作中,我们证明了数据归因本质上依赖于优化器:我们展示了基于SGD的代理方法在Adam优化器下与真实贡献显著偏离(皮尔逊相关系数 $R \approx 0.11$),使其在现代训练流程中失效。为弥补这一差距,我们提出了Adam感知的运行中数据沙普利值方法。我们推导出一个闭式近似,通过重新定义固定状态假设下的效用函数来恢复可加性,并借助一种新颖的线性化幽灵近似实现可扩展计算。该技术将依赖于方差的缩放项线性化,使我们能够在无需实例化逐样本梯度的情况下计算成对梯度点积。大量实验表明,我们的方法在保持约95%标准训练吞吐量的同时,实现了与真实边际贡献近乎完美的保真度($R > 0.99$)。此外,在数据归因的下游任务中,我们的Adam感知归因方法显著优于基于SGD的基线方法。

0
下载
关闭预览

相关内容

使用 Keras Tuner 调节超参数
TensorFlow
15+阅读 · 2020年2月6日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月10日
Arxiv
0+阅读 · 2月1日
Arxiv
0+阅读 · 1月29日
Arxiv
0+阅读 · 1月20日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员