Data valuation, the task of quantifying the contribution of individual data points to model performance, has emerged as a fundamental challenge in machine learning. Game-theoretic approaches, such as the Banzhaf value, offer principled frameworks for fair data valuation; however, they suffer from exponential computational complexity. We address this challenge by developing efficient algorithms specifically tailored for computing Banzhaf values in $k$-nearest neighbor ($k$NN) classifiers. We first establish the theoretical hardness of the problem by proving that it is \#P-hard. Despite this intractability, we exploit the locality properties of $k$NN classifiers to develop practical exact algorithms. Our main contribution is a dynamic programming framework that achieves significant computational improvements: we present a pseudo-polynomial algorithm with $O(Wkn^2)$ time complexity for weighted $k$NN classifiers, where $W$ is the maximum sum of top-$k$ weights, and a specialized algorithm for unweighted $k$NN that achieves $O(nk^2)$ time complexity, that is, linear in the number of data points. We also offer efficient Monte Carlo estimation methods. Extensive experiments on real-world datasets demonstrate the practical efficiency of our approach and its effectiveness in data valuation applications.


翻译:数据价值评估(即量化单个数据点对模型性能贡献的任务)已成为机器学习领域的核心挑战。基于博弈论的方法(如Banzhaf值)为公平数据价值评估提供了理论框架,但存在指数级计算复杂度的瓶颈。我们针对$k$最近邻($k$NN)分类器开发了专门的高效算法来解决这一挑战。首先通过证明该问题为#P难问题确立其理论难度。尽管存在这种难解性,我们利用$k$NN分类器的局部特性设计了实用的精确算法。主要贡献是提出了动态规划框架,实现了显著的计算优化:针对加权$k$NN分类器,给出了时间复杂度为$O(Wkn^2)$的伪多项式算法(其中$W$为前$k$个最大权重的总和);针对未加权$k$NN,提出了时间复杂度为$O(nk^2)$的专用算法,即与数据点数量呈线性关系。此外还提供了高效蒙特卡洛估计方法。在真实数据集上的大量实验验证了本方法在实际应用中的高效性及其在数据价值评估中的有效性。

0
下载
关闭预览

相关内容

基于贝叶斯网络的武器装备体系作战效能评估方法
专知会员服务
90+阅读 · 2023年7月5日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
使用 Bert 预训练模型文本分类(内附源码)
数据库开发
102+阅读 · 2019年3月12日
谷歌推出新型数据增强算法:AutoAugment
论智
20+阅读 · 2018年6月6日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
5+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
2+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
9+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
11+阅读 · 6月17日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员