Claims about the robustness and fairness of deepfake speech detectors are only as credible as the datasets used to train and evaluate those systems. We present a dataset-level audit of the deepfake speech landscape. We compile and analyze 39 deepfake speech datasets, examining key attributes including accessibility, documentation, demographic and language coverage, dataset scale, and the underlying bona fide speech sources. Our audit reveals two important takeaways. Firstly, fairness assessment is largely infeasible because most datasets lack demographic metadata, and only a few contain gender or language labels. This prevents any meaningful subgroup analysis and leaves other demographic attributes unaddressed. Secondly, we identify substantial overlap in underlying bona fide source corpora across datasets, which can undermine cross-dataset evaluation and lead to overstated generalization claims.


翻译:关于深度伪造语音检测器的鲁棒性和公平性的声明,其可信度取决于用于训练和评估这些系统的数据集。我们对深度伪造语音数据集领域进行了数据集层面的审计。我们汇总并分析了39个深度伪造语音数据集,考察了关键属性,包括可访问性、文档记录、人口统计与语言覆盖范围、数据集规模以及底层真实语音来源。我们的审计揭示了两个重要发现。首先,公平性评估在很大程度上不可行,因为大多数数据集缺乏人口统计元数据,只有少数包含性别或语言标签。这阻碍了任何有意义的子组分析,并使其他人口统计属性未被解决。其次,我们识别出不同数据集之间底层真实语音来源语料库存在大量重叠,这可能削弱跨数据集评估的有效性,并导致泛化性声明被夸大。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
《深度伪造防御系统评估的系统性方法》
专知会员服务
15+阅读 · 3月16日
《深度伪造——错误信息、宣传战与信息战》最新报告
专知会员服务
31+阅读 · 2025年7月10日
深度伪造及其取证技术综述
专知会员服务
30+阅读 · 2024年4月26日
《用于语音取证和高超音速飞行器应用的机器学习》200页
《网络战中的深度伪造: 威胁、检测、技术和对策》
专知会员服务
50+阅读 · 2023年11月22日
视觉深度伪造检测技术综述
专知会员服务
37+阅读 · 2022年1月28日
专知会员服务
76+阅读 · 2020年12月12日
深度伪造与检测技术综述(中文版),25页pdf
专知
13+阅读 · 2020年12月12日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
0+阅读 · 5月6日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关VIP内容
《深度伪造防御系统评估的系统性方法》
专知会员服务
15+阅读 · 3月16日
《深度伪造——错误信息、宣传战与信息战》最新报告
专知会员服务
31+阅读 · 2025年7月10日
深度伪造及其取证技术综述
专知会员服务
30+阅读 · 2024年4月26日
《用于语音取证和高超音速飞行器应用的机器学习》200页
《网络战中的深度伪造: 威胁、检测、技术和对策》
专知会员服务
50+阅读 · 2023年11月22日
视觉深度伪造检测技术综述
专知会员服务
37+阅读 · 2022年1月28日
专知会员服务
76+阅读 · 2020年12月12日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员