Localizing partial deepfake audio, where only segments of speech are manipulated, remains challenging due to the subtle and scattered nature of these modifications. Existing approaches typically rely on frame-level predictions to identify spoofed segments, and some recent methods improve performance by concentrating on the transitions between real and fake audio. However, we observe that these models tend to over-rely on boundary artifacts while neglecting the manipulated content that follows. We argue that effective localization requires understanding the entire segments beyond just detecting transitions. Thus, we propose Segment-Aware Learning (SAL), a framework that encourages models to focus on the internal structure of segments. SAL introduces two core techniques: Segment Positional Labeling, which provides fine-grained frame supervision based on relative position within a segment; and Cross-Segment Mixing, a data augmentation method that generates diverse segment patterns. Experiments across multiple deepfake localization datasets show that SAL consistently achieves strong performance in both in-domain and out-of-domain settings, with notable gains in non-boundary regions and reduced reliance on transition artifacts. The code is available at https://github.com/SentryMao/SAL.


翻译:局部深度伪造音频(即仅部分语音片段被篡改)的定位仍然具有挑战性,因为这些篡改通常具有隐蔽性和分散性。现有方法通常依赖帧级预测来识别伪造片段,一些近期方法通过聚焦于真实与伪造音频之间的过渡区域来提升性能。然而,我们观察到这些模型往往过度依赖边界伪影,而忽略了后续被篡改的内容。我们认为,有效的定位需要理解整个片段,而不仅仅是检测过渡区域。因此,我们提出了分段感知学习(SAL)框架,该框架促使模型关注片段的内部结构。SAL引入了两项核心技术:分段位置标注(根据片段内的相对位置提供细粒度帧级监督)和跨片段混合(一种生成多样化片段模式的数据增强方法)。在多个深度伪造定位数据集上的实验表明,SAL在域内和域外设置下均能取得稳定且优异的性能,在非边界区域表现尤为突出,并显著降低了对过渡伪影的依赖。代码已发布于 https://github.com/SentryMao/SAL。

0
下载
关闭预览

相关内容

生成式AI时代的深伪媒体生成与检测:综述与展望
专知会员服务
30+阅读 · 2024年12月2日
深度伪造及其取证技术综述
专知会员服务
28+阅读 · 2024年4月26日
深度伪造生成与检测:基准测试和综述
专知会员服务
52+阅读 · 2024年3月27日
《网络战中的深度伪造: 威胁、检测、技术和对策》
专知会员服务
47+阅读 · 2023年11月22日
《深度伪造检测模型的准确性和鲁棒性》2023最新论文
专知会员服务
41+阅读 · 2023年10月29日
「多模态深度伪造及检测技术」最新2023研究综述
专知会员服务
41+阅读 · 2023年3月26日
专知会员服务
76+阅读 · 2020年12月12日
【中科院信工所】视听觉深度伪造检测技术研究综述
专知会员服务
43+阅读 · 2020年4月15日
深度伪造与检测技术综述(中文版),25页pdf
专知
13+阅读 · 2020年12月12日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
深度学习之图像超分辨重建技术
机器学习研究会
12+阅读 · 2018年3月24日
一文概览基于深度学习的超分辨率重建架构
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关VIP内容
生成式AI时代的深伪媒体生成与检测:综述与展望
专知会员服务
30+阅读 · 2024年12月2日
深度伪造及其取证技术综述
专知会员服务
28+阅读 · 2024年4月26日
深度伪造生成与检测:基准测试和综述
专知会员服务
52+阅读 · 2024年3月27日
《网络战中的深度伪造: 威胁、检测、技术和对策》
专知会员服务
47+阅读 · 2023年11月22日
《深度伪造检测模型的准确性和鲁棒性》2023最新论文
专知会员服务
41+阅读 · 2023年10月29日
「多模态深度伪造及检测技术」最新2023研究综述
专知会员服务
41+阅读 · 2023年3月26日
专知会员服务
76+阅读 · 2020年12月12日
【中科院信工所】视听觉深度伪造检测技术研究综述
专知会员服务
43+阅读 · 2020年4月15日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员