Recent advances in audio large language models (ALLMs) have made high-quality synthetic audio widely accessible, increasing the risk of malicious audio deepfakes across speech, environmental sounds, singing voice, and music. Real-world audio deepfake detection (ADD) therefore requires all-type detectors that generalize across heterogeneous audio and provide interpretable decisions. Given the strong multi-task generalization ability of ALLMs, we first investigate their performance on all-type ADD under both supervised fine-tuning (SFT) and reinforcement fine-tuning (RFT). However, SFT using only binary real/fake labels tends to reduce the model to a black-box classifier, sacrificing interpretability. Meanwhile, vanilla RFT under sparse supervision is prone to reward hacking and can produce hallucinated, ungrounded rationales. To address this, we propose an automatic annotation and polishing pipeline that constructs Frequency-Time structured chain-of-thought (CoT) rationales, producing ~340K cold-start demonstrations. Building on CoT data, we propose Frequency Time-Group Relative Policy Optimization (FT-GRPO), a two-stage training paradigm that cold-starts ALLMs with SFT and then applies GRPO under rule-based frequency-time constraints. Experiments demonstrate that FT-GRPO achieves state-of-the-art performance on all-type ADD while producing interpretable, FT-grounded rationales. The data and code are available online.


翻译:音频大语言模型(ALLM)的最新进展使得高质量合成音频得以广泛传播,同时增加了语音、环境声音、歌声及音乐等恶意音频深度伪造的风险。因此,现实场景中的音频深度伪造检测需要能够泛化至异构音频类型并提供可解释决策的全类型检测器。鉴于ALLM强大的多任务泛化能力,我们首先探究了其在监督微调与强化微调两种范式下进行全类型音频深度伪造检测的性能。然而,仅使用二元真实/伪造标签的监督微调容易将模型退化为黑盒分类器,牺牲了可解释性。与此同时,在稀疏监督下的原始强化微调易出现奖励破解问题,并可能产生幻觉性、无依据的推理过程。为解决这些问题,我们提出了一种自动标注与精修流程,构建了频率-时间结构化的思维链推理依据,生成了约34万条冷启动演示样本。基于思维链数据,我们提出了频率-时间分组相对策略优化——一种两阶段训练范式:首先通过监督微调实现ALLM的冷启动,随后在基于规则的频率-时间约束下应用分组相对策略优化。实验表明,FT-GRPO在全类型音频深度伪造检测中实现了最先进的性能,同时生成可解释且基于频率-时间依据的推理过程。相关数据与代码已公开。

0
下载
关闭预览

相关内容

RAG 与 LLMs 的结合 - 迈向检索增强的大型语言模型综述
专知会员服务
99+阅读 · 2024年5月13日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员