Multi-Channel Replay Speech Detection using Acoustic Maps - 专知论文

会员服务 ·

0

多通道 · 通道 · 语音检测 · 攻击 · 表示 ·

Multi-Channel Replay Speech Detection using Acoustic Maps

翻译：基于声学地图的多通道重放语音检测

Michael Neri,Tuomas Virtanen

from arxiv, Submitted to EUSIPCO 2026

Replay attacks remain a critical vulnerability for automatic speaker verification systems, particularly in real-time voice assistant applications. In this work, we propose acoustic maps as a novel spatial feature representation for replay speech detection from multi-channel recordings. Derived from classical beamforming over discrete azimuth and elevation grids, acoustic maps encode directional energy distributions that reflect physical differences between human speech radiation and loudspeaker-based replay. A lightweight convolutional neural network is designed to operate on this representation, achieving competitive performance on the ReMASC dataset with approximately 6k trainable parameters. Experimental results show that acoustic maps provide a compact and physically interpretable feature space for replay attack detection across different devices and acoustic environments.

翻译：重放攻击仍然是自动说话人验证系统的一个关键漏洞，尤其是在实时语音助手应用中。本文提出将声学地图作为一种新颖的空间特征表示，用于从多通道录音中检测重放语音。声学地图通过对离散方位角和仰角网格进行经典波束形成而导出，它编码了方向性能量分布，这些分布反映了人类语音辐射与基于扬声器的重放之间的物理差异。我们设计了一个轻量级卷积神经网络来处理这种表示，在ReMASC数据集上以约6k可训练参数实现了具有竞争力的性能。实验结果表明，声学地图为跨不同设备和声学环境的重放攻击检测提供了一个紧凑且物理可解释的特征空间。

0

相关内容

多通道

人工智能与战场态势感知：声音检测

人工智能与战场态势感知：声音检测

专知会员服务

28+阅读 · 2025年4月3日

《使用 "先跟踪后检测 "方法在主动声纳阵列中检测和跟踪多个移动目标》

《使用 "先跟踪后检测 "方法在主动声纳阵列中检测和跟踪多个移动目标》

专知会员服务

20+阅读 · 2024年4月24日

《利用音频传感器网络检测、识别和跟踪无人机的时频协同方法》

《利用音频传感器网络检测、识别和跟踪无人机的时频协同方法》

专知会员服务

41+阅读 · 2023年9月11日

【AI+军事】附论文《通过处理多通道声学和无线电频率信号实现无人机的识别和定位：一种深度学习方法》

【AI+军事】附论文《通过处理多通道声学和无线电频率信号实现无人机的识别和定位：一种深度学习方法》

专知会员服务

42+阅读 · 2022年4月24日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

多语言语音识别声学模型建模方法最新进展

多语言语音识别声学模型建模方法最新进展

专知会员服务

36+阅读 · 2022年2月7日

纽约大学最新《语音识别Speech Recognition》2020课程，不可错过！

纽约大学最新《语音识别Speech Recognition》2020课程，不可错过！

专知会员服务

44+阅读 · 2020年11月2日

从多个自我监督任务中学习问题无关的语音表示，Learning Problem-agnostic Speech Representations from Multiple Self-supervised Tasks

从多个自我监督任务中学习问题无关的语音表示，Learning Problem-agnostic Speech Representations from Multiple Self-supervised Tasks

专知会员服务

17+阅读 · 2020年5月6日

【ACL2020-亚马逊】Transformers多分辨率和多模态语音识别，Multiresolution and Multimodal Speech Recognition with Transformers

【ACL2020-亚马逊】Transformers多分辨率和多模态语音识别，Multiresolution and Multimodal Speech Recognition with Transformers

专知会员服务

15+阅读 · 2020年5月5日

【KDD2019|讲座推荐】假设检验与统计声音模式挖掘：Hypothesis Testing and Statistically-sound Pattern Mining

【KDD2019|讲座推荐】假设检验与统计声音模式挖掘：Hypothesis Testing and Statistically-sound Pattern Mining

专知会员服务

22+阅读 · 2019年12月6日

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

专知

12+阅读 · 2020年10月9日

语音信号处理：从基本算法到前沿的深度学习方法

语音信号处理：从基本算法到前沿的深度学习方法

PaperWeekly

16+阅读 · 2020年3月26日

CVPR 2019 | 基于密集语义对齐的行人重识别模型：有效解决语义不对齐

CVPR 2019 | 基于密集语义对齐的行人重识别模型：有效解决语义不对齐

微软研究院AI头条

10+阅读 · 2019年7月5日

语音情绪识别|声源增强|基频可视化

语音情绪识别|声源增强|基频可视化

深度学习每日摘要

15+阅读 · 2019年5月5日

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

云头条

18+阅读 · 2019年4月23日

语音关键词检测方法综述【附PPT与视频资料】

语音关键词检测方法综述【附PPT与视频资料】

人工智能前沿讲习班

10+阅读 · 2019年2月2日

语音识别的前沿论文，看我们推荐的这4篇

语音识别的前沿论文，看我们推荐的这4篇

人工智能前沿讲习班

26+阅读 · 2019年1月14日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

学界 | 现实版柯南「蝴蝶结变声器」：谷歌发布从声纹识别到多重声线语音合成的迁移学习

学界 | 现实版柯南「蝴蝶结变声器」：谷歌发布从声纹识别到多重声线语音合成的迁移学习

机器之心

11+阅读 · 2018年6月24日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

间接优化的高效Monte Carlo声传播研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于因子分析的会话语音说话人识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于多元数据分析的城市开放空间声景品质景观影响要素提取与评价

国家自然科学基金

0+阅读 · 2015年12月31日

时频双选水声信道下高谱效OQAM-OFDM通信的关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

听力损失系统双耳声源定位模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

噪声不确定下基于计算智能的多跳认知无线电网络协作频谱感知优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于多普勒调制复合字典匹配分解与重构的列车轴承声信号调理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

通信信号相关探测法实现WDM-PON网络中多信道光纤故障点的同时诊断

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

MultiAPI Spoof: A Multi-API Dataset and Local-Attention Network for Speech Anti-spoofing Detection

Arxiv

0+阅读 · 2月24日

E-BATS: Efficient Backpropagation-Free Test-Time Adaptation for Speech Foundation Models

Arxiv

0+阅读 · 2月23日

Multi-Channel Speech Enhancement for Cocktail Party Speech Emotion Recognition

Arxiv

0+阅读 · 2月21日

Beyond the Voice: Inertial Sensing of Mouth Motion for High Security Speech Verification

Arxiv

0+阅读 · 2月20日

VoiceBridge: General Speech Restoration with One-step Latent Bridge Models

Arxiv

0+阅读 · 2月15日

SonicSieve: Bringing Directional Speech Extraction to Smartphones Using Acoustic Microstructures

Arxiv

0+阅读 · 2月11日

Multilingual Dysarthric Speech Assessment Using Universal Phone Recognition and Language-Specific Phonemic Contrast Modeling

Arxiv

0+阅读 · 2月11日

When Good Sounds Go Adversarial: Jailbreaking Audio-Language Models with Benign Inputs

Arxiv

0+阅读 · 2月4日

Location-Oriented Sound Event Localization and Detection with Spatial Mapping and Regression Localization

Arxiv

0+阅读 · 1月30日

A Semantically Consistent Dataset for Data-Efficient Query-Based Universal Sound Separation

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

2+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

3+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

8+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

6+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

4+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

6+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

6+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

8+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

7+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

5+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

5+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

人工智能与战场态势感知：声音检测

人工智能与战场态势感知：声音检测

专知会员服务

28+阅读 · 2025年4月3日

《使用 "先跟踪后检测 "方法在主动声纳阵列中检测和跟踪多个移动目标》

《使用 "先跟踪后检测 "方法在主动声纳阵列中检测和跟踪多个移动目标》

专知会员服务

20+阅读 · 2024年4月24日

《利用音频传感器网络检测、识别和跟踪无人机的时频协同方法》

《利用音频传感器网络检测、识别和跟踪无人机的时频协同方法》

专知会员服务

41+阅读 · 2023年9月11日

【AI+军事】附论文《通过处理多通道声学和无线电频率信号实现无人机的识别和定位：一种深度学习方法》

【AI+军事】附论文《通过处理多通道声学和无线电频率信号实现无人机的识别和定位：一种深度学习方法》

专知会员服务

42+阅读 · 2022年4月24日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

多语言语音识别声学模型建模方法最新进展

多语言语音识别声学模型建模方法最新进展

专知会员服务

36+阅读 · 2022年2月7日

纽约大学最新《语音识别Speech Recognition》2020课程，不可错过！

纽约大学最新《语音识别Speech Recognition》2020课程，不可错过！

专知会员服务

44+阅读 · 2020年11月2日

从多个自我监督任务中学习问题无关的语音表示，Learning Problem-agnostic Speech Representations from Multiple Self-supervised Tasks

从多个自我监督任务中学习问题无关的语音表示，Learning Problem-agnostic Speech Representations from Multiple Self-supervised Tasks

专知会员服务

17+阅读 · 2020年5月6日

【ACL2020-亚马逊】Transformers多分辨率和多模态语音识别，Multiresolution and Multimodal Speech Recognition with Transformers

【ACL2020-亚马逊】Transformers多分辨率和多模态语音识别，Multiresolution and Multimodal Speech Recognition with Transformers

专知会员服务

15+阅读 · 2020年5月5日

【KDD2019|讲座推荐】假设检验与统计声音模式挖掘：Hypothesis Testing and Statistically-sound Pattern Mining

【KDD2019|讲座推荐】假设检验与统计声音模式挖掘：Hypothesis Testing and Statistically-sound Pattern Mining

专知会员服务

22+阅读 · 2019年12月6日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

专知

12+阅读 · 2020年10月9日

语音信号处理：从基本算法到前沿的深度学习方法

语音信号处理：从基本算法到前沿的深度学习方法

PaperWeekly

16+阅读 · 2020年3月26日

CVPR 2019 | 基于密集语义对齐的行人重识别模型：有效解决语义不对齐

CVPR 2019 | 基于密集语义对齐的行人重识别模型：有效解决语义不对齐

微软研究院AI头条

10+阅读 · 2019年7月5日

语音情绪识别|声源增强|基频可视化

语音情绪识别|声源增强|基频可视化

深度学习每日摘要

15+阅读 · 2019年5月5日

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

云头条

18+阅读 · 2019年4月23日

语音关键词检测方法综述【附PPT与视频资料】

语音关键词检测方法综述【附PPT与视频资料】

人工智能前沿讲习班

10+阅读 · 2019年2月2日

语音识别的前沿论文，看我们推荐的这4篇

语音识别的前沿论文，看我们推荐的这4篇

人工智能前沿讲习班

26+阅读 · 2019年1月14日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

学界 | 现实版柯南「蝴蝶结变声器」：谷歌发布从声纹识别到多重声线语音合成的迁移学习

学界 | 现实版柯南「蝴蝶结变声器」：谷歌发布从声纹识别到多重声线语音合成的迁移学习

机器之心

11+阅读 · 2018年6月24日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

相关论文

MultiAPI Spoof: A Multi-API Dataset and Local-Attention Network for Speech Anti-spoofing Detection

Arxiv

0+阅读 · 2月24日

E-BATS: Efficient Backpropagation-Free Test-Time Adaptation for Speech Foundation Models

Arxiv

0+阅读 · 2月23日

Multi-Channel Speech Enhancement for Cocktail Party Speech Emotion Recognition

Arxiv

0+阅读 · 2月21日

Beyond the Voice: Inertial Sensing of Mouth Motion for High Security Speech Verification

Arxiv

0+阅读 · 2月20日

VoiceBridge: General Speech Restoration with One-step Latent Bridge Models

Arxiv

0+阅读 · 2月15日

SonicSieve: Bringing Directional Speech Extraction to Smartphones Using Acoustic Microstructures

Arxiv

0+阅读 · 2月11日

Multilingual Dysarthric Speech Assessment Using Universal Phone Recognition and Language-Specific Phonemic Contrast Modeling

Arxiv

0+阅读 · 2月11日

When Good Sounds Go Adversarial: Jailbreaking Audio-Language Models with Benign Inputs

Arxiv

0+阅读 · 2月4日

Location-Oriented Sound Event Localization and Detection with Spatial Mapping and Regression Localization

Arxiv

0+阅读 · 1月30日

A Semantically Consistent Dataset for Data-Efficient Query-Based Universal Sound Separation

Arxiv

0+阅读 · 1月30日

相关基金

间接优化的高效Monte Carlo声传播研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于因子分析的会话语音说话人识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于多元数据分析的城市开放空间声景品质景观影响要素提取与评价

国家自然科学基金

0+阅读 · 2015年12月31日

时频双选水声信道下高谱效OQAM-OFDM通信的关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

听力损失系统双耳声源定位模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

噪声不确定下基于计算智能的多跳认知无线电网络协作频谱感知优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于多普勒调制复合字典匹配分解与重构的列车轴承声信号调理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

通信信号相关探测法实现WDM-PON网络中多信道光纤故障点的同时诊断

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员