Systematic Evaluation of Time-Frequency Features for Binaural Sound Source Localization - 专知论文

会员服务 ·

0

双耳声源定位 · 声源定位 · 系统 · 相位 · 特征设计 ·

Systematic Evaluation of Time-Frequency Features for Binaural Sound Source Localization

翻译：双耳声源定位中时频特征的系统性评估

Davoud Shariat Panah,Alessandro Ragano,Dan Barry,Jan Skoglund,Andrew Hines

from arxiv, Accepted at EUSIPCO 2026

This study presents a systematic evaluation of time-frequency feature design for binaural sound source localization (SSL), focusing on how feature selection influences model performance across diverse conditions. We investigate the performance of a convolutional neural network (CNN) model using various combinations of amplitude-based features (magnitude spectrogram, interaural level difference - ILD) and phase-based features (phase spectrogram, interaural phase difference - IPD). Evaluations on in-domain and out-of-domain data with mismatched head-related transfer functions (HRTFs) reveal that carefully chosen feature combinations often outperform increases in model complexity. While two-feature sets such as ILD + IPD are sufficient for in-domain SSL, generalization to diverse content requires richer inputs combining channel spectrograms with both ILD and IPD. Using the optimal feature sets, our low-complexity CNN model achieves competitive performance. Our findings underscore the importance of feature design in binaural SSL and provide practical guidance for both domain-specific and general-purpose localization.

翻译：本研究对双耳声源定位中的时频特征设计进行了系统性评估，重点探讨了特征选择如何在多种条件下影响模型性能。我们采用卷积神经网络模型，研究了基于幅度的特征（幅度谱图、双耳声级差）与基于相位的特征（相位谱图、双耳相位差）的多种组合性能。对域内数据和域外数据（使用不匹配的头相关传递函数）的评估表明，精心选择的特征组合通常比增加模型复杂度更有效。虽然ILD+IPD等双特征集足以满足域内双耳声源定位需求，但泛化至多样化内容需要将通道谱图与ILD和IPD相结合的更丰富输入。采用最优特征集后，我们的低复杂度CNN模型实现了具有竞争力的性能。研究结果强调了特征设计在双耳声源定位中的重要性，并为领域特定和通用定位场景提供了实用指导。

0

相关内容

双耳声源定位

双耳声源定位

时空图神经网络模型在时间序列预测和分类中的系统文献综述

时空图神经网络模型在时间序列预测和分类中的系统文献综述

专知会员服务

32+阅读 · 2024年11月9日

【KDD2024】CAFO：基于特征的时间序列分类解释

【KDD2024】CAFO：基于特征的时间序列分类解释

专知会员服务

25+阅读 · 2024年6月5日

《信息技术实时定位系统性能测试方法》国家标准意见稿

《信息技术实时定位系统性能测试方法》国家标准意见稿

专知会员服务

22+阅读 · 2022年9月23日

最新！《信息技术系统间远程通信和信息交换时间敏感网络与用于过程控制的对象连接与嵌入统一架构融合信息模型映射》国家标准意见稿发布

最新！《信息技术系统间远程通信和信息交换时间敏感网络与用于过程控制的对象连接与嵌入统一架构融合信息模型映射》国家标准意见稿发布

专知会员服务

23+阅读 · 2022年3月28日

【牛津大学】深度学习时间序列预测，Time Series Forecasting With Deep Learning: A Survey

【牛津大学】深度学习时间序列预测，Time Series Forecasting With Deep Learning: A Survey

专知会员服务

142+阅读 · 2020年4月30日

【清华-百度】面向季节性时空数据的预测式循环网络及其在城市计算中的应用，计算机学报

【清华-百度】面向季节性时空数据的预测式循环网络及其在城市计算中的应用，计算机学报

专知会员服务

42+阅读 · 2020年3月10日

【阿里巴巴-达摩院】深度学习的时间序列数据增强综述，Time Series Data Augmentation for Deep Learning: A Survey

【阿里巴巴-达摩院】深度学习的时间序列数据增强综述，Time Series Data Augmentation for Deep Learning: A Survey

专知会员服务

134+阅读 · 2020年3月2日

【KDD2019|讲座推荐】假设检验与统计声音模式挖掘：Hypothesis Testing and Statistically-sound Pattern Mining

【KDD2019|讲座推荐】假设检验与统计声音模式挖掘：Hypothesis Testing and Statistically-sound Pattern Mining

专知会员服务

22+阅读 · 2019年12月6日

【AAAI2020接受论文】预测性参与:开放领域对话系统自动评估的有效指标（Predictive Engagement: An Efficient Metric For Automatic Evaluation of Open-Domain Dialogue Systems）

【AAAI2020接受论文】预测性参与:开放领域对话系统自动评估的有效指标（Predictive Engagement: An Efficient Metric For Automatic Evaluation of Open-Domain Dialogue Systems）

专知会员服务

14+阅读 · 2019年11月15日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

GNN在非欧式空间如何表达？【TPAMI2021】双曲深度神经网络研究综述

GNN在非欧式空间如何表达？【TPAMI2021】双曲深度神经网络研究综述

专知

13+阅读 · 2021年12月29日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

【泡泡点云时空】DeepMapping: 来自多重点云的无监督地图估计

【泡泡点云时空】DeepMapping: 来自多重点云的无监督地图估计

泡泡机器人SLAM

29+阅读 · 2019年5月29日

使用 FastAI 和即时频率变换进行音频分类

使用 FastAI 和即时频率变换进行音频分类

AI研习社

11+阅读 · 2019年5月9日

近期声学领域前沿论文(No. 3)

近期声学领域前沿论文(No. 3)

深度学习每日摘要

24+阅读 · 2019年3月31日

详解GAN的谱归一化（Spectral Normalization）

详解GAN的谱归一化（Spectral Normalization）

PaperWeekly

11+阅读 · 2019年2月13日

时序异常检测算法概览

时序异常检测算法概览

论智

29+阅读 · 2018年8月30日

【论文推荐】最新六篇目标跟踪相关论文—双重Siamese网络、判别性相关滤波、多目标跟踪、深度多尺度时空判别性、综述、显著性增强

【论文推荐】最新六篇目标跟踪相关论文—双重Siamese网络、判别性相关滤波、多目标跟踪、深度多尺度时空判别性、综述、显著性增强

专知

34+阅读 · 2018年2月27日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

基于时变回声状态网的光伏发电在线短期预测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于相空间挤压策略的空间信号时频分析与参数估计方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

时频双选水声信道下高谱效OQAM-OFDM通信的关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

听力损失系统双耳声源定位模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于时序相似性的机场噪声监测点交互预测

国家自然科学基金

1+阅读 · 2015年12月31日

无线认知传感器网络中时空相关频谱感知算法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于机械声场时空全息诊断模型的弱故障特征提取研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于个体行为特征的时效网络中传播源定位研究

国家自然科学基金

0+阅读 · 2015年12月31日

双微阵列语音增强与定位方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

信号时频分析与包络的数学模型

国家自然科学基金

1+阅读 · 2014年12月31日

Leveraging Sound Source Trajectories for Universal Sound Separation

Arxiv

0+阅读 · 6月12日

Spectro-Temporal Interference Confounds Phase Encoding in Spatial Audio Foundation Models

Arxiv

0+阅读 · 6月12日

Spatio-Temporal Audio Language Modeling for Dynamic Sound Sources

Arxiv

0+阅读 · 6月12日

A Sensitivity Analysis of Multi-Event Audio Grounding in Audio LLMs

Arxiv

0+阅读 · 6月10日

Time-frequency localization of bird calls in dense soundscapes

Arxiv

0+阅读 · 6月9日

BiEAR: A Human Auditory-Inspired Adaptive Binaural Front-end for Multi-Speaker Localisation and Distance Estimation

Arxiv

0+阅读 · 6月5日

Localizing broadband noise sources using the Loève spectrum and a 2.5D approach

Arxiv

0+阅读 · 6月1日

Temporally-Aligned Evaluation for Audio-Driven Talking Head Generation

Arxiv

0+阅读 · 5月31日

3DAE: Binaural Quality Assessment for Audio Novel View Synthesis with Spatial Maps and Benchmark

Arxiv

0+阅读 · 5月28日

Evaluating the Temporal Detection Capability of Integrated Gradients Applied on Sound Classifier

Arxiv

0+阅读 · 5月22日

VIP会员

文章信息

相关主题

双耳声源定位

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

3+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

4+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

9+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

8+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

4+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

7+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

6+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

9+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

7+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

6+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

5+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

时空图神经网络模型在时间序列预测和分类中的系统文献综述

时空图神经网络模型在时间序列预测和分类中的系统文献综述

专知会员服务

32+阅读 · 2024年11月9日

【KDD2024】CAFO：基于特征的时间序列分类解释

【KDD2024】CAFO：基于特征的时间序列分类解释

专知会员服务

25+阅读 · 2024年6月5日

《信息技术实时定位系统性能测试方法》国家标准意见稿

《信息技术实时定位系统性能测试方法》国家标准意见稿

专知会员服务

22+阅读 · 2022年9月23日

最新！《信息技术系统间远程通信和信息交换时间敏感网络与用于过程控制的对象连接与嵌入统一架构融合信息模型映射》国家标准意见稿发布

最新！《信息技术系统间远程通信和信息交换时间敏感网络与用于过程控制的对象连接与嵌入统一架构融合信息模型映射》国家标准意见稿发布

专知会员服务

23+阅读 · 2022年3月28日

【牛津大学】深度学习时间序列预测，Time Series Forecasting With Deep Learning: A Survey

【牛津大学】深度学习时间序列预测，Time Series Forecasting With Deep Learning: A Survey

专知会员服务

142+阅读 · 2020年4月30日

【清华-百度】面向季节性时空数据的预测式循环网络及其在城市计算中的应用，计算机学报

【清华-百度】面向季节性时空数据的预测式循环网络及其在城市计算中的应用，计算机学报

专知会员服务

42+阅读 · 2020年3月10日

【阿里巴巴-达摩院】深度学习的时间序列数据增强综述，Time Series Data Augmentation for Deep Learning: A Survey

【阿里巴巴-达摩院】深度学习的时间序列数据增强综述，Time Series Data Augmentation for Deep Learning: A Survey

专知会员服务

134+阅读 · 2020年3月2日

【KDD2019|讲座推荐】假设检验与统计声音模式挖掘：Hypothesis Testing and Statistically-sound Pattern Mining

【KDD2019|讲座推荐】假设检验与统计声音模式挖掘：Hypothesis Testing and Statistically-sound Pattern Mining

专知会员服务

22+阅读 · 2019年12月6日

【AAAI2020接受论文】预测性参与:开放领域对话系统自动评估的有效指标（Predictive Engagement: An Efficient Metric For Automatic Evaluation of Open-Domain Dialogue Systems）

【AAAI2020接受论文】预测性参与:开放领域对话系统自动评估的有效指标（Predictive Engagement: An Efficient Metric For Automatic Evaluation of Open-Domain Dialogue Systems）

专知会员服务

14+阅读 · 2019年11月15日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

GNN在非欧式空间如何表达？【TPAMI2021】双曲深度神经网络研究综述

GNN在非欧式空间如何表达？【TPAMI2021】双曲深度神经网络研究综述

专知

13+阅读 · 2021年12月29日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

【泡泡点云时空】DeepMapping: 来自多重点云的无监督地图估计

【泡泡点云时空】DeepMapping: 来自多重点云的无监督地图估计

泡泡机器人SLAM

29+阅读 · 2019年5月29日

使用 FastAI 和即时频率变换进行音频分类

使用 FastAI 和即时频率变换进行音频分类

AI研习社

11+阅读 · 2019年5月9日

近期声学领域前沿论文(No. 3)

近期声学领域前沿论文(No. 3)

深度学习每日摘要

24+阅读 · 2019年3月31日

详解GAN的谱归一化（Spectral Normalization）

详解GAN的谱归一化（Spectral Normalization）

PaperWeekly

11+阅读 · 2019年2月13日

时序异常检测算法概览

时序异常检测算法概览

论智

29+阅读 · 2018年8月30日

【论文推荐】最新六篇目标跟踪相关论文—双重Siamese网络、判别性相关滤波、多目标跟踪、深度多尺度时空判别性、综述、显著性增强

【论文推荐】最新六篇目标跟踪相关论文—双重Siamese网络、判别性相关滤波、多目标跟踪、深度多尺度时空判别性、综述、显著性增强

专知

34+阅读 · 2018年2月27日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

相关论文

Leveraging Sound Source Trajectories for Universal Sound Separation

Arxiv

0+阅读 · 6月12日

Spectro-Temporal Interference Confounds Phase Encoding in Spatial Audio Foundation Models

Arxiv

0+阅读 · 6月12日

Spatio-Temporal Audio Language Modeling for Dynamic Sound Sources

Arxiv

0+阅读 · 6月12日

A Sensitivity Analysis of Multi-Event Audio Grounding in Audio LLMs

Arxiv

0+阅读 · 6月10日

Time-frequency localization of bird calls in dense soundscapes

Arxiv

0+阅读 · 6月9日

BiEAR: A Human Auditory-Inspired Adaptive Binaural Front-end for Multi-Speaker Localisation and Distance Estimation

Arxiv

0+阅读 · 6月5日

Localizing broadband noise sources using the Loève spectrum and a 2.5D approach

Arxiv

0+阅读 · 6月1日

Temporally-Aligned Evaluation for Audio-Driven Talking Head Generation

Arxiv

0+阅读 · 5月31日

3DAE: Binaural Quality Assessment for Audio Novel View Synthesis with Spatial Maps and Benchmark

Arxiv

0+阅读 · 5月28日

Evaluating the Temporal Detection Capability of Integrated Gradients Applied on Sound Classifier

Arxiv

0+阅读 · 5月22日

相关基金

基于时变回声状态网的光伏发电在线短期预测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于相空间挤压策略的空间信号时频分析与参数估计方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

时频双选水声信道下高谱效OQAM-OFDM通信的关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

听力损失系统双耳声源定位模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于时序相似性的机场噪声监测点交互预测

国家自然科学基金

1+阅读 · 2015年12月31日

无线认知传感器网络中时空相关频谱感知算法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于机械声场时空全息诊断模型的弱故障特征提取研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于个体行为特征的时效网络中传播源定位研究

国家自然科学基金

0+阅读 · 2015年12月31日

双微阵列语音增强与定位方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

信号时频分析与包络的数学模型

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员