This study presents a systematic evaluation of time-frequency feature design for binaural sound source localization (SSL), focusing on how feature selection influences model performance across diverse conditions. We investigate the performance of a convolutional neural network (CNN) model using various combinations of amplitude-based features (magnitude spectrogram, interaural level difference - ILD) and phase-based features (phase spectrogram, interaural phase difference - IPD). Evaluations on in-domain and out-of-domain data with mismatched head-related transfer functions (HRTFs) reveal that carefully chosen feature combinations often outperform increases in model complexity. While two-feature sets such as ILD + IPD are sufficient for in-domain SSL, generalization to diverse content requires richer inputs combining channel spectrograms with both ILD and IPD. Using the optimal feature sets, our low-complexity CNN model achieves competitive performance. Our findings underscore the importance of feature design in binaural SSL and provide practical guidance for both domain-specific and general-purpose localization.


翻译:本研究对双耳声源定位中的时频特征设计进行了系统性评估,重点探讨了特征选择如何在多种条件下影响模型性能。我们采用卷积神经网络模型,研究了基于幅度的特征(幅度谱图、双耳声级差)与基于相位的特征(相位谱图、双耳相位差)的多种组合性能。对域内数据和域外数据(使用不匹配的头相关传递函数)的评估表明,精心选择的特征组合通常比增加模型复杂度更有效。虽然ILD+IPD等双特征集足以满足域内双耳声源定位需求,但泛化至多样化内容需要将通道谱图与ILD和IPD相结合的更丰富输入。采用最优特征集后,我们的低复杂度CNN模型实现了具有竞争力的性能。研究结果强调了特征设计在双耳声源定位中的重要性,并为领域特定和通用定位场景提供了实用指导。

0
下载
关闭预览

相关内容

【KDD2024】CAFO:基于特征的时间序列分类解释
专知会员服务
25+阅读 · 2024年6月5日
《信息技术实时定位系统性能测试方法》国家标准意见稿
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
使用 FastAI 和即时频率变换进行音频分类
AI研习社
11+阅读 · 2019年5月9日
近期声学领域前沿论文(No. 3)
深度学习每日摘要
24+阅读 · 2019年3月31日
详解GAN的谱归一化(Spectral Normalization)
PaperWeekly
11+阅读 · 2019年2月13日
时序异常检测算法概览
论智
29+阅读 · 2018年8月30日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
【KDD2024】CAFO:基于特征的时间序列分类解释
专知会员服务
25+阅读 · 2024年6月5日
《信息技术实时定位系统性能测试方法》国家标准意见稿
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员