For extracting a target speaker voice, direction-of-arrival (DOA) estimation is crucial for binaural hearing aids operating in noisy, multi-speaker environments. Among the solutions developed for this task, a deep learning convolutional recurrent neural network (CRNN) model leveraging spectral phase differences and magnitude ratios between microphone signals is a popular option. In this paper, we explore adding source-count information for multi-sources DOA estimation. The use of dual-task training with joint multi-sources DOA estimation and source counting is first considered. We then consider using the source count as an auxiliary feature in a standalone DOA estimation system, where the number of active sources (0, 1, or 2+) is integrated into the CRNN architecture through early, mid, and late fusion strategies. Experiments using real binaural recordings are performed. Results show that the dual-task training does not improve DOA estimation performance, although it benefits source-count prediction. However, a ground-truth (oracle) source count used as an auxiliary feature significantly enhances standalone DOA estimation performance, with late fusion yielding up to 14% higher average F1-scores over the baseline CRNN. This highlights the potential of using source-count estimation for robust DOA estimation in binaural hearing aids.


翻译:在嘈杂的多说话人环境中,提取目标说话人声音时,到达方向(DOA)估计对于双耳助听器至关重要。针对该任务开发的解决方案中,利用麦克风信号间频谱相位差与幅度比的深度学习卷积循环神经网络(CRNN)模型已成为主流选择。本文探索了增加声源数量信息用于多声源DOA估计的方法。首先考虑联合多声源DOA估计与声源计数的双任务训练机制,进而将声源计数作为独立DOA估计系统中的辅助特征,通过早期融合、中期融合和晚期融合三种策略,将活动声源数量(0、1或2+)整合至CRNN架构中。基于真实双耳录音的实验表明:双任务训练虽能改善声源计数预测性能,却未提升DOA估计精度;然而,将真实(理想)声源计数作为辅助特征可显著增强独立DOA估计性能,其中晚期融合策略相较于基线CRNN模型平均F1分数提升高达14%。这凸显了在双耳助听器中利用声源计数估计实现鲁棒DOA估计的潜力。

0
下载
关闭预览

相关内容

【ICML2024】揭示大脑中视觉-语言整合的多模态网络
专知会员服务
29+阅读 · 2024年6月21日
【Paul Liang】多模态深度学习,Multimodal Deep Learning
专知会员服务
186+阅读 · 2022年4月12日
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
专知会员服务
37+阅读 · 2021年8月25日
专知会员服务
50+阅读 · 2021年4月15日
计算机视觉方向简介 | 多目标跟踪算法(附源码)
计算机视觉life
15+阅读 · 2019年6月26日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关主题
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
4+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
【ICML2024】揭示大脑中视觉-语言整合的多模态网络
专知会员服务
29+阅读 · 2024年6月21日
【Paul Liang】多模态深度学习,Multimodal Deep Learning
专知会员服务
186+阅读 · 2022年4月12日
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
专知会员服务
37+阅读 · 2021年8月25日
专知会员服务
50+阅读 · 2021年4月15日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员