Fast-SDE: Efficient Single-Microphone Sound Source Distance Estimation in Reverberant Environments - 专知论文

会员服务 ·

0

估计/估计量 · Reverberation · 回合 · Backbone · 表示 ·

Fast-SDE: Efficient Single-Microphone Sound Source Distance Estimation in Reverberant Environments

翻译：Fast-SDE：混响环境下高效单麦克风声源距离估计

Jiang Wang,Runwu Shi,Yaozhong Kang,Benjamin Yen,Takeshi Ashizawa,Kazuhiro Nakadai

from arxiv, To appear in the 35th IEEE International Conference on Robot and Human Interactive Communication (RO-MAN)

Sound source distance estimation (SDE) is a critical capability in human-robot interaction. An inappropriate interaction distance not only reduces the reliability of speech acquisition and understanding, but also compromises the naturalness and comfort of the interaction. Most existing SDE methods rely on microphone arrays, however, multi-microphone systems typically require careful hardware synchronization, geometric calibration, and additional space and computational resources, which limits applicability to size-constrained and computability-limited embodied platforms. To alleviate these issues, we propose Fast-SDE, a lightweight single-microphone SDE framework that is suited for deployment on robot platforms with limited computational resources and strict size constraints. Specifically, Fast-SDE employs a subband-based backbone that decomposes the frequency axis into multiple subbands, rather than processing the entire spectrum with a wide full-band backbone. A shared subband encoder then maps each subband to a compact latent representation and learns the relationship between acoustic structure and time-frequency patterns. Finally, a lightweight regression head converts the fused subband representations into the estimated distance. Extensive simulation and real-world experiments demonstrate the merits of the proposed method. To benefit the broader research community, we have open-sourced our code at https://github.com/JiangWAV/FAST-SDE.

翻译：声源距离估计是人机交互中的关键能力。不恰当的交互距离不仅会降低语音获取与理解的可靠性，还会损害交互的自然性与舒适度。现有大多数声源距离估计方法依赖于麦克风阵列，然而多麦克风系统通常需要精密的硬件同步、几何校准以及额外的空间与计算资源，这限制了其在尺寸受限和计算能力受限的具身平台上的适用性。为缓解这些问题，我们提出Fast-SDE，一种轻量级单麦克风声源距离估计框架，适用于计算资源有限且尺寸严格受限的机器人平台。具体而言，Fast-SDE采用基于子带的骨干网络，将频率轴分解为多个子带，而非使用宽全频带骨干处理整个频谱。随后，共享子带编码器将每个子带映射为紧凑的潜在表征，并学习声学结构与时频模式之间的关系。最后，轻量级回归头将融合后的子带表征转换为估计距离。大量仿真与真实世界实验证明了所提方法的优势。为惠及更广泛的研究社区，我们已在https://github.com/JiangWAV/FAST-SDE开源代码。

0

相关内容

估计/估计量

估计/估计量

战术边缘计算：实现更快速、更智能军事决策的关键

战术边缘计算：实现更快速、更智能军事决策的关键

专知会员服务

21+阅读 · 2025年9月20日

《军事作战环境的功能性听力：综述和建议》2024最新41页报告

《军事作战环境的功能性听力：综述和建议》2024最新41页报告

专知会员服务

28+阅读 · 2024年5月26日

【ICASSP 2022教程】声场估计:最新进展与应用，日本东京大学Shoichi Koyama博士

【ICASSP 2022教程】声场估计:最新进展与应用，日本东京大学Shoichi Koyama博士

专知会员服务

24+阅读 · 2022年6月7日

国防科大最新《深度学习视觉语音分析》综述论文，20页pdf涵盖200篇文献阐述视觉语音识别与生成技术进展

国防科大最新《深度学习视觉语音分析》综述论文，20页pdf涵盖200篇文献阐述视觉语音识别与生成技术进展

专知会员服务

44+阅读 · 2022年5月26日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

多语言语音识别声学模型建模方法最新进展

多语言语音识别声学模型建模方法最新进展

专知会员服务

36+阅读 · 2022年2月7日

智能语音赛道：风口已至，全面开花

专知会员服务

38+阅读 · 2021年5月21日

达摩院基于元学习的对话系统

达摩院基于元学习的对话系统

专知会员服务

25+阅读 · 2021年1月1日

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

专知会员服务

19+阅读 · 2020年2月26日

语音信号处理：从基本算法到前沿的深度学习方法

语音信号处理：从基本算法到前沿的深度学习方法

PaperWeekly

16+阅读 · 2020年3月26日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

【泡泡一分钟】复杂室内环境中声源定位的自监督增量学习

【泡泡一分钟】复杂室内环境中声源定位的自监督增量学习

泡泡机器人SLAM

10+阅读 · 2019年9月9日

SFFAI分享 | 连政：端到端语音合成【附PPT与视频资料】

SFFAI分享 | 连政：端到端语音合成【附PPT与视频资料】

人工智能前沿讲习班

14+阅读 · 2019年6月16日

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

云头条

18+阅读 · 2019年4月23日

近期声学领域前沿论文(No. 3)

近期声学领域前沿论文(No. 3)

深度学习每日摘要

24+阅读 · 2019年3月31日

Fast-OCNet: 更快更好的OCNet.

Fast-OCNet: 更快更好的OCNet.

极市平台

21+阅读 · 2019年2月10日

语音关键词检测方法综述【附PPT与视频资料】

语音关键词检测方法综述【附PPT与视频资料】

人工智能前沿讲习班

10+阅读 · 2019年2月2日

语音识别的前沿论文，看我们推荐的这4篇

语音识别的前沿论文，看我们推荐的这4篇

人工智能前沿讲习班

26+阅读 · 2019年1月14日

最新人机对话系统简略综述

最新人机对话系统简略综述

专知

26+阅读 · 2018年3月10日

基于盲双迭代策略的高可靠变速移动水声多用户通信理论和方法

国家自然科学基金

0+阅读 · 2017年12月31日

听力损失系统双耳声源定位模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于分布式电磁矢量传感器阵列的混合信源定位方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

超高速SiGe BiCMOS光接收机前端电路低噪声设计方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

声学风洞传声器阵列测试的射流剪切层修正技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

环境自适应高灵敏度光纤声传感器研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于声光互作用动量匹配的相干探测光学降噪方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

双微阵列语音增强与定位方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

MuVAP: Multimodal Multiparty Voice Activity Projection for Turn-taking Prediction in the Wild

Arxiv

0+阅读 · 6月15日

Fast When, Careful Who: Dual-Process Multiparty Turn-Taking with Diffusion Augmentation

Arxiv

0+阅读 · 6月15日

SSNAPS: Audio-Visual Separation of Speech and Background Noise with Diffusion Inverse Sampling

Arxiv

0+阅读 · 6月15日

Leveraging Sound Source Trajectories for Universal Sound Separation

Arxiv

0+阅读 · 6月12日

Generating Training Targets for Real-World Speech Enhancement via Close-to-Distant Microphone Projection

Arxiv

0+阅读 · 6月11日

MeCo: One-Step MeanFlow-based Corrector for Multi-Channel Speech Separation

Arxiv

0+阅读 · 6月8日

BiEAR: A Human Auditory-Inspired Adaptive Binaural Front-end for Multi-Speaker Localisation and Distance Estimation

Arxiv

0+阅读 · 6月5日

A Semantically Consistent Dataset for Data-Efficient Query-Based Universal Sound Separation

Arxiv

0+阅读 · 6月2日

AVBench: Human-Aligned and Automated Evaluation Benchmark for Audio-Video Generative Models

Arxiv

0+阅读 · 5月23日

SpeakerLLM: A Speaker-Specialized Audio-LLM for Speaker Understanding and Verification Reasoning

Arxiv

0+阅读 · 5月14日

VIP会员

文章信息

相关主题

估计/估计量

最新内容

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

4+阅读 · 今天2:42

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

1+阅读 · 今天2:37

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

5+阅读 · 今天2:23

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

6+阅读 · 今天2:21

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

2+阅读 · 今天1:46

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

6+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

4+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

8+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

8+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

8+阅读 · 7月31日

相关VIP内容

战术边缘计算：实现更快速、更智能军事决策的关键

战术边缘计算：实现更快速、更智能军事决策的关键

专知会员服务

21+阅读 · 2025年9月20日

《军事作战环境的功能性听力：综述和建议》2024最新41页报告

《军事作战环境的功能性听力：综述和建议》2024最新41页报告

专知会员服务

28+阅读 · 2024年5月26日

【ICASSP 2022教程】声场估计:最新进展与应用，日本东京大学Shoichi Koyama博士

【ICASSP 2022教程】声场估计:最新进展与应用，日本东京大学Shoichi Koyama博士

专知会员服务

24+阅读 · 2022年6月7日

国防科大最新《深度学习视觉语音分析》综述论文，20页pdf涵盖200篇文献阐述视觉语音识别与生成技术进展

国防科大最新《深度学习视觉语音分析》综述论文，20页pdf涵盖200篇文献阐述视觉语音识别与生成技术进展

专知会员服务

44+阅读 · 2022年5月26日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

多语言语音识别声学模型建模方法最新进展

多语言语音识别声学模型建模方法最新进展

专知会员服务

36+阅读 · 2022年2月7日

智能语音赛道：风口已至，全面开花

专知会员服务

38+阅读 · 2021年5月21日

达摩院基于元学习的对话系统

达摩院基于元学习的对话系统

专知会员服务

25+阅读 · 2021年1月1日

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

专知会员服务

19+阅读 · 2020年2月26日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

语音信号处理：从基本算法到前沿的深度学习方法

语音信号处理：从基本算法到前沿的深度学习方法

PaperWeekly

16+阅读 · 2020年3月26日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

【泡泡一分钟】复杂室内环境中声源定位的自监督增量学习

【泡泡一分钟】复杂室内环境中声源定位的自监督增量学习

泡泡机器人SLAM

10+阅读 · 2019年9月9日

SFFAI分享 | 连政：端到端语音合成【附PPT与视频资料】

SFFAI分享 | 连政：端到端语音合成【附PPT与视频资料】

人工智能前沿讲习班

14+阅读 · 2019年6月16日

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

云头条

18+阅读 · 2019年4月23日

近期声学领域前沿论文(No. 3)

近期声学领域前沿论文(No. 3)

深度学习每日摘要

24+阅读 · 2019年3月31日

Fast-OCNet: 更快更好的OCNet.

Fast-OCNet: 更快更好的OCNet.

极市平台

21+阅读 · 2019年2月10日

语音关键词检测方法综述【附PPT与视频资料】

语音关键词检测方法综述【附PPT与视频资料】

人工智能前沿讲习班

10+阅读 · 2019年2月2日

语音识别的前沿论文，看我们推荐的这4篇

语音识别的前沿论文，看我们推荐的这4篇

人工智能前沿讲习班

26+阅读 · 2019年1月14日

最新人机对话系统简略综述

最新人机对话系统简略综述

专知

26+阅读 · 2018年3月10日

相关论文

MuVAP: Multimodal Multiparty Voice Activity Projection for Turn-taking Prediction in the Wild

Arxiv

0+阅读 · 6月15日

Fast When, Careful Who: Dual-Process Multiparty Turn-Taking with Diffusion Augmentation

Arxiv

0+阅读 · 6月15日

SSNAPS: Audio-Visual Separation of Speech and Background Noise with Diffusion Inverse Sampling

Arxiv

0+阅读 · 6月15日

Leveraging Sound Source Trajectories for Universal Sound Separation

Arxiv

0+阅读 · 6月12日

Generating Training Targets for Real-World Speech Enhancement via Close-to-Distant Microphone Projection

Arxiv

0+阅读 · 6月11日

MeCo: One-Step MeanFlow-based Corrector for Multi-Channel Speech Separation

Arxiv

0+阅读 · 6月8日

BiEAR: A Human Auditory-Inspired Adaptive Binaural Front-end for Multi-Speaker Localisation and Distance Estimation

Arxiv

0+阅读 · 6月5日

A Semantically Consistent Dataset for Data-Efficient Query-Based Universal Sound Separation

Arxiv

0+阅读 · 6月2日

AVBench: Human-Aligned and Automated Evaluation Benchmark for Audio-Video Generative Models

Arxiv

0+阅读 · 5月23日

SpeakerLLM: A Speaker-Specialized Audio-LLM for Speaker Understanding and Verification Reasoning

Arxiv

0+阅读 · 5月14日

相关基金

基于盲双迭代策略的高可靠变速移动水声多用户通信理论和方法

国家自然科学基金

0+阅读 · 2017年12月31日

听力损失系统双耳声源定位模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于分布式电磁矢量传感器阵列的混合信源定位方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

超高速SiGe BiCMOS光接收机前端电路低噪声设计方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

声学风洞传声器阵列测试的射流剪切层修正技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

环境自适应高灵敏度光纤声传感器研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于声光互作用动量匹配的相干探测光学降噪方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

双微阵列语音增强与定位方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员