Adaptive Rotary Steering with Joint Autoregression for Robust Extraction of Closely Moving Speakers in Dynamic Scenarios - 专知论文

会员服务 ·

0

鲁棒 · 自适应 · 动态场景 · 提取 · 算法 ·

Adaptive Rotary Steering with Joint Autoregression for Robust Extraction of Closely Moving Speakers in Dynamic Scenarios

翻译：基于联合自回归的自适应旋转波束导向：动态场景下紧密移动说话人的鲁棒提取

Jakob Kienegger,Timo Gerkmann

from arxiv, Accepted at IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) 2026

Latest advances in deep spatial filtering for Ambisonics demonstrate strong performance in stationary multi-speaker scenarios by rotating the sound field toward a target speaker prior to multi-channel enhancement. For applicability in dynamic acoustic conditions with moving speakers, we propose to automate this rotary steering using an interleaved tracking algorithm conditioned on the target's initial direction. However, for nearby or crossing speakers, robust tracking becomes difficult and spatial cues less effective for enhancement. By incorporating the processed recording as additional guide into both algorithms, our novel joint autoregressive framework leverages temporal-spectral correlations of speech to resolve spatially challenging speaker constellations. Consequently, our proposed method significantly improves tracking and enhancement of closely spaced speakers, consistently outperforming comparable non-autoregressive methods on a synthetic dataset. Real-world recordings complement these findings in complex scenarios with multiple speaker crossings and varying speaker-to-array distances.

翻译：基于Ambisonics的深度空间滤波最新进展表明，通过将声场旋转至目标说话人方向再进行多通道增强，可在静态多说话人场景中实现优异性能。为适应说话人运动的动态声学环境，我们提出利用以目标初始方向为条件的交错跟踪算法实现旋转波束导向的自动化。然而，对于邻近或交叉运动的说话人，鲁棒跟踪变得困难且空间线索对增强效果减弱。通过将处理后的录音作为附加引导信息融入两个算法，我们提出的新型联合自回归框架利用语音的时频相关性来解决空间分布复杂的说话人构型。实验表明，所提方法显著提升了紧密相邻说话人的跟踪与增强性能，在合成数据集上持续优于同类非自回归方法。在包含多说话人交叉运动及可变说话人-阵列距离的复杂场景中，真实环境录音进一步验证了这些结论。

0

相关内容

降解语音：通过输入操控实现鲁棒性语音转换的全面综述

降解语音：通过输入操控实现鲁棒性语音转换的全面综述

专知会员服务

13+阅读 · 1月28日

【NTU博士论文】端到端鲁棒自动语音识别的最新进展

【NTU博士论文】端到端鲁棒自动语音识别的最新进展

专知会员服务

12+阅读 · 2025年10月15日

《具备集体态势感知能力的深度强化学习智能体在超视距空战中的应用研究》最新文献

《具备集体态势感知能力的深度强化学习智能体在超视距空战中的应用研究》最新文献

专知会员服务

52+阅读 · 2025年9月23日

【加州理工博士论文】基于学习的鲁棒控制方法，137页pdf

【加州理工博士论文】基于学习的鲁棒控制方法，137页pdf

专知会员服务

32+阅读 · 2023年12月23日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

《综合搜索和跟踪群体目标的自适应波束转向认知雷达》美国海军研究生院论文

《综合搜索和跟踪群体目标的自适应波束转向认知雷达》美国海军研究生院论文

专知会员服务

40+阅读 · 2022年5月27日

【AI+军事】附论文《通过处理多通道声学和无线电频率信号实现无人机的识别和定位：一种深度学习方法》

【AI+军事】附论文《通过处理多通道声学和无线电频率信号实现无人机的识别和定位：一种深度学习方法》

专知会员服务

42+阅读 · 2022年4月24日

【AI+军事】洛马AI中心paper速读：基于深度学习的多目标跟踪、轨迹预测，Multi-Object Tracking with Deep Learning Ensemble for Unmanned Aerial System Applications

【AI+军事】洛马AI中心paper速读：基于深度学习的多目标跟踪、轨迹预测，Multi-Object Tracking with Deep Learning Ensemble for Unmanned Aerial System Applications

专知会员服务

66+阅读 · 2022年3月22日

面向自然语言处理的对抗攻防与鲁棒性分析综述

专知会员服务

32+阅读 · 2021年9月5日

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

专知会员服务

19+阅读 · 2020年2月26日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

近期声学领域前沿论文(No. 3)

近期声学领域前沿论文(No. 3)

深度学习每日摘要

24+阅读 · 2019年3月31日

面向自然语言处理的神经网络迁移学习，NLP网红Ruder博士329页论文（附下载）

面向自然语言处理的神经网络迁移学习，NLP网红Ruder博士329页论文（附下载）

专知

18+阅读 · 2019年3月24日

迁移自适应学习最新综述，附21页论文下载

迁移自适应学习最新综述，附21页论文下载

专知

34+阅读 · 2019年3月13日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

GAN生成式对抗网络

11+阅读 · 2018年6月5日

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

中国科学院自动化研究所

13+阅读 · 2018年4月28日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

空间近场完全非合作目标鲁棒相对位姿确定方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

改进智能优化策略多机动目标跟踪方法研究

国家自然科学基金

20+阅读 · 2015年12月31日

回声干扰抑制中的自适应信号处理算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

被动声纳中的导向自校正鲁棒自适应波束形成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

矢量贝塞尔波束对复杂各向异性粒子的电磁散射及微操纵特性研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于势场法的多智能体系统鲁棒自适应刚性编队控制

国家自然科学基金

3+阅读 · 2015年12月31日

微波集成OAM波束产生、传输及抗衰落研究

国家自然科学基金

0+阅读 · 2014年12月31日

多自由度非线性系统的振动能量传递机理及应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于电磁幅相调制人工结构材料的波束动态操控机理及实验研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

Robust Joint Message and State Transmission under Arbitrarily Varying Jamming

Arxiv

0+阅读 · 2月18日

Kalman Linear Attention: Parallel Bayesian Filtering For Efficient Language Modelling and State Tracking

Arxiv

0+阅读 · 2月11日

Robust Reinforcement Learning from Human Feedback for Large Language Models Fine-Tuning

Arxiv

0+阅读 · 2月10日

Robust Hyperbolic Learning with Curvature-Aware Optimization

Arxiv

0+阅读 · 2月7日

Universal Robust Speech Adaptation for Cross-Domain Speech Recognition and Enhancement

Arxiv

0+阅读 · 2月4日

Self-Imitated Diffusion Policy for Efficient and Robust Visual Navigation

Arxiv

0+阅读 · 1月30日

Adaptive Multimodal Person Recognition: A Robust Framework for Handling Missing Modalities

Arxiv

0+阅读 · 1月27日

Mitigation of multi-path propagation artefacts in acoustic targets with adaptive cepstral filtering

Arxiv

0+阅读 · 1月22日

Adaptive Rotary Steering with Joint Autoregression for Robust Extraction of Closely Moving Speakers in Dynamic Scenarios

Arxiv

0+阅读 · 1月18日

Survey of End-to-End Multi-Speaker Automatic Speech Recognition for Monaural Audio

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

最新内容

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

4+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

6+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

6+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

4+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

7+阅读 · 7月20日

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

6+阅读 · 7月20日

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

14+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

7+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

9+阅读 · 7月19日

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

10+阅读 · 7月19日

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

15+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

8+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

16+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

11+阅读 · 7月18日

相关VIP内容

降解语音：通过输入操控实现鲁棒性语音转换的全面综述

降解语音：通过输入操控实现鲁棒性语音转换的全面综述

专知会员服务

13+阅读 · 1月28日

【NTU博士论文】端到端鲁棒自动语音识别的最新进展

【NTU博士论文】端到端鲁棒自动语音识别的最新进展

专知会员服务

12+阅读 · 2025年10月15日

《具备集体态势感知能力的深度强化学习智能体在超视距空战中的应用研究》最新文献

《具备集体态势感知能力的深度强化学习智能体在超视距空战中的应用研究》最新文献

专知会员服务

52+阅读 · 2025年9月23日

【加州理工博士论文】基于学习的鲁棒控制方法，137页pdf

【加州理工博士论文】基于学习的鲁棒控制方法，137页pdf

专知会员服务

32+阅读 · 2023年12月23日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

《综合搜索和跟踪群体目标的自适应波束转向认知雷达》美国海军研究生院论文

《综合搜索和跟踪群体目标的自适应波束转向认知雷达》美国海军研究生院论文

专知会员服务

40+阅读 · 2022年5月27日

【AI+军事】附论文《通过处理多通道声学和无线电频率信号实现无人机的识别和定位：一种深度学习方法》

【AI+军事】附论文《通过处理多通道声学和无线电频率信号实现无人机的识别和定位：一种深度学习方法》

专知会员服务

42+阅读 · 2022年4月24日

【AI+军事】洛马AI中心paper速读：基于深度学习的多目标跟踪、轨迹预测，Multi-Object Tracking with Deep Learning Ensemble for Unmanned Aerial System Applications

【AI+军事】洛马AI中心paper速读：基于深度学习的多目标跟踪、轨迹预测，Multi-Object Tracking with Deep Learning Ensemble for Unmanned Aerial System Applications

专知会员服务

66+阅读 · 2022年3月22日

面向自然语言处理的对抗攻防与鲁棒性分析综述

专知会员服务

32+阅读 · 2021年9月5日

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

专知会员服务

19+阅读 · 2020年2月26日

热门VIP内容

开通专知VIP会员享更多权益服务

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

印度精确打击与指挥架构的断层

美空军AI完成F-16战斗机自主空战历史性试飞

相关资讯

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

近期声学领域前沿论文(No. 3)

近期声学领域前沿论文(No. 3)

深度学习每日摘要

24+阅读 · 2019年3月31日

面向自然语言处理的神经网络迁移学习，NLP网红Ruder博士329页论文（附下载）

面向自然语言处理的神经网络迁移学习，NLP网红Ruder博士329页论文（附下载）

专知

18+阅读 · 2019年3月24日

迁移自适应学习最新综述，附21页论文下载

迁移自适应学习最新综述，附21页论文下载

专知

34+阅读 · 2019年3月13日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

GAN生成式对抗网络

11+阅读 · 2018年6月5日

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

中国科学院自动化研究所

13+阅读 · 2018年4月28日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

Robust Joint Message and State Transmission under Arbitrarily Varying Jamming

Arxiv

0+阅读 · 2月18日

Kalman Linear Attention: Parallel Bayesian Filtering For Efficient Language Modelling and State Tracking

Arxiv

0+阅读 · 2月11日

Robust Reinforcement Learning from Human Feedback for Large Language Models Fine-Tuning

Arxiv

0+阅读 · 2月10日

Robust Hyperbolic Learning with Curvature-Aware Optimization

Arxiv

0+阅读 · 2月7日

Universal Robust Speech Adaptation for Cross-Domain Speech Recognition and Enhancement

Arxiv

0+阅读 · 2月4日

Self-Imitated Diffusion Policy for Efficient and Robust Visual Navigation

Arxiv

0+阅读 · 1月30日

Adaptive Multimodal Person Recognition: A Robust Framework for Handling Missing Modalities

Arxiv

0+阅读 · 1月27日

Mitigation of multi-path propagation artefacts in acoustic targets with adaptive cepstral filtering

Arxiv

0+阅读 · 1月22日

Adaptive Rotary Steering with Joint Autoregression for Robust Extraction of Closely Moving Speakers in Dynamic Scenarios

Arxiv

0+阅读 · 1月18日

Survey of End-to-End Multi-Speaker Automatic Speech Recognition for Monaural Audio

Arxiv

0+阅读 · 1月13日

相关基金

空间近场完全非合作目标鲁棒相对位姿确定方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

改进智能优化策略多机动目标跟踪方法研究

国家自然科学基金

20+阅读 · 2015年12月31日

回声干扰抑制中的自适应信号处理算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

被动声纳中的导向自校正鲁棒自适应波束形成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

矢量贝塞尔波束对复杂各向异性粒子的电磁散射及微操纵特性研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于势场法的多智能体系统鲁棒自适应刚性编队控制

国家自然科学基金

3+阅读 · 2015年12月31日

微波集成OAM波束产生、传输及抗衰落研究

国家自然科学基金

0+阅读 · 2014年12月31日

多自由度非线性系统的振动能量传递机理及应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于电磁幅相调制人工结构材料的波束动态操控机理及实验研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员