Multi-channel speech separation in dynamic environments is challenging as time-varying spatial and spectral features evolve at different temporal scales. Existing methods typically employ sequential architectures, forcing a single network stream to simultaneously model both feature types, creating an inherent modeling conflict. In this paper, we propose a dual-branch parallel spectral-spatial (PS2) architecture that separately processes spectral and spatial features through parallel streams. The spectral branch uses a bi-directional long short-term memory (BLSTM)-based frequency module, a Mamba-based temporal module, and a self-attention module to model spectral features. The spatial branch employs bi-directional gated recurrent unit (BGRU) networks to process spatial features that encode the evolving geometric relationships between sources and microphones. Features from both branches are integrated through a cross-attention fusion mechanism that adaptively weights their contributions. Experimental results demonstrate that the PS2 outperforms existing state-of-the-art (SOTA) methods by 1.6-2.2 dB in scale-invariant signal-to-distortion ratio (SI-SDR) for moving speaker scenarios, with robust separation quality under different reverberation times (RT60), noise levels, and source movement speeds. Even with fast source movements, the proposed model maintains SI-SDR improvements of over 13 dB. These improvements are consistently observed across multiple datasets, including WHAMR! and our generated WSJ0-Demand-6ch-Move dataset.


翻译:动态环境中的多通道语音分离具有挑战性,因为时变的空域和谱域特征以不同的时间尺度演变。现有方法通常采用串行架构,迫使单一网络流同时建模两种特征类型,从而产生固有的建模冲突。本文提出一种双分支并行谱-空(PS2)架构,通过并行流分别处理谱域和空域特征。谱域分支使用基于双向长短期记忆(BLSTM)的频率模块、基于Mamba的时序模块和自注意力模块来建模谱域特征。空域分支采用双向门控循环单元(BGRU)网络处理空域特征,这些特征编码了声源与麦克风之间不断演变的几何关系。两个分支的特征通过交叉注意力融合机制进行整合,该机制自适应地加权它们的贡献。实验结果表明,在动态说话人场景下,PS2在尺度不变信噪比(SI-SDR)上优于现有最先进(SOTA)方法1.6-2.2 dB,并在不同混响时间(RT60)、噪声水平和声源移动速度下均保持稳健的分离质量。即使在声源快速移动时,所提模型仍能维持超过13 dB的SI-SDR提升。这些改进在多个数据集上均得到一致验证,包括WHAMR!和我们生成的WSJ0-Demand-6ch-Move数据集。

0
下载
关闭预览

相关内容

《基于分层多智能体强化学习的逼真空战协同策略》
专知会员服务
43+阅读 · 2025年10月30日
《基于分类方法的自动人机对话》
专知会员服务
25+阅读 · 2023年7月18日
【字节跳动-李航】一种按序列进行对话状态跟踪的方法
专知会员服务
30+阅读 · 2020年11月25日
近期声学领域前沿论文(No. 3)
深度学习每日摘要
24+阅读 · 2019年3月31日
语义分割如何「拉关系」?
计算机视觉life
11+阅读 · 2019年2月15日
BiSeNet:双向分割网络进行实时语义分割
统计学习与视觉计算组
22+阅读 · 2018年8月23日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
《人工智能赋能电磁战》(报告)
专知会员服务
2+阅读 · 4月17日
【CMU博士论文】迈向可扩展的开放世界三维感知
前馈式三维场景建模
专知会员服务
1+阅读 · 4月17日
(译文)认知战:以士兵为目标,塑造战略
专知会员服务
3+阅读 · 4月17日
相关VIP内容
《基于分层多智能体强化学习的逼真空战协同策略》
专知会员服务
43+阅读 · 2025年10月30日
《基于分类方法的自动人机对话》
专知会员服务
25+阅读 · 2023年7月18日
【字节跳动-李航】一种按序列进行对话状态跟踪的方法
专知会员服务
30+阅读 · 2020年11月25日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员