SSNAPS: Audio-Visual Separation of Speech and Background Noise with Diffusion Inverse Sampling - 专知论文

会员服务 ·

0

噪声 · 视频 · 环境噪声 · 监督 · 潜在 ·

SSNAPS: Audio-Visual Separation of Speech and Background Noise with Diffusion Inverse Sampling

翻译：SSNAPS: 基于扩散逆采样的音视频语音与背景噪声分离

Yochai Yemini,Yoav Ellinson,Rami Ben-Ari,Sharon Gannot,Ethan Fetaya

This paper addresses the challenge of audio-visual single-microphone speech separation and enhancement in the presence of real-world environmental noise. Our approach is based on generative inverse sampling, where we model clean speech and ambient noise with dedicated diffusion priors and jointly leverage them to recover all underlying sources. To achieve this, reformulate a recent inverse sampler to match our setting. We evaluate on mixtures of 1, 2, and 3 speakers with noise and show that, despite being entirely unsupervised, our method consistently outperforms leading supervised baselines in WER across all conditions. We further extend our framework to handle off-screen speaker separation. Moreover, the high fidelity of the separated noise component makes it suitable for downstream detection of the acoustic scene. Code and pretrained models will become available upon acceptance. Demo page: https://ssnaps2026.github.io/ssnaps2026/

翻译：本文针对真实环境噪声下音视频单麦克风语音分离与增强的挑战性问题，提出了一种基于生成逆采样的方法。该方法对纯净语音和环境噪声分别采用专用扩散先验进行建模，并联合利用这些先验恢复所有潜在声源。为此，我们重新构建了适用于本场景的逆采样器。在含噪条件下对1、2和3名说话人的混合语音进行了评估，结果表明：尽管完全无监督，我们的方法在所有条件下的词错误率均持续优于主流监督基线方法。进一步地，我们将框架扩展至处理画外说话人分离场景。此外，分离出的噪声分量具有高保真度，适用于下游声学场景检测任务。代码与预训练模型将在论文接收后公开。演示页面：https://ssnaps2026.github.io/ssnaps2026/

0

相关内容

【博士论文】面向真实世界音视联合语音识别的可扩展框架

【博士论文】面向真实世界音视联合语音识别的可扩展框架

专知会员服务

13+阅读 · 2025年12月19日

语音分离最全综述来了！清华等团队深度分析200+文章，系统解析「鸡尾酒会问题」研究

语音分离最全综述来了！清华等团队深度分析200+文章，系统解析「鸡尾酒会问题」研究

专知会员服务

12+阅读 · 2025年9月4日

从图像去噪到成像逆问题的正则化：综述

从图像去噪到成像逆问题的正则化：综述

专知会员服务

14+阅读 · 2025年9月4日

【ICLR2025】FREQPRIOR: 通过频率滤波高斯噪声改进视频扩散模型

【ICLR2025】FREQPRIOR: 通过频率滤波高斯噪声改进视频扩散模型

专知会员服务

10+阅读 · 2025年2月8日

【NeurIPS 2024】用于变分似然估计和图像去噪的扩散先验

【NeurIPS 2024】用于变分似然估计和图像去噪的扩散先验

专知会员服务

15+阅读 · 2024年10月26日

《扩散模型图像编辑》综述

《扩散模型图像编辑》综述

专知会员服务

28+阅读 · 2024年2月28日

英伟达斯坦福CVPR2023等最新《去噪扩散模型：生成学习的大爆炸》教程，附300多页ppt

英伟达斯坦福CVPR2023等最新《去噪扩散模型：生成学习的大爆炸》教程，附300多页ppt

专知会员服务

54+阅读 · 2023年6月27日

图像去噪方法概述

专知会员服务

43+阅读 · 2021年8月30日

CVPR 2021｜无需干净图像的自监督图像降噪

专知会员服务

39+阅读 · 2021年3月29日

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

专知会员服务

19+阅读 · 2020年2月26日

武大提出FarSeg：遥感图像分割新网络，解决前景背景不平衡问题 | CVPR 2020

武大提出FarSeg：遥感图像分割新网络，解决前景背景不平衡问题 | CVPR 2020

CVer

17+阅读 · 2020年7月10日

图像去噪的深度学习最新综述论文，36页pdf，Deep Learning on Image Denoising

图像去噪的深度学习最新综述论文，36页pdf，Deep Learning on Image Denoising

专知

19+阅读 · 2020年1月6日

图像/视频去噪算法资源集锦

图像/视频去噪算法资源集锦

专知

19+阅读 · 2019年12月14日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

使用 FastAI 和即时频率变换进行音频分类

使用 FastAI 和即时频率变换进行音频分类

AI研习社

11+阅读 · 2019年5月9日

近期声学领域前沿论文(No. 3)

近期声学领域前沿论文(No. 3)

深度学习每日摘要

24+阅读 · 2019年3月31日

使用RNN-Transducer进行语音识别建模【附PPT与视频资料】

使用RNN-Transducer进行语音识别建模【附PPT与视频资料】

人工智能前沿讲习班

74+阅读 · 2019年1月29日

CVPR 2018 论文解读 | 基于GAN和CNN的图像盲去噪

CVPR 2018 论文解读 | 基于GAN和CNN的图像盲去噪

PaperWeekly

13+阅读 · 2019年1月22日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

图像降噪算法介绍及实现汇总

图像降噪算法介绍及实现汇总

极市平台

26+阅读 · 2018年1月3日

分数阶随机共振行为机制及其自适应控制与强色噪声背景中的微弱信号检测

国家自然科学基金

0+阅读 · 2015年12月31日

基于时序相似性的机场噪声监测点交互预测

国家自然科学基金

1+阅读 · 2015年12月31日

声学风洞传声器阵列测试的射流剪切层修正技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

多信道压缩采样实现多维射频层析成像的理论与方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

非高斯噪声中基于分数低阶统计量的频谱感知技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于自适应稀疏算子的图像乘性噪声移除方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

数字音频被动取证关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于声光互作用动量匹配的相干探测光学降噪方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

双微阵列语音增强与定位方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Show the Signal, Hide the Noise: Spectral Forcing for Pixel-Space Diffusion

Arxiv

0+阅读 · 6月13日

Leveraging Sound Source Trajectories for Universal Sound Separation

Arxiv

0+阅读 · 6月12日

Absorbing Discrete Diffusion for Speech Enhancement

Arxiv

0+阅读 · 6月4日

A Semantically Consistent Dataset for Data-Efficient Query-Based Universal Sound Separation

Arxiv

0+阅读 · 6月2日

Audio Spotforming via Post-Filtering Using Cross-Array Non-target Estimates

Arxiv

0+阅读 · 6月2日

LoSATok: Low-dimensional Semantic-Acoustic Tokenizer for Cross-Domain Audio Understanding and Generation

Arxiv

0+阅读 · 5月27日

Dasheng AudioGen: A Unified Model for Generating Coherent Audio Scenes from Text

Arxiv

0+阅读 · 5月27日

SeamlessEdit: Background Noise Aware Zero-Shot Speech Editing with in-Context Enhancement

Arxiv

0+阅读 · 5月17日

Stage-adaptive audio diffusion modeling

Arxiv

0+阅读 · 5月6日

Talker-T2AV: Joint Talking Audio-Video Generation with Autoregressive Diffusion Modeling

Arxiv

0+阅读 · 4月26日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 25分钟前

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 27分钟前

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

2+阅读 · 39分钟前

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 50分钟前

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 59分钟前

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

2+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

【博士论文】面向真实世界音视联合语音识别的可扩展框架

【博士论文】面向真实世界音视联合语音识别的可扩展框架

专知会员服务

13+阅读 · 2025年12月19日

语音分离最全综述来了！清华等团队深度分析200+文章，系统解析「鸡尾酒会问题」研究

语音分离最全综述来了！清华等团队深度分析200+文章，系统解析「鸡尾酒会问题」研究

专知会员服务

12+阅读 · 2025年9月4日

从图像去噪到成像逆问题的正则化：综述

从图像去噪到成像逆问题的正则化：综述

专知会员服务

14+阅读 · 2025年9月4日

【ICLR2025】FREQPRIOR: 通过频率滤波高斯噪声改进视频扩散模型

【ICLR2025】FREQPRIOR: 通过频率滤波高斯噪声改进视频扩散模型

专知会员服务

10+阅读 · 2025年2月8日

【NeurIPS 2024】用于变分似然估计和图像去噪的扩散先验

【NeurIPS 2024】用于变分似然估计和图像去噪的扩散先验

专知会员服务

15+阅读 · 2024年10月26日

《扩散模型图像编辑》综述

《扩散模型图像编辑》综述

专知会员服务

28+阅读 · 2024年2月28日

英伟达斯坦福CVPR2023等最新《去噪扩散模型：生成学习的大爆炸》教程，附300多页ppt

英伟达斯坦福CVPR2023等最新《去噪扩散模型：生成学习的大爆炸》教程，附300多页ppt

专知会员服务

54+阅读 · 2023年6月27日

图像去噪方法概述

专知会员服务

43+阅读 · 2021年8月30日

CVPR 2021｜无需干净图像的自监督图像降噪

专知会员服务

39+阅读 · 2021年3月29日

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

专知会员服务

19+阅读 · 2020年2月26日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

武大提出FarSeg：遥感图像分割新网络，解决前景背景不平衡问题 | CVPR 2020

武大提出FarSeg：遥感图像分割新网络，解决前景背景不平衡问题 | CVPR 2020

CVer

17+阅读 · 2020年7月10日

图像去噪的深度学习最新综述论文，36页pdf，Deep Learning on Image Denoising

图像去噪的深度学习最新综述论文，36页pdf，Deep Learning on Image Denoising

专知

19+阅读 · 2020年1月6日

图像/视频去噪算法资源集锦

图像/视频去噪算法资源集锦

专知

19+阅读 · 2019年12月14日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

使用 FastAI 和即时频率变换进行音频分类

使用 FastAI 和即时频率变换进行音频分类

AI研习社

11+阅读 · 2019年5月9日

近期声学领域前沿论文(No. 3)

近期声学领域前沿论文(No. 3)

深度学习每日摘要

24+阅读 · 2019年3月31日

使用RNN-Transducer进行语音识别建模【附PPT与视频资料】

使用RNN-Transducer进行语音识别建模【附PPT与视频资料】

人工智能前沿讲习班

74+阅读 · 2019年1月29日

CVPR 2018 论文解读 | 基于GAN和CNN的图像盲去噪

CVPR 2018 论文解读 | 基于GAN和CNN的图像盲去噪

PaperWeekly

13+阅读 · 2019年1月22日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

图像降噪算法介绍及实现汇总

图像降噪算法介绍及实现汇总

极市平台

26+阅读 · 2018年1月3日

相关论文

Show the Signal, Hide the Noise: Spectral Forcing for Pixel-Space Diffusion

Arxiv

0+阅读 · 6月13日

Leveraging Sound Source Trajectories for Universal Sound Separation

Arxiv

0+阅读 · 6月12日

Absorbing Discrete Diffusion for Speech Enhancement

Arxiv

0+阅读 · 6月4日

A Semantically Consistent Dataset for Data-Efficient Query-Based Universal Sound Separation

Arxiv

0+阅读 · 6月2日

Audio Spotforming via Post-Filtering Using Cross-Array Non-target Estimates

Arxiv

0+阅读 · 6月2日

LoSATok: Low-dimensional Semantic-Acoustic Tokenizer for Cross-Domain Audio Understanding and Generation

Arxiv

0+阅读 · 5月27日

Dasheng AudioGen: A Unified Model for Generating Coherent Audio Scenes from Text

Arxiv

0+阅读 · 5月27日

SeamlessEdit: Background Noise Aware Zero-Shot Speech Editing with in-Context Enhancement

Arxiv

0+阅读 · 5月17日

Stage-adaptive audio diffusion modeling

Arxiv

0+阅读 · 5月6日

Talker-T2AV: Joint Talking Audio-Video Generation with Autoregressive Diffusion Modeling

Arxiv

0+阅读 · 4月26日

相关基金

分数阶随机共振行为机制及其自适应控制与强色噪声背景中的微弱信号检测

国家自然科学基金

0+阅读 · 2015年12月31日

基于时序相似性的机场噪声监测点交互预测

国家自然科学基金

1+阅读 · 2015年12月31日

声学风洞传声器阵列测试的射流剪切层修正技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

多信道压缩采样实现多维射频层析成像的理论与方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

非高斯噪声中基于分数低阶统计量的频谱感知技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于自适应稀疏算子的图像乘性噪声移除方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

数字音频被动取证关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于声光互作用动量匹配的相干探测光学降噪方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

双微阵列语音增强与定位方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员