Few-shot Acoustic Synthesis with Multimodal Flow Matching - 专知论文

会员服务 ·

0

样本 · 合成 · 流匹配 · 小样本 · 多模 ·

Few-shot Acoustic Synthesis with Multimodal Flow Matching

翻译：小样本多模态流匹配声学合成技术

Amandine Brunetto

from arxiv, To appear at CVPR 2026. 23 pages, 16 figures. Project Page: https://amandinebtto.github.io/FLAC/

Generating audio that is acoustically consistent with a scene is essential for immersive virtual environments. Recent neural acoustic field methods enable spatially continuous sound rendering but remain scene-specific, requiring dense audio measurements and costly training for each environment. Few-shot approaches improve scalability across rooms but still rely on multiple recordings and, being deterministic, fail to capture the inherent uncertainty of scene acoustics under sparse context. We introduce flow-matching acoustic generation (FLAC), a probabilistic method for few-shot acoustic synthesis that models the distribution of plausible room impulse responses (RIRs) given minimal scene context. FLAC leverages a diffusion transformer trained with a flow-matching objective to generate RIRs at arbitrary positions in novel scenes, conditioned on spatial, geometric, and acoustic cues. FLAC outperforms state-of-the-art eight-shot baselines with one-shot on both the AcousticRooms and Hearing Anything Anywhere datasets. To complement standard perceptual metrics, we further introduce AGREE, a joint acoustic-geometry embedding, enabling geometry-consistent evaluation of generated RIRs through retrieval and distributional metrics. This work is the first to apply generative flow matching to explicit RIR synthesis, establishing a new direction for robust and data-efficient acoustic synthesis.

翻译：生成与场景声学特性一致的音频对于沉浸式虚拟环境至关重要。近年来，神经声场方法实现了空间连续的声音渲染，但受限于场景特异性——每个环境都需要密集的音频测量和高昂的训练成本。小样本方法提升了跨房间的可扩展性，但仍依赖多次录音，且因其确定性本质，无法捕捉稀疏上下文条件下场景声学固有的不确定性。我们提出流匹配声学生成（FLAC），一种用于小样本声学合成的概率方法，能够在给定最小场景上下文条件下建模合理的房间脉冲响应（RIRs）分布。FLAC利用基于流匹配目标训练的扩散变换器，以空间、几何和声学线索为条件，在新场景的任意位置生成RIRs。在AcousticRooms和Hearing Anything Anywhere两个数据集上，FLAC以单样本性能超越当前最先进的八样本基线方法。为补充标准感知评估指标，我们进一步提出联合声学-几何嵌入方法AGREE，通过检索和分布度量实现对生成RIRs的几何一致性评估。本研究首次将生成式流匹配应用于显式RIR合成，为鲁棒且数据高效的声学合成开辟了新方向。

0

相关内容

【ICLR2025】VEVO：基于自监督解耦的可控零样本语音模仿

【ICLR2025】VEVO：基于自监督解耦的可控零样本语音模仿

专知会员服务

9+阅读 · 2025年2月15日

【AAAI2024】多样且对齐的音频到视频生成：通过文本到视频模型的调整

【AAAI2024】多样且对齐的音频到视频生成：通过文本到视频模型的调整

专知会员服务

18+阅读 · 2023年12月10日

《小型无人机实时多模态定位和识别的深度学习》2023最新论文（含讲解PPT、演示视频），北约科技组织“分布式多光谱和多静态传感”会议

《小型无人机实时多模态定位和识别的深度学习》2023最新论文（含讲解PPT、演示视频），北约科技组织“分布式多光谱和多静态传感”会议

专知会员服务

76+阅读 · 2023年2月6日

【ICASSP 2022教程】声场估计:最新进展与应用，日本东京大学Shoichi Koyama博士

【ICASSP 2022教程】声场估计:最新进展与应用，日本东京大学Shoichi Koyama博士

专知会员服务

24+阅读 · 2022年6月7日

AI换脸、合成语音大爆发！清华《深度合成十大趋势报告（2022）》发布

AI换脸、合成语音大爆发！清华《深度合成十大趋势报告（2022）》发布

专知会员服务

45+阅读 · 2022年3月1日

多语言语音识别声学模型建模方法最新进展

多语言语音识别声学模型建模方法最新进展

专知会员服务

36+阅读 · 2022年2月7日

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

29+阅读 · 2020年3月26日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning

专知会员服务

159+阅读 · 2020年2月29日

【CVPR2020-UBC】改进小样本学习视觉分类，Few-Shot Visual Classification

【CVPR2020-UBC】改进小样本学习视觉分类，Few-Shot Visual Classification

专知会员服务

68+阅读 · 2020年2月25日

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

专知会员服务

24+阅读 · 2019年12月15日

数据受限条件下的多模态处理技术综述

数据受限条件下的多模态处理技术综述

专知

22+阅读 · 2022年7月16日

CVPR2020最新《小样本学习》综述教程，145页ppt带你学习最新FSL进展

CVPR2020最新《小样本学习》综述教程，145页ppt带你学习最新FSL进展

专知

40+阅读 · 2020年6月20日

小样本也能增量学习？CVPR 2020 Oral最新干货：小样本类增量学习

小样本也能增量学习？CVPR 2020 Oral最新干货：小样本类增量学习

CVer

54+阅读 · 2020年5月1日

最新必读的8篇「小样本学习（few-shot learning）」2020顶会论文和代码

最新必读的8篇「小样本学习（few-shot learning）」2020顶会论文和代码

专知

115+阅读 · 2020年3月2日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

专知

72+阅读 · 2020年2月29日

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

专知

53+阅读 · 2019年12月1日

【ICML2019】中科院自动化所-针对小样本问题的学习生成匹配网络方法

【ICML2019】中科院自动化所-针对小样本问题的学习生成匹配网络方法

专知

59+阅读 · 2019年5月27日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

近期声学领域前沿论文(No. 3)

近期声学领域前沿论文(No. 3)

深度学习每日摘要

24+阅读 · 2019年3月31日

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

专知

127+阅读 · 2019年3月31日

间接优化的高效Monte Carlo声传播研究

国家自然科学基金

0+阅读 · 2017年12月31日

有理小波理论在多途信号解析与水声网络设计中的应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

时频双选水声信道下高谱效OQAM-OFDM通信的关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

自适应快速模拟细节丰富的流体技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于贝叶斯稀疏理论的合成孔径声纳成像技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

带加法噪声高维密度的最优小波点态估计

国家自然科学基金

0+阅读 · 2015年12月31日

基于超小波和全局特征量的数字音频水印技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于脉冲压缩的磁热声成像新方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于字典学习的小样本高光谱遥感图像稀疏表示分类精度研究与应用

国家自然科学基金

3+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

Audio-Omni: Extending Multi-modal Understanding to Versatile Audio Generation and Editing

Arxiv

0+阅读 · 4月26日

Personalizing Causal Audio-Driven Facial Motion via Dynamic Multi-modal Retrieval

Arxiv

0+阅读 · 4月26日

Mechanisms of Multimodal Synchronization: Insights from Decoder-Based Video-Text-to-Speech Synthesis

Arxiv

0+阅读 · 4月20日

Automatic Combination of Sample Selection Strategies for Few-Shot Learning

Arxiv

0+阅读 · 4月17日

AudioMoG: Guiding Audio Generation with Mixture-of-Guidance

Arxiv

0+阅读 · 4月9日

AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis with Acoustic Transfer

Arxiv

0+阅读 · 3月20日

OFTSR: One-Step Flow for Image Super-Resolution with Tunable Fidelity-Realism Trade-offs

Arxiv

0+阅读 · 3月19日

DiFlowDubber: Discrete Flow Matching for Automated Video Dubbing via Cross-Modal Alignment and Synchronization

Arxiv

0+阅读 · 3月17日

AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis with Acoustic Transfer

AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis with Acoustic Transfer

Arxiv

0+阅读 · 3月16日

Sonic4D: Spatial Audio Generation for Immersive 4D Scene Exploration

Arxiv

0+阅读 · 2月25日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

4+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

6+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

6+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

6+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

22+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

【ICLR2025】VEVO：基于自监督解耦的可控零样本语音模仿

【ICLR2025】VEVO：基于自监督解耦的可控零样本语音模仿

专知会员服务

9+阅读 · 2025年2月15日

【AAAI2024】多样且对齐的音频到视频生成：通过文本到视频模型的调整

【AAAI2024】多样且对齐的音频到视频生成：通过文本到视频模型的调整

专知会员服务

18+阅读 · 2023年12月10日

《小型无人机实时多模态定位和识别的深度学习》2023最新论文（含讲解PPT、演示视频），北约科技组织“分布式多光谱和多静态传感”会议

《小型无人机实时多模态定位和识别的深度学习》2023最新论文（含讲解PPT、演示视频），北约科技组织“分布式多光谱和多静态传感”会议

专知会员服务

76+阅读 · 2023年2月6日

【ICASSP 2022教程】声场估计:最新进展与应用，日本东京大学Shoichi Koyama博士

【ICASSP 2022教程】声场估计:最新进展与应用，日本东京大学Shoichi Koyama博士

专知会员服务

24+阅读 · 2022年6月7日

AI换脸、合成语音大爆发！清华《深度合成十大趋势报告（2022）》发布

AI换脸、合成语音大爆发！清华《深度合成十大趋势报告（2022）》发布

专知会员服务

45+阅读 · 2022年3月1日

多语言语音识别声学模型建模方法最新进展

多语言语音识别声学模型建模方法最新进展

专知会员服务

36+阅读 · 2022年2月7日

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

29+阅读 · 2020年3月26日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning

专知会员服务

159+阅读 · 2020年2月29日

【CVPR2020-UBC】改进小样本学习视觉分类，Few-Shot Visual Classification

【CVPR2020-UBC】改进小样本学习视觉分类，Few-Shot Visual Classification

专知会员服务

68+阅读 · 2020年2月25日

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

专知会员服务

24+阅读 · 2019年12月15日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

数据受限条件下的多模态处理技术综述

数据受限条件下的多模态处理技术综述

专知

22+阅读 · 2022年7月16日

CVPR2020最新《小样本学习》综述教程，145页ppt带你学习最新FSL进展

CVPR2020最新《小样本学习》综述教程，145页ppt带你学习最新FSL进展

专知

40+阅读 · 2020年6月20日

小样本也能增量学习？CVPR 2020 Oral最新干货：小样本类增量学习

小样本也能增量学习？CVPR 2020 Oral最新干货：小样本类增量学习

CVer

54+阅读 · 2020年5月1日

最新必读的8篇「小样本学习（few-shot learning）」2020顶会论文和代码

最新必读的8篇「小样本学习（few-shot learning）」2020顶会论文和代码

专知

115+阅读 · 2020年3月2日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

专知

72+阅读 · 2020年2月29日

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

专知

53+阅读 · 2019年12月1日

【ICML2019】中科院自动化所-针对小样本问题的学习生成匹配网络方法

【ICML2019】中科院自动化所-针对小样本问题的学习生成匹配网络方法

专知

59+阅读 · 2019年5月27日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

近期声学领域前沿论文(No. 3)

近期声学领域前沿论文(No. 3)

深度学习每日摘要

24+阅读 · 2019年3月31日

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

专知

127+阅读 · 2019年3月31日

相关论文

Audio-Omni: Extending Multi-modal Understanding to Versatile Audio Generation and Editing

Arxiv

0+阅读 · 4月26日

Personalizing Causal Audio-Driven Facial Motion via Dynamic Multi-modal Retrieval

Arxiv

0+阅读 · 4月26日

Mechanisms of Multimodal Synchronization: Insights from Decoder-Based Video-Text-to-Speech Synthesis

Arxiv

0+阅读 · 4月20日

Automatic Combination of Sample Selection Strategies for Few-Shot Learning

Arxiv

0+阅读 · 4月17日

AudioMoG: Guiding Audio Generation with Mixture-of-Guidance

Arxiv

0+阅读 · 4月9日

AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis with Acoustic Transfer

Arxiv

0+阅读 · 3月20日

OFTSR: One-Step Flow for Image Super-Resolution with Tunable Fidelity-Realism Trade-offs

Arxiv

0+阅读 · 3月19日

DiFlowDubber: Discrete Flow Matching for Automated Video Dubbing via Cross-Modal Alignment and Synchronization

Arxiv

0+阅读 · 3月17日

AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis with Acoustic Transfer

AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis with Acoustic Transfer

Arxiv

0+阅读 · 3月16日

Sonic4D: Spatial Audio Generation for Immersive 4D Scene Exploration

Arxiv

0+阅读 · 2月25日

相关基金

间接优化的高效Monte Carlo声传播研究

国家自然科学基金

0+阅读 · 2017年12月31日

有理小波理论在多途信号解析与水声网络设计中的应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

时频双选水声信道下高谱效OQAM-OFDM通信的关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

自适应快速模拟细节丰富的流体技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于贝叶斯稀疏理论的合成孔径声纳成像技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

带加法噪声高维密度的最优小波点态估计

国家自然科学基金

0+阅读 · 2015年12月31日

基于超小波和全局特征量的数字音频水印技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于脉冲压缩的磁热声成像新方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于字典学习的小样本高光谱遥感图像稀疏表示分类精度研究与应用

国家自然科学基金

3+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员