Explicit Context-Driven Neural Acoustic Modeling for High-Fidelity RIR Generation - 专知论文

会员服务 ·

0

上下文 · 声学建模 · 高保真 · 几何特征 · 上下文信息 ·

Explicit Context-Driven Neural Acoustic Modeling for High-Fidelity RIR Generation

翻译：显式上下文驱动的神经声学建模：用于高保真RIR生成

Chen Si,Qianyi Wu,Chaitanya Amballa,Romit Roy Choudhury

Realistic sound simulation plays a critical role in many applications. A key element in sound simulation is the room impulse response (RIR), which characterizes how sound propagates within a given space. Recent studies have applied neural implicit methods to learn RIR using context information collected from the environment, such as scene images. However, these approaches do not effectively leverage explicit geometric information from the environment. To further exploit neural implicit models with direct geometric features, we present MiNAF, which queries a rough room mesh at given locations and extracts distance distributions as an explicit representation of local context. Our approach demonstrates that incorporating explicit local geometric features can better guide the model in generating more accurate RIR predictions. Through comparisons with conventional and state-of-the-art methods, we show that MiNAF performs competitively across various evaluation metrics.

翻译：逼真的声音模拟在许多应用中发挥着关键作用。声音模拟的核心要素之一是房间冲激响应（RIR），它描述了声音在特定空间内的传播方式。近期研究采用神经隐式方法，利用从环境中收集的上下文信息（如场景图像）来学习RIR。然而，这些方法未能有效利用环境中的显式几何信息。为了进一步利用具有直接几何特征的神经隐式模型，我们提出了MiNAF，其在给定位置查询粗糙的房间网格，并提取距离分布作为局部上下文的显式表示。我们的方法表明，融入显式局部几何特征能更好地引导模型生成更准确的RIR预测。通过与常规方法和最新技术的比较，我们展示了MiNAF在多种评估指标上具有竞争力的表现。

0

相关内容

上下文

【博士论文】用于定位、重建与渲染的高效且精确的神经表示

【博士论文】用于定位、重建与渲染的高效且精确的神经表示

专知会员服务

6+阅读 · 2025年6月25日

【博士论文】神经语言模型：上下文语境中语言理解与产出的研究

【博士论文】神经语言模型：上下文语境中语言理解与产出的研究

专知会员服务

16+阅读 · 2024年4月29日

【伯克利博士论文】理解、构建和评估上下文感知条件自然语言生成模型

【伯克利博士论文】理解、构建和评估上下文感知条件自然语言生成模型

专知会员服务

29+阅读 · 2024年4月20日

【图宾根大学博士论文】神经场景表示在三维重建和生成建模中的应用

【图宾根大学博士论文】神经场景表示在三维重建和生成建模中的应用

专知会员服务

40+阅读 · 2023年12月2日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

【剑桥大学博士论文】《脑科学中的数据驱动表示：基因表达和神经成像领域的建模方法》2022最新160页论文

【剑桥大学博士论文】《脑科学中的数据驱动表示：基因表达和神经成像领域的建模方法》2022最新160页论文

专知会员服务

41+阅读 · 2022年8月28日

Jakub Tomczak- 《深度生成建模》讲座报告与视频，84页ppt，Deep Generative Modeling is a key to unlocking AI potential

Jakub Tomczak- 《深度生成建模》讲座报告与视频，84页ppt，Deep Generative Modeling is a key to unlocking AI potential

专知会员服务

61+阅读 · 2022年3月11日

多语言语音识别声学模型建模方法最新进展

多语言语音识别声学模型建模方法最新进展

专知会员服务

36+阅读 · 2022年2月7日

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

专知会员服务

35+阅读 · 2021年7月8日

【博士论文】音乐结构的人工神经网络建模：Modeling Musical Structure with Artificial Neural Networks

【博士论文】音乐结构的人工神经网络建模：Modeling Musical Structure with Artificial Neural Networks

专知会员服务

28+阅读 · 2019年11月26日

图像去噪的深度学习最新综述论文，36页pdf，Deep Learning on Image Denoising

图像去噪的深度学习最新综述论文，36页pdf，Deep Learning on Image Denoising

专知

19+阅读 · 2020年1月6日

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

云头条

18+阅读 · 2019年4月23日

R语言自然语言处理：文本向量化——词嵌入（Word Embedding）

R语言自然语言处理：文本向量化——词嵌入（Word Embedding）

R语言中文社区

10+阅读 · 2019年4月6日

使用RNN-Transducer进行语音识别建模【附PPT与视频资料】

使用RNN-Transducer进行语音识别建模【附PPT与视频资料】

人工智能前沿讲习班

74+阅读 · 2019年1月29日

ICASSP最佳学生论文：深度对抗声学模型训练框架

ICASSP最佳学生论文：深度对抗声学模型训练框架

专知

14+阅读 · 2018年4月28日

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

中国科学院自动化研究所

13+阅读 · 2018年4月28日

展望：模型驱动的深度学习

展望：模型驱动的深度学习

人工智能学家

12+阅读 · 2018年1月23日

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

全球人工智能

12+阅读 · 2017年12月3日

NLP中自动生产文摘（auto text summarization）

NLP中自动生产文摘（auto text summarization）

机器学习研究会

14+阅读 · 2017年10月10日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

间接优化的高效Monte Carlo声传播研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

听力损失系统双耳声源定位模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

保留时域精细结构的高生物拟真全植入式神经形态人工耳蜗芯片设计

国家自然科学基金

0+阅读 · 2015年12月31日

声场驱动的纳米马达的结构特征及操控技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于实时fMRI解码与脑网络建模的听觉信息认知加工机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于脉冲压缩的磁热声成像新方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

配音演员的声音对广告效果的影响--基于机器学习的声音广告研究

国家自然科学基金

0+阅读 · 2014年12月31日

A Neuromorphic Trigger for Efficient Audio Event Detection

Arxiv

0+阅读 · 6月16日

Context-Aware RL for Agentic and Multimodal LLMs

Arxiv

0+阅读 · 6月15日

Spatio-Temporal Audio Language Modeling for Dynamic Sound Sources

Arxiv

0+阅读 · 6月12日

A fully GPU-based workflow for building physics emulators of hypersonic flows

Arxiv

0+阅读 · 6月11日

ANCHOR: Agentic Noise Creation Framework for Human Simulation and Denoising Recommendation

Arxiv

0+阅读 · 6月4日

Physics-Informed Neural Engine Sound Modeling with Differentiable Pulse-Train Synthesis

Arxiv

0+阅读 · 6月2日

Omni-Embed-Audio: Leveraging Multimodal LLMs for Robust Audio-Text Retrieval

Arxiv

0+阅读 · 6月1日

MetaSICL: Adapting Audiroty LLM via Meta Speech In-Context Learning

Arxiv

0+阅读 · 5月26日

Exploring How Audio Effects Alter Emotion with Foundation Models

Arxiv

0+阅读 · 5月21日

Reduced-order Neural Modeling with Differentiable Simulation for High-Detail Tactile Perception

Arxiv

0+阅读 · 5月6日

VIP会员

文章信息

相关主题

上下文信息

最新内容

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

1+阅读 · 今天15:03

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

0+阅读 · 今天14:31

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

0+阅读 · 今天14:29

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

12+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

4+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

7+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

8+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

11+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

12+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

8+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

21+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

10+阅读 · 6月17日

相关VIP内容

【博士论文】用于定位、重建与渲染的高效且精确的神经表示

【博士论文】用于定位、重建与渲染的高效且精确的神经表示

专知会员服务

6+阅读 · 2025年6月25日

【博士论文】神经语言模型：上下文语境中语言理解与产出的研究

【博士论文】神经语言模型：上下文语境中语言理解与产出的研究

专知会员服务

16+阅读 · 2024年4月29日

【伯克利博士论文】理解、构建和评估上下文感知条件自然语言生成模型

【伯克利博士论文】理解、构建和评估上下文感知条件自然语言生成模型

专知会员服务

29+阅读 · 2024年4月20日

【图宾根大学博士论文】神经场景表示在三维重建和生成建模中的应用

【图宾根大学博士论文】神经场景表示在三维重建和生成建模中的应用

专知会员服务

40+阅读 · 2023年12月2日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

【剑桥大学博士论文】《脑科学中的数据驱动表示：基因表达和神经成像领域的建模方法》2022最新160页论文

【剑桥大学博士论文】《脑科学中的数据驱动表示：基因表达和神经成像领域的建模方法》2022最新160页论文

专知会员服务

41+阅读 · 2022年8月28日

Jakub Tomczak- 《深度生成建模》讲座报告与视频，84页ppt，Deep Generative Modeling is a key to unlocking AI potential

Jakub Tomczak- 《深度生成建模》讲座报告与视频，84页ppt，Deep Generative Modeling is a key to unlocking AI potential

专知会员服务

61+阅读 · 2022年3月11日

多语言语音识别声学模型建模方法最新进展

多语言语音识别声学模型建模方法最新进展

专知会员服务

36+阅读 · 2022年2月7日

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

专知会员服务

35+阅读 · 2021年7月8日

【博士论文】音乐结构的人工神经网络建模：Modeling Musical Structure with Artificial Neural Networks

【博士论文】音乐结构的人工神经网络建模：Modeling Musical Structure with Artificial Neural Networks

专知会员服务

28+阅读 · 2019年11月26日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

相关资讯

图像去噪的深度学习最新综述论文，36页pdf，Deep Learning on Image Denoising

图像去噪的深度学习最新综述论文，36页pdf，Deep Learning on Image Denoising

专知

19+阅读 · 2020年1月6日

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

云头条

18+阅读 · 2019年4月23日

R语言自然语言处理：文本向量化——词嵌入（Word Embedding）

R语言自然语言处理：文本向量化——词嵌入（Word Embedding）

R语言中文社区

10+阅读 · 2019年4月6日

使用RNN-Transducer进行语音识别建模【附PPT与视频资料】

使用RNN-Transducer进行语音识别建模【附PPT与视频资料】

人工智能前沿讲习班

74+阅读 · 2019年1月29日

ICASSP最佳学生论文：深度对抗声学模型训练框架

ICASSP最佳学生论文：深度对抗声学模型训练框架

专知

14+阅读 · 2018年4月28日

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

中国科学院自动化研究所

13+阅读 · 2018年4月28日

展望：模型驱动的深度学习

展望：模型驱动的深度学习

人工智能学家

12+阅读 · 2018年1月23日

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

全球人工智能

12+阅读 · 2017年12月3日

NLP中自动生产文摘（auto text summarization）

NLP中自动生产文摘（auto text summarization）

机器学习研究会

14+阅读 · 2017年10月10日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

A Neuromorphic Trigger for Efficient Audio Event Detection

Arxiv

0+阅读 · 6月16日

Context-Aware RL for Agentic and Multimodal LLMs

Arxiv

0+阅读 · 6月15日

Spatio-Temporal Audio Language Modeling for Dynamic Sound Sources

Arxiv

0+阅读 · 6月12日

A fully GPU-based workflow for building physics emulators of hypersonic flows

Arxiv

0+阅读 · 6月11日

ANCHOR: Agentic Noise Creation Framework for Human Simulation and Denoising Recommendation

Arxiv

0+阅读 · 6月4日

Physics-Informed Neural Engine Sound Modeling with Differentiable Pulse-Train Synthesis

Arxiv

0+阅读 · 6月2日

Omni-Embed-Audio: Leveraging Multimodal LLMs for Robust Audio-Text Retrieval

Arxiv

0+阅读 · 6月1日

MetaSICL: Adapting Audiroty LLM via Meta Speech In-Context Learning

Arxiv

0+阅读 · 5月26日

Exploring How Audio Effects Alter Emotion with Foundation Models

Arxiv

0+阅读 · 5月21日

Reduced-order Neural Modeling with Differentiable Simulation for High-Detail Tactile Perception

Arxiv

0+阅读 · 5月6日

相关基金

间接优化的高效Monte Carlo声传播研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

听力损失系统双耳声源定位模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

保留时域精细结构的高生物拟真全植入式神经形态人工耳蜗芯片设计

国家自然科学基金

0+阅读 · 2015年12月31日

声场驱动的纳米马达的结构特征及操控技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于实时fMRI解码与脑网络建模的听觉信息认知加工机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于脉冲压缩的磁热声成像新方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

配音演员的声音对广告效果的影响--基于机器学习的声音广告研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员