基于图形硬件的强混响空间加速交互式可听化 (Accelerated Interactive Auralization of Highly Reverberant Spaces using Graphics Hardware) - 专知论文

会员服务 ·

0

交互 · 合成 · 混响 · 系统 · 卷积 ·

Accelerated Interactive Auralization of Highly Reverberant Spaces using Graphics Hardware

翻译：基于图形硬件的强混响空间加速交互式可听化

Hannes Rosseel,Toon van Waterschoot

from arxiv, 9 pages, 6 figures, submitted to Journal of the Audio Engineering Society

Interactive acoustic auralization allows users to explore virtual acoustic environments in real-time, enabling the acoustic recreation of concert hall or Historical Worship Spaces (HWS) that are either no longer accessible, acoustically altered, or impractical to visit. Interactive acoustic synthesis requires real-time convolution of input signals with a set of synthesis filters that model the space-time acoustic response of the space. The acoustics in concert halls and HWS are both characterized by a long reverberation time, resulting in synthesis filters containing many filter taps. As a result, the convolution process can be computationally demanding, introducing significant latency that limits the real-time interactivity of the auralization system. In this paper, the implementation of a real-time multichannel loudspeaker-based auralization system is presented. This system is capable of synthesizing the acoustics of highly reverberant spaces in real-time using GPU-acceleration. A comparison between traditional CPU-based convolution and GPU-accelerated convolution is presented, showing that the latter can achieve real-time performance with significantly lower latency. Additionally, the system integrates acoustic synthesis with acoustic feedback cancellation on the GPU, creating a unified loudspeaker-based auralization framework that minimizes processing latency.

翻译：交互式声学可听化允许用户实时探索虚拟声学环境，实现对音乐厅或历史礼拜空间等声学场景的再现——这些空间或因无法进入、声学特性改变、或实际参观不便而难以体验。交互式声学合成需要对输入信号与一组合成滤波器进行实时卷积，这些滤波器建模了空间的时空声学响应。音乐厅和历史礼拜空间的声学特性均表现为长混响时间，导致合成滤波器包含大量抽头系数。因此，卷积计算可能产生高昂的计算开销，引入显著延迟，从而限制可听化系统的实时交互性。本文提出了一种基于多声道扬声器的实时可听化系统实现方案。该系统利用GPU加速技术，能够实时合成强混响空间的声学特性。通过对比传统CPU卷积与GPU加速卷积的性能，证明后者能以显著降低的延迟实现实时处理。此外，该系统在GPU上集成了声学合成与声学反馈消除功能，构建了一个处理延迟最小化的统一扬声器可听化框架。

0

相关内容

【博士论文】面向真实世界音视联合语音识别的可扩展框架

【博士论文】面向真实世界音视联合语音识别的可扩展框架

专知会员服务

13+阅读 · 2025年12月19日

【普林斯顿博士论文】用于语音的生成式通用模型

【普林斯顿博士论文】用于语音的生成式通用模型

专知会员服务

19+阅读 · 2025年12月3日

交互式生成视频综述

交互式生成视频综述

专知会员服务

10+阅读 · 2025年5月4日

【CVPR2024】PHYSCENE：为体现智能合成的可交互三维场景

【CVPR2024】PHYSCENE：为体现智能合成的可交互三维场景

专知会员服务

19+阅读 · 2024年4月19日

《设计交互式混合现实驾驶舱以增强士兵与车辆的互动》

《设计交互式混合现实驾驶舱以增强士兵与车辆的互动》

专知会员服务

36+阅读 · 2023年11月15日

面向虚实融合的人机交互

面向虚实融合的人机交互

专知会员服务

71+阅读 · 2023年6月25日

多模态人机交互综述

多模态人机交互综述

专知会员服务

150+阅读 · 2022年7月3日

【ICASSP 2022教程】声场估计:最新进展与应用，日本东京大学Shoichi Koyama博士

【ICASSP 2022教程】声场估计:最新进展与应用，日本东京大学Shoichi Koyama博士

专知会员服务

24+阅读 · 2022年6月7日

【Google AI】多模态瓶颈Transformer(MBT):一种新的模态融合模型，Multimodal Bottleneck Transformer (MBT): A New Model for Modality Fusion

【Google AI】多模态瓶颈Transformer(MBT):一种新的模态融合模型，Multimodal Bottleneck Transformer (MBT): A New Model for Modality Fusion

专知会员服务

57+阅读 · 2022年3月20日

基于深度学习的语音合成与转换技术综述

专知会员服务

31+阅读 · 2021年8月16日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

语音情绪识别|声源增强|基频可视化

语音情绪识别|声源增强|基频可视化

深度学习每日摘要

15+阅读 · 2019年5月5日

【数字孪生】数字孪生是制造业实现“智能+”的技术接口

【数字孪生】数字孪生是制造业实现“智能+”的技术接口

产业智能官

35+阅读 · 2019年4月30日

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

云头条

18+阅读 · 2019年4月23日

近期声学领域前沿论文(No. 3)

近期声学领域前沿论文(No. 3)

深度学习每日摘要

24+阅读 · 2019年3月31日

书单 | 语音研究进阶指南

书单 | 语音研究进阶指南

微软研究院AI头条

12+阅读 · 2019年3月22日

使用RNN-Transducer进行语音识别建模【附PPT与视频资料】

使用RNN-Transducer进行语音识别建模【附PPT与视频资料】

人工智能前沿讲习班

74+阅读 · 2019年1月29日

基于Tacotron模型的语音合成实践

基于Tacotron模型的语音合成实践

深度学习每日摘要

15+阅读 · 2018年12月25日

最新人机对话系统简略综述

最新人机对话系统简略综述

专知

26+阅读 · 2018年3月10日

一文看懂深度学习在语音合成&增强上的应用

一文看懂深度学习在语音合成&增强上的应用

数盟

11+阅读 · 2017年9月13日

基于盲双迭代策略的高可靠变速移动水声多用户通信理论和方法

国家自然科学基金

0+阅读 · 2017年12月31日

间接优化的高效Monte Carlo声传播研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于多元数据分析的城市开放空间声景品质景观影响要素提取与评价

国家自然科学基金

0+阅读 · 2015年12月31日

保留时域精细结构的高生物拟真全植入式神经形态人工耳蜗芯片设计

国家自然科学基金

0+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向图形化互联网的建筑空间组合表达与检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于实时fMRI解码与脑网络建模的听觉信息认知加工机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

城市群空间交互情景分析与多尺度协同模拟

国家自然科学基金

0+阅读 · 2014年12月31日

集成化声表面结构固体板的耦合与相互作用特性研究

国家自然科学基金

0+阅读 · 2014年12月31日

HyperPotter: Spell the Charm of High-Order Interactions in Audio Deepfake Detection

Arxiv

0+阅读 · 2月5日

A Semantically Consistent Dataset for Data-Efficient Query-Based Universal Sound Separation

Arxiv

0+阅读 · 1月30日

Auditorily Embodied Conversational Agents: Effects of Spatialization and Situated Audio Cues on Presence and Social Perception

Arxiv

0+阅读 · 1月29日

Evaluating Spatialized Auditory Cues for Rapid Attention Capture in XR

Arxiv

0+阅读 · 1月29日

Physics-Aware Novel-View Acoustic Synthesis with Vision-Language Priors and 3D Acoustic Environment Modeling

Arxiv

0+阅读 · 1月27日

Make the Unhearable Visible: Exploring Visualization for Musical Instrument Practice

Arxiv

0+阅读 · 1月23日

SpatialV2A: Visual-Guided High-fidelity Spatial Audio Generation

Arxiv

0+阅读 · 1月21日

SoundPlot: An Open-Source Framework for Birdsong Acoustic Analysis and Neural Synthesis with Interactive 3D Visualization

Arxiv

0+阅读 · 1月19日

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

Arxiv

0+阅读 · 1月18日

Lightweight Resolution-Aware Audio Deepfake Detection via Cross-Scale Attention and Consistency Learning

Arxiv

0+阅读 · 1月10日

VIP会员

文章信息

相关主题

相关VIP内容

【博士论文】面向真实世界音视联合语音识别的可扩展框架

【博士论文】面向真实世界音视联合语音识别的可扩展框架

专知会员服务

13+阅读 · 2025年12月19日

【普林斯顿博士论文】用于语音的生成式通用模型

【普林斯顿博士论文】用于语音的生成式通用模型

专知会员服务

19+阅读 · 2025年12月3日

交互式生成视频综述

交互式生成视频综述

专知会员服务

10+阅读 · 2025年5月4日

【CVPR2024】PHYSCENE：为体现智能合成的可交互三维场景

【CVPR2024】PHYSCENE：为体现智能合成的可交互三维场景

专知会员服务

19+阅读 · 2024年4月19日

《设计交互式混合现实驾驶舱以增强士兵与车辆的互动》

《设计交互式混合现实驾驶舱以增强士兵与车辆的互动》

专知会员服务

36+阅读 · 2023年11月15日

面向虚实融合的人机交互

面向虚实融合的人机交互

专知会员服务

71+阅读 · 2023年6月25日

多模态人机交互综述

多模态人机交互综述

专知会员服务

150+阅读 · 2022年7月3日

【ICASSP 2022教程】声场估计:最新进展与应用，日本东京大学Shoichi Koyama博士

【ICASSP 2022教程】声场估计:最新进展与应用，日本东京大学Shoichi Koyama博士

专知会员服务

24+阅读 · 2022年6月7日

【Google AI】多模态瓶颈Transformer(MBT):一种新的模态融合模型，Multimodal Bottleneck Transformer (MBT): A New Model for Modality Fusion

【Google AI】多模态瓶颈Transformer(MBT):一种新的模态融合模型，Multimodal Bottleneck Transformer (MBT): A New Model for Modality Fusion

专知会员服务

57+阅读 · 2022年3月20日

基于深度学习的语音合成与转换技术综述

专知会员服务

31+阅读 · 2021年8月16日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】基于自适应表征的高效视觉建模

《多域作战中融合网络、电子战与动能机动》

AI智能体时代大模型安全风险与攻防新挑战

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

相关资讯

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

语音情绪识别|声源增强|基频可视化

语音情绪识别|声源增强|基频可视化

深度学习每日摘要

15+阅读 · 2019年5月5日

【数字孪生】数字孪生是制造业实现“智能+”的技术接口

【数字孪生】数字孪生是制造业实现“智能+”的技术接口

产业智能官

35+阅读 · 2019年4月30日

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

云头条

18+阅读 · 2019年4月23日

近期声学领域前沿论文(No. 3)

近期声学领域前沿论文(No. 3)

深度学习每日摘要

24+阅读 · 2019年3月31日

书单 | 语音研究进阶指南

书单 | 语音研究进阶指南

微软研究院AI头条

12+阅读 · 2019年3月22日

使用RNN-Transducer进行语音识别建模【附PPT与视频资料】

使用RNN-Transducer进行语音识别建模【附PPT与视频资料】

人工智能前沿讲习班

74+阅读 · 2019年1月29日

基于Tacotron模型的语音合成实践

基于Tacotron模型的语音合成实践

深度学习每日摘要

15+阅读 · 2018年12月25日

最新人机对话系统简略综述

最新人机对话系统简略综述

专知

26+阅读 · 2018年3月10日

一文看懂深度学习在语音合成&增强上的应用

一文看懂深度学习在语音合成&增强上的应用

数盟

11+阅读 · 2017年9月13日

相关论文

HyperPotter: Spell the Charm of High-Order Interactions in Audio Deepfake Detection

Arxiv

0+阅读 · 2月5日

A Semantically Consistent Dataset for Data-Efficient Query-Based Universal Sound Separation

Arxiv

0+阅读 · 1月30日

Auditorily Embodied Conversational Agents: Effects of Spatialization and Situated Audio Cues on Presence and Social Perception

Arxiv

0+阅读 · 1月29日

Evaluating Spatialized Auditory Cues for Rapid Attention Capture in XR

Arxiv

0+阅读 · 1月29日

Physics-Aware Novel-View Acoustic Synthesis with Vision-Language Priors and 3D Acoustic Environment Modeling

Arxiv

0+阅读 · 1月27日

Make the Unhearable Visible: Exploring Visualization for Musical Instrument Practice

Arxiv

0+阅读 · 1月23日

SpatialV2A: Visual-Guided High-fidelity Spatial Audio Generation

Arxiv

0+阅读 · 1月21日

SoundPlot: An Open-Source Framework for Birdsong Acoustic Analysis and Neural Synthesis with Interactive 3D Visualization

Arxiv

0+阅读 · 1月19日

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

Arxiv

0+阅读 · 1月18日

Lightweight Resolution-Aware Audio Deepfake Detection via Cross-Scale Attention and Consistency Learning

Arxiv

0+阅读 · 1月10日

相关基金

基于盲双迭代策略的高可靠变速移动水声多用户通信理论和方法

国家自然科学基金

0+阅读 · 2017年12月31日

间接优化的高效Monte Carlo声传播研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于多元数据分析的城市开放空间声景品质景观影响要素提取与评价

国家自然科学基金

0+阅读 · 2015年12月31日

保留时域精细结构的高生物拟真全植入式神经形态人工耳蜗芯片设计

国家自然科学基金

0+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向图形化互联网的建筑空间组合表达与检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于实时fMRI解码与脑网络建模的听觉信息认知加工机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

城市群空间交互情景分析与多尺度协同模拟

国家自然科学基金

0+阅读 · 2014年12月31日

集成化声表面结构固体板的耦合与相互作用特性研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员