RIR-Former: Coordinate-Guided Transformer for Continuous Reconstruction of Room Impulse Responses - 专知论文

会员服务 ·

0

阵列 · 脉冲 · 变换 · 声学信号处理 · 网格 ·

RIR-Former: Coordinate-Guided Transformer for Continuous Reconstruction of Room Impulse Responses

翻译：RIR-Former：用于房间脉冲响应连续重构的坐标引导Transformer

Shaoheng Xu,Chunyi Sun, Jihui, Zhang,Prasanga N. Samarasinghe,Thushara D. Abhayapala

from arxiv, Accepted to International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2026. Equal contribution: Shaoheng Xu and Chunyi Sun

Room impulse responses (RIRs) are essential for many acoustic signal processing tasks, yet measuring them densely across space is often impractical. In this work, we propose RIR-Former, a grid-free, one-step feed-forward model for RIR reconstruction. By introducing a sinusoidal encoding module into a transformer backbone, our method effectively incorporates microphone position information, enabling interpolation at arbitrary array locations. Furthermore, a segmented multi-branch decoder is designed to separately handle early reflections and late reverberation, improving reconstruction across the entire RIR. Experiments on diverse simulated acoustic environments demonstrate that RIR-Former consistently outperforms state-of-the-art baselines in terms of normalized mean square error (NMSE) and cosine distance (CD), under varying missing rates and array configurations. These results highlight the potential of our approach for practical deployment and motivate future work on scaling from randomly spaced linear arrays to complex array geometries, dynamic acoustic scenes, and real-world environments.

翻译：房间脉冲响应（RIRs）对许多声学信号处理任务至关重要，但在空间上密集测量它们通常不切实际。本研究提出RIR-Former，一种用于RIR重构的无网格、一步式前馈模型。通过将正弦编码模块引入Transformer主干网络，我们的方法有效地融合了麦克风位置信息，从而能够在任意阵列位置进行插值。此外，设计了一种分段多分支解码器，分别处理早期反射和后期混响，以提升整个RIR的重构效果。在不同模拟声学环境下的实验表明，在变化的数据缺失率和阵列配置下，RIR-Former在归一化均方误差（NMSE）和余弦距离（CD）方面均持续优于现有先进基线方法。这些结果凸显了该方法在实际部署中的潜力，并为未来研究指明了方向：从随机间距的线性阵列扩展到复杂阵列几何结构、动态声学场景及真实世界环境。

0

相关内容

非Transformer不可？最新《状态空间模型（SSM）》综述

非Transformer不可？最新《状态空间模型（SSM）》综述

专知会员服务

75+阅读 · 2024年4月16日

《可重构智能表面 (RIS)：下一代一体化传感与通信的关键？》

《可重构智能表面 (RIS)：下一代一体化传感与通信的关键？》

专知会员服务

34+阅读 · 2024年3月14日

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

专知会员服务

40+阅读 · 2023年9月27日

大模型如何重塑推荐？香港理工大学等《大型语言模型（LLMs）时代的推荐系统》综述论文，全面阐述LLM+RS技术体系

大模型如何重塑推荐？香港理工大学等《大型语言模型（LLMs）时代的推荐系统》综述论文，全面阐述LLM+RS技术体系

专知会员服务

74+阅读 · 2023年9月3日

Meta-Transformer：多模态学习的统一框架

Meta-Transformer：多模态学习的统一框架

专知会员服务

59+阅读 · 2023年7月21日

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

专知会员服务

61+阅读 · 2023年7月16日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

专知会员服务

124+阅读 · 2022年6月15日

【Google】最新《高效Transformers》综述大全，Efficient Transformers: A Survey

【Google】最新《高效Transformers》综述大全，Efficient Transformers: A Survey

专知会员服务

113+阅读 · 2020年9月17日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

71+阅读 · 2020年1月17日

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

专知

20+阅读 · 2020年3月1日

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

【论文笔记和代码梳理】RippleNet：基于知识图谱的用户偏好传播

【论文笔记和代码梳理】RippleNet：基于知识图谱的用户偏好传播

专知

42+阅读 · 2019年4月9日

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

新智元

11+阅读 · 2019年1月12日

基于R语言进行Box-Cox变换

基于R语言进行Box-Cox变换

R语言中文社区

45+阅读 · 2018年11月19日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

用于毫米波无线通讯应用的高能效模数转换器

国家自然科学基金

0+阅读 · 2016年12月31日

基于时频变换的奈奎斯特时分复用系统时钟提取与解复用关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于相空间挤压策略的空间信号时频分析与参数估计方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

三维谐振腔Transmon中的量子门操控和量子模拟

国家自然科学基金

0+阅读 · 2015年12月31日

正脉冲切换系统的正性和稳定性

国家自然科学基金

0+阅读 · 2015年12月31日

可控源时间域电磁响应三维正演数值模拟研究

国家自然科学基金

0+阅读 · 2015年12月31日

线性调频信号激励双稳系统的随机共振理论研究

国家自然科学基金

0+阅读 · 2015年12月31日

脉冲星计时阵列中连续引力波探测和估计的研究

国家自然科学基金

0+阅读 · 2015年12月31日

变指数模化空间的特征及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

传感器网络能量有效空中重编程协议研究

国家自然科学基金

1+阅读 · 2014年12月31日

Roomify: Spatially-Grounded Style Transformation for Immersive Virtual Environments

Arxiv

0+阅读 · 3月5日

RL-RIG: A Generative Spatial Reasoner via Intrinsic Reflection

Arxiv

0+阅读 · 2月23日

Acoustivision Pro: An Open-Source Interactive Platform for Room Impulse Response Analysis and Acoustic Characterization

Arxiv

0+阅读 · 2月11日

SpikySpace: A Spiking State Space Model for Energy-Efficient Time Series Forecasting

Arxiv

0+阅读 · 2月10日

Gencho: Room Impulse Response Generation from Reverberant Speech and Text via Diffusion Transformers

Arxiv

0+阅读 · 2月9日

NeuroScaler: Towards Energy-Optimal Autoscaling for Container-Based Services

Arxiv

0+阅读 · 2月9日

GeoResponder: Towards Building Geospatial LLMs for Time-Critical Disaster Response

Arxiv

0+阅读 · 2月3日

RLAnything: Forge Environment, Policy, and Reward Model in Completely Dynamic RL System

Arxiv

0+阅读 · 2月2日

Matterhorn: Efficient Analog Sparse Spiking Transformer Architecture with Masked Time-To-First-Spike Encoding

Arxiv

0+阅读 · 1月30日

FAIRFORMER: A transformer architecture for discrete fair division

Arxiv

0+阅读 · 1月29日

VIP会员

文章信息

相关主题

声学信号处理

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

0+阅读 · 14分钟前

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

0+阅读 · 16分钟前

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

1+阅读 · 28分钟前

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

1+阅读 · 39分钟前

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

1+阅读 · 48分钟前

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

1+阅读 · 52分钟前

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

1+阅读 · 56分钟前

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

1+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

6+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

非Transformer不可？最新《状态空间模型（SSM）》综述

非Transformer不可？最新《状态空间模型（SSM）》综述

专知会员服务

75+阅读 · 2024年4月16日

《可重构智能表面 (RIS)：下一代一体化传感与通信的关键？》

《可重构智能表面 (RIS)：下一代一体化传感与通信的关键？》

专知会员服务

34+阅读 · 2024年3月14日

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

专知会员服务

40+阅读 · 2023年9月27日

大模型如何重塑推荐？香港理工大学等《大型语言模型（LLMs）时代的推荐系统》综述论文，全面阐述LLM+RS技术体系

大模型如何重塑推荐？香港理工大学等《大型语言模型（LLMs）时代的推荐系统》综述论文，全面阐述LLM+RS技术体系

专知会员服务

74+阅读 · 2023年9月3日

Meta-Transformer：多模态学习的统一框架

Meta-Transformer：多模态学习的统一框架

专知会员服务

59+阅读 · 2023年7月21日

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

专知会员服务

61+阅读 · 2023年7月16日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

专知会员服务

124+阅读 · 2022年6月15日

【Google】最新《高效Transformers》综述大全，Efficient Transformers: A Survey

【Google】最新《高效Transformers》综述大全，Efficient Transformers: A Survey

专知会员服务

113+阅读 · 2020年9月17日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

71+阅读 · 2020年1月17日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

专知

20+阅读 · 2020年3月1日

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

【论文笔记和代码梳理】RippleNet：基于知识图谱的用户偏好传播

【论文笔记和代码梳理】RippleNet：基于知识图谱的用户偏好传播

专知

42+阅读 · 2019年4月9日

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

新智元

11+阅读 · 2019年1月12日

基于R语言进行Box-Cox变换

基于R语言进行Box-Cox变换

R语言中文社区

45+阅读 · 2018年11月19日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

相关论文

Roomify: Spatially-Grounded Style Transformation for Immersive Virtual Environments

Arxiv

0+阅读 · 3月5日

RL-RIG: A Generative Spatial Reasoner via Intrinsic Reflection

Arxiv

0+阅读 · 2月23日

Acoustivision Pro: An Open-Source Interactive Platform for Room Impulse Response Analysis and Acoustic Characterization

Arxiv

0+阅读 · 2月11日

SpikySpace: A Spiking State Space Model for Energy-Efficient Time Series Forecasting

Arxiv

0+阅读 · 2月10日

Gencho: Room Impulse Response Generation from Reverberant Speech and Text via Diffusion Transformers

Arxiv

0+阅读 · 2月9日

NeuroScaler: Towards Energy-Optimal Autoscaling for Container-Based Services

Arxiv

0+阅读 · 2月9日

GeoResponder: Towards Building Geospatial LLMs for Time-Critical Disaster Response

Arxiv

0+阅读 · 2月3日

RLAnything: Forge Environment, Policy, and Reward Model in Completely Dynamic RL System

Arxiv

0+阅读 · 2月2日

Matterhorn: Efficient Analog Sparse Spiking Transformer Architecture with Masked Time-To-First-Spike Encoding

Arxiv

0+阅读 · 1月30日

FAIRFORMER: A transformer architecture for discrete fair division

Arxiv

0+阅读 · 1月29日

相关基金

用于毫米波无线通讯应用的高能效模数转换器

国家自然科学基金

0+阅读 · 2016年12月31日

基于时频变换的奈奎斯特时分复用系统时钟提取与解复用关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于相空间挤压策略的空间信号时频分析与参数估计方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

三维谐振腔Transmon中的量子门操控和量子模拟

国家自然科学基金

0+阅读 · 2015年12月31日

正脉冲切换系统的正性和稳定性

国家自然科学基金

0+阅读 · 2015年12月31日

可控源时间域电磁响应三维正演数值模拟研究

国家自然科学基金

0+阅读 · 2015年12月31日

线性调频信号激励双稳系统的随机共振理论研究

国家自然科学基金

0+阅读 · 2015年12月31日

脉冲星计时阵列中连续引力波探测和估计的研究

国家自然科学基金

0+阅读 · 2015年12月31日

变指数模化空间的特征及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

传感器网络能量有效空中重编程协议研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员