DTT-BSR: GAN-based DTTNet with RoPE Transformer Enhancement for Music Source Restoration - 专知论文

会员服务 ·

0

GaN · 音乐 · MSR · 混合 · Transformer ·

DTT-BSR: GAN-based DTTNet with RoPE Transformer Enhancement for Music Source Restoration

翻译：DTT-BSR：基于GAN的DTTNet结合RoPE Transformer增强的音乐源修复方法

Shihong Tan,Haoyu Wang,Youran Ni,Yingzhao Hou,Jiayue Luo,Zipei Hu,Han Dou,Zerui Han,Ningning Pan,Yuzhu Wang,Gongping Huang

Music source restoration (MSR) aims to recover unprocessed stems from mixed and mastered recordings. The challenge lies in both separating overlapping sources and reconstructing signals degraded by production effects such as compression and reverberation. We therefore propose DTT-BSR, a hybrid generative adversarial network (GAN) combining rotary positional embeddings (RoPE) transformer for long-term temporal modeling with dual-path band-split recurrent neural network (RNN) for multi-resolution spectral processing. Our model achieved 3rd place on the objective leaderboard and 4th place on the subjective leaderboard on the ICASSP 2026 MSR Challenge, demonstrating exceptional generation fidelity and semantic alignment with a compact size of 7.1M parameters.

翻译：音乐源修复（MSR）旨在从混合及母带处理后的录音中恢复未经处理的音轨。其挑战在于既要分离重叠的声源，又要重建因压缩、混响等制作效果而退化的信号。为此，我们提出DTT-BSR，一种混合生成对抗网络（GAN），它结合了用于长时域建模的旋转位置编码（RoPE）Transformer与用于多分辨率频谱处理的双路径频带分割循环神经网络（RNN）。我们的模型在ICASSP 2026 MSR挑战赛的客观排行榜上获得第3名，在主观排行榜上获得第4名，在仅7.1M参数的紧凑规模下，展现了卓越的生成保真度与语义对齐能力。

0

相关内容

GaN

【博士论文】面向真实世界音视联合语音识别的可扩展框架

【博士论文】面向真实世界音视联合语音识别的可扩展框架

专知会员服务

13+阅读 · 2025年12月19日

【ETHZ博士论文】超越像素深度：通过深度学习增强超分辨率技术，198页pdf

【ETHZ博士论文】超越像素深度：通过深度学习增强超分辨率技术，198页pdf

专知会员服务

25+阅读 · 2024年11月21日

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

专知会员服务

17+阅读 · 2024年11月20日

Mix数据增强怎么做？香港城市大学最新《混合数据增强》综述，全面阐述MixDA方法、应用与可解释性

Mix数据增强怎么做？香港城市大学最新《混合数据增强》综述，全面阐述MixDA方法、应用与可解释性

专知会员服务

30+阅读 · 2022年12月29日

南京大学等最新《深度人脸恢复》综述论文，21页pdf全面阐述深度学习人脸恢复去噪、超分辨率、去模糊、去除伪影方法

南京大学等最新《深度人脸恢复》综述论文，21页pdf全面阐述深度学习人脸恢复去噪、超分辨率、去模糊、去除伪影方法

专知会员服务

15+阅读 · 2022年11月21日

最新《生成式对抗网络GAN逆转》综述论文，22页pdf

最新《生成式对抗网络GAN逆转》综述论文，22页pdf

专知会员服务

40+阅读 · 2021年1月19日

密歇根大学28页最新《GANs生成式对抗网络综述：算法、理论与应用》最新论文，带你全面了解GAN技术趋势

密歇根大学28页最新《GANs生成式对抗网络综述：算法、理论与应用》最新论文，带你全面了解GAN技术趋势

专知会员服务

105+阅读 · 2020年2月17日

【GAN】生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

【GAN】生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

专知会员服务

115+阅读 · 2019年11月26日

【博士论文】音乐结构的人工神经网络建模：Modeling Musical Structure with Artificial Neural Networks

【博士论文】音乐结构的人工神经网络建模：Modeling Musical Structure with Artificial Neural Networks

专知会员服务

28+阅读 · 2019年11月26日

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

专知会员服务

23+阅读 · 2019年11月4日

完整版！《GAN实战：生成对抗网络深度学习》在线书与代码，牛津大学Jakub著作 (附下载)

完整版！《GAN实战：生成对抗网络深度学习》在线书与代码，牛津大学Jakub著作 (附下载)

专知

26+阅读 · 2019年12月25日

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师

GAN生成式对抗网络

34+阅读 · 2019年9月23日

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

专知

26+阅读 · 2019年9月21日

用于语音识别的数据增强

用于语音识别的数据增强

AI研习社

24+阅读 · 2019年6月5日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

最新《生成式对抗网络GAN进展》论文

最新《生成式对抗网络GAN进展》论文

专知

95+阅读 · 2019年4月5日

干货 | Github项目推荐： GANSynth: 用GANs创作音乐

干货 | Github项目推荐： GANSynth: 用GANs创作音乐

AI科技评论

10+阅读 · 2019年3月2日

ESRGAN：基于GAN的增强超分辨率方法（附代码解析）

ESRGAN：基于GAN的增强超分辨率方法（附代码解析）

PaperWeekly

18+阅读 · 2019年1月18日

【GAN货】用神经网络生成音乐

【GAN货】用神经网络生成音乐

专知

13+阅读 · 2018年9月15日

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

全球人工智能

12+阅读 · 2017年12月3日

多样化电磁频谱资源的复用机理及生态研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于有源内腔的复合镀膜式光纤SPR生物传感技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

听力损失系统双耳声源定位模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

用于音频子系统的自适应动态电源放大器新结构及其噪声抑制机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于时域近场声全息的旋转机械非稳态声场重构与故障诊断方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于波内频率调制的音色模型研究以及在单通道音源分离中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于多普勒调制复合字典匹配分解与重构的列车轴承声信号调理研究

国家自然科学基金

0+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

双微阵列语音增强与定位方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

Diffusion Reconstruction towards Generalizable Audio Deepfake Detection

Arxiv

0+阅读 · 4月29日

AudioMoG: Guiding Audio Generation with Mixture-of-Guidance

Arxiv

0+阅读 · 4月9日

Physics-Informed Transformer for Multi-Band Channel Frequency Response Reconstruction

Arxiv

0+阅读 · 4月2日

DuoTok: Source-Aware Dual-Track Tokenization for Multi-Track Music Language Modeling

Arxiv

0+阅读 · 4月1日

Enhancing Efficiency and Performance in Deepfake Audio Detection through Neuron-level Dropin & Neuroplasticity Mechanisms

Arxiv

0+阅读 · 3月26日

YingMusic-Singer: Controllable Singing Voice Synthesis with Flexible Lyric Manipulation and Annotation-free Melody Guidance

Arxiv

0+阅读 · 3月25日

RouteNet-Gauss: Hardware-Enhanced Network Modeling with Machine Learning

Arxiv

0+阅读 · 3月12日

Multi-Stage Music Source Restoration with BandSplit-RoFormer Separation and HiFi++ GAN

Arxiv

0+阅读 · 3月4日

Depth-Structured Music Recurrence: Budgeted Recurrent Attention for Full-Piece Symbolic Music Modeling

Arxiv

0+阅读 · 2月23日

JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization

Arxiv

0+阅读 · 2月22日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

2+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

4+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

7+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

4+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

6+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

5+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

3+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

8+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

6+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

9+阅读 · 6月22日

相关VIP内容

【博士论文】面向真实世界音视联合语音识别的可扩展框架

【博士论文】面向真实世界音视联合语音识别的可扩展框架

专知会员服务

13+阅读 · 2025年12月19日

【ETHZ博士论文】超越像素深度：通过深度学习增强超分辨率技术，198页pdf

【ETHZ博士论文】超越像素深度：通过深度学习增强超分辨率技术，198页pdf

专知会员服务

25+阅读 · 2024年11月21日

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

专知会员服务

17+阅读 · 2024年11月20日

Mix数据增强怎么做？香港城市大学最新《混合数据增强》综述，全面阐述MixDA方法、应用与可解释性

Mix数据增强怎么做？香港城市大学最新《混合数据增强》综述，全面阐述MixDA方法、应用与可解释性

专知会员服务

30+阅读 · 2022年12月29日

南京大学等最新《深度人脸恢复》综述论文，21页pdf全面阐述深度学习人脸恢复去噪、超分辨率、去模糊、去除伪影方法

南京大学等最新《深度人脸恢复》综述论文，21页pdf全面阐述深度学习人脸恢复去噪、超分辨率、去模糊、去除伪影方法

专知会员服务

15+阅读 · 2022年11月21日

最新《生成式对抗网络GAN逆转》综述论文，22页pdf

最新《生成式对抗网络GAN逆转》综述论文，22页pdf

专知会员服务

40+阅读 · 2021年1月19日

密歇根大学28页最新《GANs生成式对抗网络综述：算法、理论与应用》最新论文，带你全面了解GAN技术趋势

密歇根大学28页最新《GANs生成式对抗网络综述：算法、理论与应用》最新论文，带你全面了解GAN技术趋势

专知会员服务

105+阅读 · 2020年2月17日

【GAN】生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

【GAN】生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

专知会员服务

115+阅读 · 2019年11月26日

【博士论文】音乐结构的人工神经网络建模：Modeling Musical Structure with Artificial Neural Networks

【博士论文】音乐结构的人工神经网络建模：Modeling Musical Structure with Artificial Neural Networks

专知会员服务

28+阅读 · 2019年11月26日

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

【ISMIR 2019】Generating Music with GANs: An Overview and Case Studies(GANs生成音乐：概述和案例研究)，中国科学院 Yi-Hsuan Yang

专知会员服务

23+阅读 · 2019年11月4日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

完整版！《GAN实战：生成对抗网络深度学习》在线书与代码，牛津大学Jakub著作 (附下载)

完整版！《GAN实战：生成对抗网络深度学习》在线书与代码，牛津大学Jakub著作 (附下载)

专知

26+阅读 · 2019年12月25日

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师

GAN生成式对抗网络

34+阅读 · 2019年9月23日

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

专知

26+阅读 · 2019年9月21日

用于语音识别的数据增强

用于语音识别的数据增强

AI研习社

24+阅读 · 2019年6月5日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

最新《生成式对抗网络GAN进展》论文

最新《生成式对抗网络GAN进展》论文

专知

95+阅读 · 2019年4月5日

干货 | Github项目推荐： GANSynth: 用GANs创作音乐

干货 | Github项目推荐： GANSynth: 用GANs创作音乐

AI科技评论

10+阅读 · 2019年3月2日

ESRGAN：基于GAN的增强超分辨率方法（附代码解析）

ESRGAN：基于GAN的增强超分辨率方法（附代码解析）

PaperWeekly

18+阅读 · 2019年1月18日

【GAN货】用神经网络生成音乐

【GAN货】用神经网络生成音乐

专知

13+阅读 · 2018年9月15日

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

全球人工智能

12+阅读 · 2017年12月3日

相关论文

Diffusion Reconstruction towards Generalizable Audio Deepfake Detection

Arxiv

0+阅读 · 4月29日

AudioMoG: Guiding Audio Generation with Mixture-of-Guidance

Arxiv

0+阅读 · 4月9日

Physics-Informed Transformer for Multi-Band Channel Frequency Response Reconstruction

Arxiv

0+阅读 · 4月2日

DuoTok: Source-Aware Dual-Track Tokenization for Multi-Track Music Language Modeling

Arxiv

0+阅读 · 4月1日

Enhancing Efficiency and Performance in Deepfake Audio Detection through Neuron-level Dropin & Neuroplasticity Mechanisms

Arxiv

0+阅读 · 3月26日

YingMusic-Singer: Controllable Singing Voice Synthesis with Flexible Lyric Manipulation and Annotation-free Melody Guidance

Arxiv

0+阅读 · 3月25日

RouteNet-Gauss: Hardware-Enhanced Network Modeling with Machine Learning

Arxiv

0+阅读 · 3月12日

Multi-Stage Music Source Restoration with BandSplit-RoFormer Separation and HiFi++ GAN

Arxiv

0+阅读 · 3月4日

Depth-Structured Music Recurrence: Budgeted Recurrent Attention for Full-Piece Symbolic Music Modeling

Arxiv

0+阅读 · 2月23日

JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization

Arxiv

0+阅读 · 2月22日

相关基金

多样化电磁频谱资源的复用机理及生态研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于有源内腔的复合镀膜式光纤SPR生物传感技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

听力损失系统双耳声源定位模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

用于音频子系统的自适应动态电源放大器新结构及其噪声抑制机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于时域近场声全息的旋转机械非稳态声场重构与故障诊断方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于波内频率调制的音色模型研究以及在单通道音源分离中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于多普勒调制复合字典匹配分解与重构的列车轴承声信号调理研究

国家自然科学基金

0+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

双微阵列语音增强与定位方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员