Prosody-Guided Harmonic Attention for Phase-Coherent Neural Vocoding in the Complex Spectrum - 专知论文

会员服务 ·

0

频谱 · 相位 · 谐波 · 相位一致 · 一致 ·

Prosody-Guided Harmonic Attention for Phase-Coherent Neural Vocoding in the Complex Spectrum

翻译：基于韵律引导的谐波注意力在复频谱中的相位一致性神经声码器

Mohammed Salah Al-Radhi,Riad Larbi,Mátyás Bartalis,Géza Németh

from arxiv, 5 pages, 2 figures, 1 table. Accepted for presentation at ICASSP 2026

Neural vocoders are central to speech synthesis; despite their success, most still suffer from limited prosody modeling and inaccurate phase reconstruction. We propose a vocoder that introduces prosody-guided harmonic attention to enhance voiced segment encoding and directly predicts complex spectral components for waveform synthesis via inverse STFT. Unlike mel-spectrogram-based approaches, our design jointly models magnitude and phase, ensuring phase coherence and improved pitch fidelity. To further align with perceptual quality, we adopt a multi-objective training strategy that integrates adversarial, spectral, and phase-aware losses. Experiments on benchmark datasets demonstrate consistent gains over HiFi-GAN and AutoVocoder: F0 RMSE reduced by 22 percent, voiced/unvoiced error lowered by 18 percent, and MOS scores improved by 0.15. These results show that prosody-guided attention combined with direct complex spectrum modeling yields more natural, pitch-accurate, and robust synthetic speech, setting a strong foundation for expressive neural vocoding.

翻译：神经声码器是语音合成的核心；尽管已取得显著进展，但大多数现有方法仍面临韵律建模能力有限和相位重建不准确的问题。本文提出一种声码器，通过引入韵律引导的谐波注意力来增强浊音段编码，并直接预测复频谱分量以通过逆短时傅里叶变换合成波形。与基于梅尔频谱图的方法不同，我们的设计联合建模幅度和相位，确保相位一致性并提升基频保真度。为进一步契合感知质量，我们采用集成对抗损失、频谱损失和相位感知损失的多目标训练策略。在基准数据集上的实验表明，本方法相较于HiFi-GAN和AutoVocoder取得持续提升：基频均方根误差降低22%，清浊音错误率减少18%，平均意见分提高0.15。这些结果表明，韵律引导注意力与直接复频谱建模相结合，能够生成更自然、基频更准确且更鲁棒的合成语音，为富有表现力的神经声码器奠定了坚实基础。

0

相关内容

【CVPR2025】STAA-SNN：用于脉冲神经网络的时空注意力聚合器

【CVPR2025】STAA-SNN：用于脉冲神经网络的时空注意力聚合器

专知会员服务

10+阅读 · 2025年3月5日

【2023新书】神经文本到语音合成，214页pdf

【2023新书】神经文本到语音合成，214页pdf

专知会员服务

39+阅读 · 2023年6月9日

【CVPR2023】面向不同视频的可扩展神经表示，

【CVPR2023】面向不同视频的可扩展神经表示，

专知会员服务

20+阅读 · 2023年3月28日

《神经语音合成》最新报告，微软亚研谭旭和台大李宏毅老师INTERSPEECH最新教程！96页ppt

《神经语音合成》最新报告，微软亚研谭旭和台大李宏毅老师INTERSPEECH最新教程！96页ppt

专知会员服务

41+阅读 · 2022年9月19日

【MIT博士论文】自监督学习语音处理，148页pdf

【MIT博士论文】自监督学习语音处理，148页pdf

专知会员服务

53+阅读 · 2022年8月31日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

【NeurIPS2021】NeRV:视频的神经表示

【NeurIPS2021】NeRV:视频的神经表示

专知会员服务

12+阅读 · 2021年10月28日

微软《神经语音合成》综述论文，63页pdf530篇文献

微软《神经语音合成》综述论文，63页pdf530篇文献

专知会员服务

30+阅读 · 2021年7月3日

【NeurIPS 2020】用人眼注视引导的神经注意力提升自然语言处理任务

【NeurIPS 2020】用人眼注视引导的神经注意力提升自然语言处理任务

专知会员服务

16+阅读 · 2020年10月17日

【Science论文】基于波的物理现象作为一种模拟递归神经网络（Wave physics as an analog recurrent neural network）

【Science论文】基于波的物理现象作为一种模拟递归神经网络（Wave physics as an analog recurrent neural network）

专知会员服务

12+阅读 · 2020年1月3日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

专知

24+阅读 · 2020年1月12日

注意力机制可解释吗？这篇ACL 2019论文说……

注意力机制可解释吗？这篇ACL 2019论文说……

机器之心

11+阅读 · 2019年6月16日

【干货】33页最新《自然语言处理中神经注意力机制综述》论文

【干货】33页最新《自然语言处理中神经注意力机制综述》论文

专知

31+阅读 · 2019年2月10日

语音识别的前沿论文，看我们推荐的这4篇

语音识别的前沿论文，看我们推荐的这4篇

人工智能前沿讲习班

26+阅读 · 2019年1月14日

学界 | 现实版柯南「蝴蝶结变声器」：谷歌发布从声纹识别到多重声线语音合成的迁移学习

学界 | 现实版柯南「蝴蝶结变声器」：谷歌发布从声纹识别到多重声线语音合成的迁移学习

机器之心

11+阅读 · 2018年6月24日

Ian Goodfellow等提出自注意力GAN，ImageNet图像合成获最优结果！

Ian Goodfellow等提出自注意力GAN，ImageNet图像合成获最优结果！

新智元

11+阅读 · 2018年5月24日

【干货】基于注意力机制的神经匹配模型用于短文本检索

【干货】基于注意力机制的神经匹配模型用于短文本检索

专知

11+阅读 · 2018年1月11日

深度学习中的注意力机制

深度学习中的注意力机制

人工智能头条

16+阅读 · 2017年11月2日

学界 | 对比对齐模型：神经机器翻译中的注意力到底在注意什么

学界 | 对比对齐模型：神经机器翻译中的注意力到底在注意什么

机器之心

10+阅读 · 2017年10月15日

基于晶体力-频传感特性的高性能温度补偿泛音晶体振荡器的基础研究

国家自然科学基金

0+阅读 · 2015年12月31日

同轴相对论返波振荡器跨波段调频机理和实现方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

保留时域精细结构的高生物拟真全植入式神经形态人工耳蜗芯片设计

国家自然科学基金

0+阅读 · 2015年12月31日

电磁二维可重构带通滤波器研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于声光调制的百MHz级光电探测器频响校准研究

国家自然科学基金

0+阅读 · 2015年12月31日

微波谐振单元的多频耦合调控机理及其应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

有噪声纠缠比特的纠缠辅助量子纠错码研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向多频段射频信号光子辅助处理的光电振荡器关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于柔性衬底的石墨烯高频纳机电谐振器研究

国家自然科学基金

0+阅读 · 2014年12月31日

How to Label Resynthesized Audio: The Dual Role of Neural Audio Codecs in Audio Deepfake Detection

Arxiv

0+阅读 · 2月18日

A Generative-First Neural Audio Autoencoder

Arxiv

0+阅读 · 2月17日

The Equalizer: Introducing Shape-Gain Decomposition in Neural Audio Codecs

Arxiv

0+阅读 · 2月17日

HiFi-Glot: High-Fidelity Neural Formant Synthesis with Differentiable Resonant Filters

Arxiv

0+阅读 · 2月16日

Wave-Trainer-Fit: Neural Vocoder with Trainable Prior and Fixed-Point Iteration towards High-Quality Speech Generation from SSL features

Arxiv

0+阅读 · 2月5日

UniverSR: Unified and Versatile Audio Super-Resolution via Vocoder-Free Flow Matching

Arxiv

0+阅读 · 2月5日

AlignAtt: Using Attention-based Audio-Translation Alignments as a Guide for Simultaneous Speech Translation

Arxiv

0+阅读 · 2月3日

CodecSlime: Temporal Redundancy Compression of Neural Speech Codec via Dynamic Frame Rate

Arxiv

0+阅读 · 2月3日

ParaGSE: Parallel Generative Speech Enhancement with Group-Vector-Quantization-based Neural Speech Codec

Arxiv

0+阅读 · 2月2日

SoundPlot: An Open-Source Framework for Birdsong Acoustic Analysis and Neural Synthesis with Interactive 3D Visualization

Arxiv

0+阅读 · 1月19日

VIP会员

文章信息

相关主题

最新内容

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

3+阅读 · 今天8:10

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

5+阅读 · 今天8:06

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

3+阅读 · 今天8:02

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

2+阅读 · 今天7:32

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

10+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

7+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

5+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

3+阅读 · 4月20日

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

专知会员服务

7+阅读 · 4月20日

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

3+阅读 · 4月20日

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

3+阅读 · 4月20日

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

7+阅读 · 4月20日

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

6+阅读 · 4月20日

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

10+阅读 · 4月20日

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

5+阅读 · 4月20日

相关VIP内容

【CVPR2025】STAA-SNN：用于脉冲神经网络的时空注意力聚合器

【CVPR2025】STAA-SNN：用于脉冲神经网络的时空注意力聚合器

专知会员服务

10+阅读 · 2025年3月5日

【2023新书】神经文本到语音合成，214页pdf

【2023新书】神经文本到语音合成，214页pdf

专知会员服务

39+阅读 · 2023年6月9日

【CVPR2023】面向不同视频的可扩展神经表示，

【CVPR2023】面向不同视频的可扩展神经表示，

专知会员服务

20+阅读 · 2023年3月28日

《神经语音合成》最新报告，微软亚研谭旭和台大李宏毅老师INTERSPEECH最新教程！96页ppt

《神经语音合成》最新报告，微软亚研谭旭和台大李宏毅老师INTERSPEECH最新教程！96页ppt

专知会员服务

41+阅读 · 2022年9月19日

【MIT博士论文】自监督学习语音处理，148页pdf

【MIT博士论文】自监督学习语音处理，148页pdf

专知会员服务

53+阅读 · 2022年8月31日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

【NeurIPS2021】NeRV:视频的神经表示

【NeurIPS2021】NeRV:视频的神经表示

专知会员服务

12+阅读 · 2021年10月28日

微软《神经语音合成》综述论文，63页pdf530篇文献

微软《神经语音合成》综述论文，63页pdf530篇文献

专知会员服务

30+阅读 · 2021年7月3日

【NeurIPS 2020】用人眼注视引导的神经注意力提升自然语言处理任务

【NeurIPS 2020】用人眼注视引导的神经注意力提升自然语言处理任务

专知会员服务

16+阅读 · 2020年10月17日

【Science论文】基于波的物理现象作为一种模拟递归神经网络（Wave physics as an analog recurrent neural network）

【Science论文】基于波的物理现象作为一种模拟递归神经网络（Wave physics as an analog recurrent neural network）

专知会员服务

12+阅读 · 2020年1月3日

热门VIP内容

开通专知VIP会员享更多权益服务

《提升美军全域城市作战训练最佳实践的案例研究》366页

美海军数字作战负责人：如何利用数据快速生成战斗力

《美陆军条例：陆军指挥政策（2026版）》

《军用自主人工智能系统的治理与安全》

相关资讯

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

专知

24+阅读 · 2020年1月12日

注意力机制可解释吗？这篇ACL 2019论文说……

注意力机制可解释吗？这篇ACL 2019论文说……

机器之心

11+阅读 · 2019年6月16日

【干货】33页最新《自然语言处理中神经注意力机制综述》论文

【干货】33页最新《自然语言处理中神经注意力机制综述》论文

专知

31+阅读 · 2019年2月10日

语音识别的前沿论文，看我们推荐的这4篇

语音识别的前沿论文，看我们推荐的这4篇

人工智能前沿讲习班

26+阅读 · 2019年1月14日

学界 | 现实版柯南「蝴蝶结变声器」：谷歌发布从声纹识别到多重声线语音合成的迁移学习

学界 | 现实版柯南「蝴蝶结变声器」：谷歌发布从声纹识别到多重声线语音合成的迁移学习

机器之心

11+阅读 · 2018年6月24日

Ian Goodfellow等提出自注意力GAN，ImageNet图像合成获最优结果！

Ian Goodfellow等提出自注意力GAN，ImageNet图像合成获最优结果！

新智元

11+阅读 · 2018年5月24日

【干货】基于注意力机制的神经匹配模型用于短文本检索

【干货】基于注意力机制的神经匹配模型用于短文本检索

专知

11+阅读 · 2018年1月11日

深度学习中的注意力机制

深度学习中的注意力机制

人工智能头条

16+阅读 · 2017年11月2日

学界 | 对比对齐模型：神经机器翻译中的注意力到底在注意什么

学界 | 对比对齐模型：神经机器翻译中的注意力到底在注意什么

机器之心

10+阅读 · 2017年10月15日

相关论文

How to Label Resynthesized Audio: The Dual Role of Neural Audio Codecs in Audio Deepfake Detection

Arxiv

0+阅读 · 2月18日

A Generative-First Neural Audio Autoencoder

Arxiv

0+阅读 · 2月17日

The Equalizer: Introducing Shape-Gain Decomposition in Neural Audio Codecs

Arxiv

0+阅读 · 2月17日

HiFi-Glot: High-Fidelity Neural Formant Synthesis with Differentiable Resonant Filters

Arxiv

0+阅读 · 2月16日

Wave-Trainer-Fit: Neural Vocoder with Trainable Prior and Fixed-Point Iteration towards High-Quality Speech Generation from SSL features

Arxiv

0+阅读 · 2月5日

UniverSR: Unified and Versatile Audio Super-Resolution via Vocoder-Free Flow Matching

Arxiv

0+阅读 · 2月5日

AlignAtt: Using Attention-based Audio-Translation Alignments as a Guide for Simultaneous Speech Translation

Arxiv

0+阅读 · 2月3日

CodecSlime: Temporal Redundancy Compression of Neural Speech Codec via Dynamic Frame Rate

Arxiv

0+阅读 · 2月3日

ParaGSE: Parallel Generative Speech Enhancement with Group-Vector-Quantization-based Neural Speech Codec

Arxiv

0+阅读 · 2月2日

SoundPlot: An Open-Source Framework for Birdsong Acoustic Analysis and Neural Synthesis with Interactive 3D Visualization

Arxiv

0+阅读 · 1月19日

相关基金

基于晶体力-频传感特性的高性能温度补偿泛音晶体振荡器的基础研究

国家自然科学基金

0+阅读 · 2015年12月31日

同轴相对论返波振荡器跨波段调频机理和实现方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

保留时域精细结构的高生物拟真全植入式神经形态人工耳蜗芯片设计

国家自然科学基金

0+阅读 · 2015年12月31日

电磁二维可重构带通滤波器研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于声光调制的百MHz级光电探测器频响校准研究

国家自然科学基金

0+阅读 · 2015年12月31日

微波谐振单元的多频耦合调控机理及其应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

有噪声纠缠比特的纠缠辅助量子纠错码研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向多频段射频信号光子辅助处理的光电振荡器关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于柔性衬底的石墨烯高频纳机电谐振器研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员