Continuous speech representations based on Variational Autoencoders (VAEs) have emerged as a promising alternative to traditional spectrogram or discrete token based features for speech generation and reconstruction. Recent research has tried to enrich the structural information in VAE latent representations by aligning with self-supervised learning (SSL) features, aiming for better generation performance. However, it remains unclear whether the widely-used alignment approach based on time-axis distillation is optimal when considering more tasks. To address this problem, this paper systematically explores different alignment approaches and analyzes their impact on the performances over three axes: reconstruction, understanding, and generation. We investigate various design choices in the distillation loss. Extensive experiments show that the joint-marginal alignment approach with adaptive weighting can achieve the best overall performance while allowing for a controllable balance.


翻译:基于变分自编码器(VAE)的连续语音表征已成为传统频谱图或离散词元特征在语音生成与重构任务中的一种有前景的替代方案。近期研究尝试通过与自监督学习(SSL)特征对齐来丰富VAE潜在表征中的结构信息,以期获得更优的生成性能。然而,当考虑更多任务时,目前广泛采用的基于时间轴蒸馏的对齐方法是否最优仍不明确。针对这一问题,本文系统性地探索了不同对齐方法,并从重构、理解和生成三个维度分析其对性能的影响。我们研究了蒸馏损失中的多种设计选择。大量实验表明,采用自适应权重联合边际对齐方法能够在实现整体最优性能的同时,灵活控制任务间的平衡。

0
下载
关闭预览

相关内容

【ICLR2025】VEVO:基于自监督解耦的可控零样本语音模仿
专知会员服务
9+阅读 · 2025年2月15日
【MetaAI】从扩展视觉分词器用于重建与生成中的经验
专知会员服务
13+阅读 · 2025年1月18日
大型语言模型中的数字遗忘:遗忘方法的综述
专知会员服务
33+阅读 · 2024年4月8日
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
变分自编码器VAE:一步到位的聚类方案
PaperWeekly
25+阅读 · 2018年9月18日
再谈变分自编码器VAE:从贝叶斯观点出发
PaperWeekly
13+阅读 · 2018年4月2日
深度 | 变分自编码器VAE面临的挑战与发展方向
机器之心
16+阅读 · 2018年3月21日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
【ICLR2025】VEVO:基于自监督解耦的可控零样本语音模仿
专知会员服务
9+阅读 · 2025年2月15日
【MetaAI】从扩展视觉分词器用于重建与生成中的经验
专知会员服务
13+阅读 · 2025年1月18日
大型语言模型中的数字遗忘:遗忘方法的综述
专知会员服务
33+阅读 · 2024年4月8日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员