Continuous diffusion for categorical data is a framework belonging to the diffusion family and aiming at generating discrete data. The scientific interest to such models has been constantly increasing these days because researchers try to achieve a challenging goal of finding reasonable alternatives to autoregressive large language models. In this paper, we study the properties of the structure of the latent space corresponding to discrete tokens expressed in terms of Kullback-Leibler divergence on diffusion path measures and accuracy of the correct token prediction by the optimally trained diffusion model. We find that FSQ tokenization scheme has the latent space structure with the properties that make it best suited for continuous diffusion for categorical data as verified through rigorous theoretical analysis and numerical experiments. To validate our findings in real-life scenario, we train several text-to-speech diffusion models having speech tokens as intermediate acoustic features, and show that the one based on FSQ tokens indeed performs the best, and, moreover, it outperforms its strong LLM-based counterpart, at the same time being significantly smaller and faster.


翻译:分类数据的连续扩散是一类属于扩散家族的框架,旨在生成离散数据。近年来,由于研究者们致力于寻找自回归大语言模型的有效替代方案这一挑战性目标,对此类模型的科学兴趣持续增长。本文研究了与离散令牌对应的潜在空间结构性质,具体从扩散路径度量的库尔贝克-莱布勒散度以及最优训练扩散模型对正确令牌的预测精度两个维度展开分析。通过严格的理论分析与数值实验验证,我们发现FSQ令牌化方案的潜在空间结构具有最适合分类数据连续扩散的特性。为了在实际场景中验证这一发现,我们训练了多个以语音令牌为中间声学特征的语音合成扩散模型,结果表明基于FSQ令牌的模型确实表现最优,并且值得注意的是,该模型在显著更小更快的条件下,其性能超越了强大的基于大语言模型的同类模型。

0
下载
关闭预览

相关内容

扩散语言模型综述
专知会员服务
19+阅读 · 2025年8月15日
用于语言生成的离散扩散模型
专知会员服务
12+阅读 · 2025年7月10日
《扩散模型及其应用》最新综述
专知会员服务
50+阅读 · 2024年8月21日
扩散模型概述:应用、引导生成、统计率和优化
专知会员服务
47+阅读 · 2024年4月14日
自动特征工程在推荐系统中的研究
DataFunTalk
10+阅读 · 2019年12月20日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
使用 Canal 实现数据异构
性能与架构
20+阅读 · 2019年3月4日
深度学习文本分类方法综述(代码)
中国人工智能学会
28+阅读 · 2018年6月16日
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
深度学习在文本分类中的应用
AI研习社
13+阅读 · 2018年1月7日
开源|基于tensorflow使用CNN-RNN进行中文文本分类!
全球人工智能
11+阅读 · 2017年11月12日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月11日
Arxiv
0+阅读 · 5月11日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关VIP内容
相关资讯
自动特征工程在推荐系统中的研究
DataFunTalk
10+阅读 · 2019年12月20日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
使用 Canal 实现数据异构
性能与架构
20+阅读 · 2019年3月4日
深度学习文本分类方法综述(代码)
中国人工智能学会
28+阅读 · 2018年6月16日
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
深度学习在文本分类中的应用
AI研习社
13+阅读 · 2018年1月7日
开源|基于tensorflow使用CNN-RNN进行中文文本分类!
全球人工智能
11+阅读 · 2017年11月12日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员