Deep Generative models (DGMs) play two key roles in modern machine learning: (i) producing new information (e.g., image synthesis) and (ii) reducing dimensionality. However, traditional architectures often rely on auxiliary networks such as encoders in Variational Autoencoders (VAEs) or discriminators in Generative Adversarial Networks (GANs), which introduce training instability, computational overhead, and risks like mode collapse. We present NeuroSQL, a new generative paradigm that eliminates the need for auxiliary networks by learning low-dimensional latent representations implicitly. NeuroSQL leverages an asymptotic approximation that expresses the latent variables as the solution to an optimal transportation problem. Specifically, NeuroSQL learns the latent variables by solving a linear assignment problem and then passes the latent information to a standalone generator. We benchmark its performance against GANs, VAEs, and a budget-matched diffusion baseline on four datasets: handwritten digits (MNIST), faces (CelebA), animal faces (AFHQ), and brain images (OASIS). Compared to VAEs, GANs, and diffusion models: (1) in terms of image quality, NeuroSQL achieves overall lower mean pixel distance between synthetic and authentic images and stronger perceptual/structural fidelity; (2) computationally, NeuroSQL requires the least training time; and (3) practically, NeuroSQL provides an effective solution for generating synthetic data with limited training samples. By embracing quantile assignment rather than an encoder, NeuroSQL provides a fast, stable, and robust way to generate synthetic data with minimal information loss.


翻译:深度生成模型在现代机器学习中扮演着两个关键角色:(i) 生成新信息(例如图像合成)和 (ii) 实现降维。然而,传统架构通常依赖于辅助网络,例如变分自编码器中的编码器或生成对抗网络中的判别器,这会引入训练不稳定性、计算开销以及模式崩溃等风险。我们提出了NeuroSQL,一种新的生成范式,它通过隐式学习低维潜在表示,消除了对辅助网络的需求。NeuroSQL利用一种渐近近似,将潜在变量表达为一个最优传输问题的解。具体而言,NeuroSQL通过求解一个线性分配问题来学习潜在变量,然后将潜在信息传递给一个独立的生成器。我们在四个数据集上将其性能与GANs、VAEs以及一个预算匹配的扩散模型基线进行了基准测试:手写数字(MNIST)、人脸(CelebA)、动物面部(AFHQ)和脑部图像(OASIS)。与VAEs、GANs和扩散模型相比:(1) 在图像质量方面,NeuroSQL在合成图像与真实图像之间实现了更低的平均像素距离,并具有更强的感知/结构保真度;(2) 在计算方面,NeuroSQL所需的训练时间最少;(3) 在实际应用中,NeuroSQL为在有限训练样本下生成合成数据提供了有效的解决方案。通过采用分位数分配而非编码器,NeuroSQL提供了一种快速、稳定且鲁棒的方法,能以最小的信息损失生成合成数据。

0
下载
关闭预览

相关内容

【港科大博士论文】生成模型的统计和结构特性,338页pdf
专知会员服务
48+阅读 · 2022年12月20日
最新【深度生成模型】Deep Generative Models,104页ppt
专知会员服务
71+阅读 · 2020年10月24日
斯坦福CS236-深度生成模型2019-全套课程资料分享
深度学习与NLP
20+阅读 · 2019年8月20日
深度学习时代的图模型,清华发文综述图网络
GAN生成式对抗网络
13+阅读 · 2018年12月23日
在TensorFlow中对比两大生成模型:VAE与GAN
机器之心
12+阅读 · 2017年10月23日
VAE、GAN、Info-GAN:全解深度学习三大生成模型
数据派THU
20+阅读 · 2017年9月23日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
最新内容
面向具身智能与机器人仿真的三维生成:综述
专知会员服务
1+阅读 · 今天14:22
《新兴技术武器化及其对全球风险的影响》
专知会员服务
8+阅读 · 4月29日
《帕兰泰尔平台介绍:信息分析平台》
专知会员服务
21+阅读 · 4月29日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员