Geometry-Preserving Encoder/Decoder in Latent Generative Models - 专知论文

会员服务 ·

0

解码 · 几何结构 · 结构 · 潜在 · 数据样本 ·

Geometry-Preserving Encoder/Decoder in Latent Generative Models

翻译：保持几何结构的潜在生成模型编码器/解码器

Wonjun Lee,Riley C. W. O'Neill,Dongmian Zou,Jeff Calder,Gilad Lerman

from arxiv, 50 pages

Generative modeling aims to generate new data samples that resemble a given dataset. When using diffusion models for this task, one of the main challenges is solving the problem in the input space, which tends to be very high-dimensional. To address this, recent approaches solve diffusion models in the latent space through an encoder that maps from the data space to a lower-dimensional latent space, improving training efficiency and achieving state-of-the-art results. The variational autoencoder (VAE) is the most commonly used encoder/decoder framework in this domain, known for its ability to learn latent representations and generate data samples. In this paper, we introduce a novel encoder/decoder framework with theoretical properties distinct from those of the VAE, specifically designed to preserve the geometric structure of the data distribution. We demonstrate the significant advantages of this geometry-preserving encoder in the training process of both the encoder and decoder. Additionally, we provide theoretical results proving convergence of the training process, including convergence guarantees for encoder training, and results showing faster convergence of decoder training when using the geometry-preserving encoder.

翻译：生成建模旨在生成与给定数据集相似的新数据样本。使用扩散模型完成此任务时，主要挑战之一是在输入空间中解决问题，而该空间往往维度极高。为解决这一问题，近期方法通过编码器将数据空间映射到更低维的潜在空间，从而在潜在空间中求解扩散模型，提升了训练效率并取得了最优结果。变分自编码器是该领域最常用的编码器/解码器框架，以其学习潜在表示和生成数据样本的能力而闻名。本文提出了一种新颖的编码器/解码器框架，其理论性质区别于变分自编码器，专门设计用于保持数据分布的几何结构。我们证明了这种保持几何结构的编码器在编码器和解码器训练过程中具有显著优势。此外，我们提供了理论结果，证明了训练过程的收敛性，包括编码器训练的收敛保证，以及使用此保持几何结构的编码器时解码器训练收敛速度加快的结论。

0

相关内容

扩散模型中的 Transformer：图像生成及其延展应用询问 ChatGPT

扩散模型中的 Transformer：图像生成及其延展应用询问 ChatGPT

专知会员服务

11+阅读 · 2025年7月5日

【ICML2024】双曲几何潜在扩散模型用于图生成

【ICML2024】双曲几何潜在扩散模型用于图生成

专知会员服务

42+阅读 · 2024年5月8日

扩散模型概述：应用、引导生成、统计率和优化

扩散模型概述：应用、引导生成、统计率和优化

专知会员服务

47+阅读 · 2024年4月14日

【NeurIPS 2023教程】隐扩散模型:生成式AI革命正在隐空间中发生吗?，133页ppt

【NeurIPS 2023教程】隐扩散模型:生成式AI革命正在隐空间中发生吗?，133页ppt

专知会员服务

54+阅读 · 2023年12月15日

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

专知会员服务

66+阅读 · 2023年6月10日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知会员服务

47+阅读 · 2022年10月31日

扩散模型综述又一弹！西湖大学李子青等最新《生成式扩散模型》综述，18页pdf详解扩散模型基础、方法体系和应用

扩散模型综述又一弹！西湖大学李子青等最新《生成式扩散模型》综述，18页pdf详解扩散模型基础、方法体系和应用

专知会员服务

121+阅读 · 2022年9月9日

最近大火的“扩散模型”首篇综述来了！北大最新《扩散模型:方法和应用》综述，23页pdf涵盖200页文献

最近大火的“扩散模型”首篇综述来了！北大最新《扩散模型:方法和应用》综述，23页pdf涵盖200页文献

专知会员服务

155+阅读 · 2022年9月5日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知会员服务

46+阅读 · 2020年8月9日

【CCF优秀博士学位论文奖-2019】面向多种学习任务的深度生成模型，清华大学李崇轩

【CCF优秀博士学位论文奖-2019】面向多种学习任务的深度生成模型，清华大学李崇轩

专知会员服务

52+阅读 · 2019年11月8日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

深度学习模型可解释性的研究进展

深度学习模型可解释性的研究进展

专知

26+阅读 · 2020年8月1日

论文推荐丨[ICML2020]用于图像到标记符号生成的树状结构解码器

论文推荐丨[ICML2020]用于图像到标记符号生成的树状结构解码器

专知

64+阅读 · 2020年7月31日

斯坦福CS236-深度生成模型2019-全套课程资料分享

斯坦福CS236-深度生成模型2019-全套课程资料分享

深度学习与NLP

20+阅读 · 2019年8月20日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

机器学习模型的“可解释性”到底有多重要？

机器学习模型的“可解释性”到底有多重要？

中国科学院自动化研究所

20+阅读 · 2018年3月1日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

展望：模型驱动的深度学习

展望：模型驱动的深度学习

人工智能学家

12+阅读 · 2018年1月23日

从仿生的角度设计用于指导构建组织支架的单元细胞模块、有限元分析以及3D打印工艺路径规划

国家自然科学基金

0+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于区分型码本的图像表示的研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

高维时间序列的降维与建模

国家自然科学基金

23+阅读 · 2015年12月31日

基于支撑函数的不规则形态扩展目标建模和估计研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

一种低功耗高压缩率测试图形生成方法的实现与应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

高维复杂结构数据降维

国家自然科学基金

10+阅读 · 2014年12月31日

VideoWeave: Unlocking Geometric Consistency in Video Generation via Joint Geometry-Video Modeling

Arxiv

0+阅读 · 6月12日

GeM-NR: Geometry-Aware Multi-View Editing for Nonrigid Scene Changes

Arxiv

0+阅读 · 6月3日

RoboDream: Compositional World Models for Scalable Robot Data Synthesis

Arxiv

0+阅读 · 6月1日

Geometry-preserving and interpretable dimension reduction for compositional data

Arxiv

0+阅读 · 6月1日

Towards Controllable Image Generation through Representation-Conditioned Diffusion Models

Arxiv

0+阅读 · 5月26日

An Elastic Shape Variational Autoencoder for Skeleton Pose Trajectories

Arxiv

0+阅读 · 5月15日

RefDecoder: Enhancing Visual Generation with Conditional Video Decoding

Arxiv

0+阅读 · 5月14日

The Diffusion Encoder

Arxiv

0+阅读 · 5月13日

EditMGT: Unleashing Potentials of Masked Generative Transformers in Image Editing

Arxiv

0+阅读 · 3月25日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

88+阅读 · 2023年4月4日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

4+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

5+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

9+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

6+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

9+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

13+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

9+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

6+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

7+阅读 · 6月16日

相关VIP内容

扩散模型中的 Transformer：图像生成及其延展应用询问 ChatGPT

扩散模型中的 Transformer：图像生成及其延展应用询问 ChatGPT

专知会员服务

11+阅读 · 2025年7月5日

【ICML2024】双曲几何潜在扩散模型用于图生成

【ICML2024】双曲几何潜在扩散模型用于图生成

专知会员服务

42+阅读 · 2024年5月8日

扩散模型概述：应用、引导生成、统计率和优化

扩散模型概述：应用、引导生成、统计率和优化

专知会员服务

47+阅读 · 2024年4月14日

【NeurIPS 2023教程】隐扩散模型:生成式AI革命正在隐空间中发生吗?，133页ppt

【NeurIPS 2023教程】隐扩散模型:生成式AI革命正在隐空间中发生吗?，133页ppt

专知会员服务

54+阅读 · 2023年12月15日

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

专知会员服务

66+阅读 · 2023年6月10日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知会员服务

47+阅读 · 2022年10月31日

扩散模型综述又一弹！西湖大学李子青等最新《生成式扩散模型》综述，18页pdf详解扩散模型基础、方法体系和应用

扩散模型综述又一弹！西湖大学李子青等最新《生成式扩散模型》综述，18页pdf详解扩散模型基础、方法体系和应用

专知会员服务

121+阅读 · 2022年9月9日

最近大火的“扩散模型”首篇综述来了！北大最新《扩散模型:方法和应用》综述，23页pdf涵盖200页文献

最近大火的“扩散模型”首篇综述来了！北大最新《扩散模型:方法和应用》综述，23页pdf涵盖200页文献

专知会员服务

155+阅读 · 2022年9月5日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知会员服务

46+阅读 · 2020年8月9日

【CCF优秀博士学位论文奖-2019】面向多种学习任务的深度生成模型，清华大学李崇轩

【CCF优秀博士学位论文奖-2019】面向多种学习任务的深度生成模型，清华大学李崇轩

专知会员服务

52+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

深度学习模型可解释性的研究进展

深度学习模型可解释性的研究进展

专知

26+阅读 · 2020年8月1日

论文推荐丨[ICML2020]用于图像到标记符号生成的树状结构解码器

论文推荐丨[ICML2020]用于图像到标记符号生成的树状结构解码器

专知

64+阅读 · 2020年7月31日

斯坦福CS236-深度生成模型2019-全套课程资料分享

斯坦福CS236-深度生成模型2019-全套课程资料分享

深度学习与NLP

20+阅读 · 2019年8月20日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

机器学习模型的“可解释性”到底有多重要？

机器学习模型的“可解释性”到底有多重要？

中国科学院自动化研究所

20+阅读 · 2018年3月1日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

展望：模型驱动的深度学习

展望：模型驱动的深度学习

人工智能学家

12+阅读 · 2018年1月23日

相关论文

VideoWeave: Unlocking Geometric Consistency in Video Generation via Joint Geometry-Video Modeling

Arxiv

0+阅读 · 6月12日

GeM-NR: Geometry-Aware Multi-View Editing for Nonrigid Scene Changes

Arxiv

0+阅读 · 6月3日

RoboDream: Compositional World Models for Scalable Robot Data Synthesis

Arxiv

0+阅读 · 6月1日

Geometry-preserving and interpretable dimension reduction for compositional data

Arxiv

0+阅读 · 6月1日

Towards Controllable Image Generation through Representation-Conditioned Diffusion Models

Arxiv

0+阅读 · 5月26日

An Elastic Shape Variational Autoencoder for Skeleton Pose Trajectories

Arxiv

0+阅读 · 5月15日

RefDecoder: Enhancing Visual Generation with Conditional Video Decoding

Arxiv

0+阅读 · 5月14日

The Diffusion Encoder

Arxiv

0+阅读 · 5月13日

EditMGT: Unleashing Potentials of Masked Generative Transformers in Image Editing

Arxiv

0+阅读 · 3月25日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

88+阅读 · 2023年4月4日

相关基金

从仿生的角度设计用于指导构建组织支架的单元细胞模块、有限元分析以及3D打印工艺路径规划

国家自然科学基金

0+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于区分型码本的图像表示的研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

高维时间序列的降维与建模

国家自然科学基金

23+阅读 · 2015年12月31日

基于支撑函数的不规则形态扩展目标建模和估计研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

一种低功耗高压缩率测试图形生成方法的实现与应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

高维复杂结构数据降维

国家自然科学基金

10+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员