Image Generation Models: A Technical History - 专知论文

会员服务 ·

0

图像生成模型 · 图像生成 · 生成模型 · 视频 · 变分 ·

Image Generation Models: A Technical History

翻译：图像生成模型：技术发展史

Rouzbeh Shirvani

Image generation has advanced rapidly over the past decade, yet the literature seems fragmented across different models and application domains. This paper aims to offer a comprehensive survey of breakthrough image generation models, including variational autoencoders (VAEs), generative adversarial networks (GANs), normalizing flows, autoregressive and transformer-based generators, and diffusion-based methods. We provide a detailed technical walkthrough of each model type, including their underlying objectives, architectural building blocks, and algorithmic training steps. For each model type, we present the optimization techniques as well as common failure modes and limitations. We also go over recent developments in video generation and present the research works that made it possible to go from still frames to high quality videos. Lastly, we cover the growing importance of robustness and responsible deployment of these models, including deepfake risks, detection, artifacts, and watermarking.

翻译：图像生成在过去十年中发展迅速，然而相关文献似乎分散在不同的模型和应用领域中。本文旨在对突破性的图像生成模型进行全面综述，包括变分自编码器（VAEs）、生成对抗网络（GANs）、归一化流、自回归及基于Transformer的生成器，以及基于扩散的方法。我们对每种模型类型提供了详细的技术梳理，包括其基本目标、架构构建模块和算法训练步骤。针对每种模型类型，我们介绍了优化技术以及常见的失效模式和局限性。我们还回顾了视频生成的最新进展，并介绍了实现从静态帧到高质量视频转换的研究工作。最后，我们探讨了这些模型的鲁棒性和负责任部署日益增长的重要性，包括深度伪造风险、检测技术、伪影问题以及水印技术。

0

相关内容

图像生成模型

图像生成模型

【书籍】从零开始构建文本生成图像生成器：基于 Transformers 与扩散模型

【书籍】从零开始构建文本生成图像生成器：基于 Transformers 与扩散模型

专知会员服务

25+阅读 · 2025年12月27日

扩散模型中的 Transformer：图像生成及其延展应用询问 ChatGPT

扩散模型中的 Transformer：图像生成及其延展应用询问 ChatGPT

专知会员服务

11+阅读 · 2025年7月5日

生成模型如何做推荐？203页最新《基于生成模型的推荐系统》书册

生成模型如何做推荐？203页最新《基于生成模型的推荐系统》书册

专知会员服务

36+阅读 · 2024年9月28日

扩撒模型如何做医学图像？MICCAI2023最新《扩散模型医学图像分析》综述，134页PPT全面阐述医学图像扩散模型方法体系

扩撒模型如何做医学图像？MICCAI2023最新《扩散模型医学图像分析》综述，134页PPT全面阐述医学图像扩散模型方法体系

专知会员服务

42+阅读 · 2023年10月10日

文本到图像扩散模型有何进展？KAIST最新《生成式人工智能中的文本到图像扩散模型》综述

文本到图像扩散模型有何进展？KAIST最新《生成式人工智能中的文本到图像扩散模型》综述

专知会员服务

43+阅读 · 2023年3月16日

【港科大博士论文】生成模型的统计和结构特性，338页pdf

【港科大博士论文】生成模型的统计和结构特性，338页pdf

专知会员服务

48+阅读 · 2022年12月20日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知会员服务

47+阅读 · 2022年10月31日

图像描述生成研究进展

专知会员服务

71+阅读 · 2021年3月29日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知会员服务

46+阅读 · 2020年8月9日

【MICCAI 2019 】Generative adversarial networks and adversarial methods in biomedical image analysis（基于生成对抗网络和对抗方法的生物医学图像分析），附223页PPT免费下载

【MICCAI 2019 】Generative adversarial networks and adversarial methods in biomedical image analysis（基于生成对抗网络和对抗方法的生物医学图像分析），附223页PPT免费下载

专知会员服务

32+阅读 · 2019年11月4日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

深度学习时代的图模型，清华发文综述图网络

深度学习时代的图模型，清华发文综述图网络

GAN生成式对抗网络

13+阅读 · 2018年12月23日

Image Captioning 36页最新综述， 161篇参考文献

Image Captioning 36页最新综述， 161篇参考文献

专知

90+阅读 · 2018年10月23日

【论文推荐】最新八篇图像描述生成相关论文—比较级对抗学习、正则化RNNs、深层网络、视觉对话、婴儿说话、自我检索

【论文推荐】最新八篇图像描述生成相关论文—比较级对抗学习、正则化RNNs、深层网络、视觉对话、婴儿说话、自我检索

专知

10+阅读 · 2018年4月12日

【学界】李飞飞学生最新论文：利用场景图生成图像

【学界】李飞飞学生最新论文：利用场景图生成图像

GAN生成式对抗网络

15+阅读 · 2018年4月9日

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

专知

10+阅读 · 2018年3月2日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

在TensorFlow中对比两大生成模型：VAE与GAN

在TensorFlow中对比两大生成模型：VAE与GAN

机器之心

12+阅读 · 2017年10月23日

基于压缩感知理论的图像采样、编码和重建研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于全局阈值分割和局部聚类的自然图像超像素分割技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

融合压缩感知的图像加密技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于区分型码本的图像表示的研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

大数据环境下基于社交网络的图像搜索技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于形状信息和结果反馈的多图谱图像分割方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于记忆的不变图像特征学习方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

面向时空变化的GIS数据模型

国家自然科学基金

6+阅读 · 2014年12月31日

超光谱、全偏振、立体形貌的多模态成像研究

国家自然科学基金

0+阅读 · 2014年12月31日

Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling

Arxiv

0+阅读 · 4月30日

UniGenDet: A Unified Generative-Discriminative Framework for Co-Evolutionary Image Generation and Generated Image Detection

Arxiv

0+阅读 · 4月23日

PixelDiT: Pixel Diffusion Transformers for Image Generation

Arxiv

0+阅读 · 4月16日

Generative Models and Connected and Automated Vehicles: A Survey in Exploring the Intersection of Transportation and AI

Arxiv

0+阅读 · 4月16日

Image-Adaptive GAN based Reconstruction

Arxiv

0+阅读 · 3月30日

ImagenWorld: Stress-Testing Image Generation Models with Explainable Human Evaluation on Open-ended Real-World Tasks

Arxiv

0+阅读 · 3月29日

Image Generation Models: A Technical History

Arxiv

0+阅读 · 3月29日

AI-Generated Figures in Academic Publishing: Policies, Tools, and Practical Guidelines

Arxiv

0+阅读 · 3月17日

Controllable Generation with Text-to-Image Diffusion Models: A Survey

Arxiv

14+阅读 · 2024年3月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

88+阅读 · 2023年4月4日

VIP会员

文章信息

相关主题

图像生成模型

最新内容

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

4+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

6+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

6+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

4+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

7+阅读 · 7月20日

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

6+阅读 · 7月20日

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

14+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

7+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

9+阅读 · 7月19日

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

10+阅读 · 7月19日

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

15+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

8+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

16+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

11+阅读 · 7月18日

相关VIP内容

【书籍】从零开始构建文本生成图像生成器：基于 Transformers 与扩散模型

【书籍】从零开始构建文本生成图像生成器：基于 Transformers 与扩散模型

专知会员服务

25+阅读 · 2025年12月27日

扩散模型中的 Transformer：图像生成及其延展应用询问 ChatGPT

扩散模型中的 Transformer：图像生成及其延展应用询问 ChatGPT

专知会员服务

11+阅读 · 2025年7月5日

生成模型如何做推荐？203页最新《基于生成模型的推荐系统》书册

生成模型如何做推荐？203页最新《基于生成模型的推荐系统》书册

专知会员服务

36+阅读 · 2024年9月28日

扩撒模型如何做医学图像？MICCAI2023最新《扩散模型医学图像分析》综述，134页PPT全面阐述医学图像扩散模型方法体系

扩撒模型如何做医学图像？MICCAI2023最新《扩散模型医学图像分析》综述，134页PPT全面阐述医学图像扩散模型方法体系

专知会员服务

42+阅读 · 2023年10月10日

文本到图像扩散模型有何进展？KAIST最新《生成式人工智能中的文本到图像扩散模型》综述

文本到图像扩散模型有何进展？KAIST最新《生成式人工智能中的文本到图像扩散模型》综述

专知会员服务

43+阅读 · 2023年3月16日

【港科大博士论文】生成模型的统计和结构特性，338页pdf

【港科大博士论文】生成模型的统计和结构特性，338页pdf

专知会员服务

48+阅读 · 2022年12月20日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知会员服务

47+阅读 · 2022年10月31日

图像描述生成研究进展

专知会员服务

71+阅读 · 2021年3月29日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知会员服务

46+阅读 · 2020年8月9日

【MICCAI 2019 】Generative adversarial networks and adversarial methods in biomedical image analysis（基于生成对抗网络和对抗方法的生物医学图像分析），附223页PPT免费下载

【MICCAI 2019 】Generative adversarial networks and adversarial methods in biomedical image analysis（基于生成对抗网络和对抗方法的生物医学图像分析），附223页PPT免费下载

专知会员服务

32+阅读 · 2019年11月4日

热门VIP内容

开通专知VIP会员享更多权益服务

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

印度精确打击与指挥架构的断层

美空军AI完成F-16战斗机自主空战历史性试飞

相关资讯

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

深度学习时代的图模型，清华发文综述图网络

深度学习时代的图模型，清华发文综述图网络

GAN生成式对抗网络

13+阅读 · 2018年12月23日

Image Captioning 36页最新综述， 161篇参考文献

Image Captioning 36页最新综述， 161篇参考文献

专知

90+阅读 · 2018年10月23日

【论文推荐】最新八篇图像描述生成相关论文—比较级对抗学习、正则化RNNs、深层网络、视觉对话、婴儿说话、自我检索

【论文推荐】最新八篇图像描述生成相关论文—比较级对抗学习、正则化RNNs、深层网络、视觉对话、婴儿说话、自我检索

专知

10+阅读 · 2018年4月12日

【学界】李飞飞学生最新论文：利用场景图生成图像

【学界】李飞飞学生最新论文：利用场景图生成图像

GAN生成式对抗网络

15+阅读 · 2018年4月9日

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

专知

10+阅读 · 2018年3月2日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

在TensorFlow中对比两大生成模型：VAE与GAN

在TensorFlow中对比两大生成模型：VAE与GAN

机器之心

12+阅读 · 2017年10月23日

相关论文

Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling

Arxiv

0+阅读 · 4月30日

UniGenDet: A Unified Generative-Discriminative Framework for Co-Evolutionary Image Generation and Generated Image Detection

Arxiv

0+阅读 · 4月23日

PixelDiT: Pixel Diffusion Transformers for Image Generation

Arxiv

0+阅读 · 4月16日

Generative Models and Connected and Automated Vehicles: A Survey in Exploring the Intersection of Transportation and AI

Arxiv

0+阅读 · 4月16日

Image-Adaptive GAN based Reconstruction

Arxiv

0+阅读 · 3月30日

ImagenWorld: Stress-Testing Image Generation Models with Explainable Human Evaluation on Open-ended Real-World Tasks

Arxiv

0+阅读 · 3月29日

Image Generation Models: A Technical History

Arxiv

0+阅读 · 3月29日

AI-Generated Figures in Academic Publishing: Policies, Tools, and Practical Guidelines

Arxiv

0+阅读 · 3月17日

Controllable Generation with Text-to-Image Diffusion Models: A Survey

Arxiv

14+阅读 · 2024年3月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

88+阅读 · 2023年4月4日

相关基金

基于压缩感知理论的图像采样、编码和重建研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于全局阈值分割和局部聚类的自然图像超像素分割技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

融合压缩感知的图像加密技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于区分型码本的图像表示的研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

大数据环境下基于社交网络的图像搜索技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于形状信息和结果反馈的多图谱图像分割方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于记忆的不变图像特征学习方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

面向时空变化的GIS数据模型

国家自然科学基金

6+阅读 · 2014年12月31日

超光谱、全偏振、立体形貌的多模态成像研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员