GaussianGPT: Towards Autoregressive 3D Gaussian Scene Generation - 专知论文

会员服务 ·

0

GaussianGPT: Towards Autoregressive 3D Gaussian Scene Generation

翻译：GaussianGPT：迈向自回归的3D高斯场景生成

Nicolas von Lützow,Barbara Rössle,Katharina Schmid,Matthias Nießner

from arxiv, Project page: https://nicolasvonluetzow.github.io/GaussianGPT/ - Project video: https://youtu.be/zVnMHkFzHDg

Most recent advances in 3D generative modeling rely on diffusion or flow-matching formulations. We instead explore a fully autoregressive alternative and introduce GaussianGPT, a transformer-based model that directly generates 3D Gaussians via next-token prediction, thus facilitating full 3D scene generation. We first compress Gaussian primitives into a discrete latent grid using a sparse 3D convolutional autoencoder with vector quantization. The resulting tokens are serialized and modeled using a causal transformer with 3D rotary positional embedding, enabling sequential generation of spatial structure and appearance. Unlike diffusion-based methods that refine scenes holistically, our formulation constructs scenes step-by-step, naturally supporting completion, outpainting, controllable sampling via temperature, and flexible generation horizons. This formulation leverages the compositional inductive biases and scalability of autoregressive modeling while operating on explicit representations compatible with modern neural rendering pipelines, positioning autoregressive transformers as a complementary paradigm for controllable and context-aware 3D generation.

翻译：近期在3D生成建模方面的最新进展主要依赖于扩散或流匹配公式。我们转而探索一种完全自回归的替代方案，并提出GaussianGPT——一种基于Transformer的模型，通过下一个词元预测直接生成3D高斯体，从而促进完整3D场景的生成。我们首先利用带有向量量化的稀疏3D卷积自编码器，将高斯基元压缩到离散潜在网格中。所得词元被序列化，并通过带有3D旋转位置编码的因果Transformer进行建模，从而支持空间结构和外观的序列生成。与整体优化场景的扩散方法不同，我们的公式逐步构建场景，自然地支持补全、外推、通过温度实现可控采样以及灵活的生成范围。该公式利用了自回归建模的组成性归纳偏置和可扩展性，同时操作于与现代神经渲染管线兼容的显式表示，从而将自回归Transformer定位为可控和上下文感知3D生成的互补范式。

0

相关内容

3D形状生成：综述

3D形状生成：综述

专知会员服务

18+阅读 · 2025年7月7日

CVPR2025最新《扩散Transformers》论文，概述最新图像视频生成方法

CVPR2025最新《扩散Transformers》论文，概述最新图像视频生成方法

专知会员服务

13+阅读 · 2025年4月20日

【AAAI2025】FatesGS：基于深度特征一致性的高斯溅射法进行快速精确的稀疏视角表面重建

【AAAI2025】FatesGS：基于深度特征一致性的高斯溅射法进行快速精确的稀疏视角表面重建

专知会员服务

10+阅读 · 2025年1月9日

【CVPR2024】VastGaussian: 用于大型场景重建的巨大三维高斯

【CVPR2024】VastGaussian: 用于大型场景重建的巨大三维高斯

专知会员服务

25+阅读 · 2024年3月3日

什么是3D高斯喷溅(Gaussian Splatting，GS)技术？复旦等最新《3D高斯作为新视觉时代》综述，详述3DGS技术

什么是3D高斯喷溅(Gaussian Splatting，GS)技术？复旦等最新《3D高斯作为新视觉时代》综述，详述3DGS技术

专知会员服务

44+阅读 · 2024年2月18日

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

专知会员服务

48+阅读 · 2023年4月20日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知会员服务

47+阅读 · 2022年10月31日

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

专知会员服务

39+阅读 · 2022年8月9日

自回归模型:PixelCNN

自回归模型:PixelCNN

专知会员服务

29+阅读 · 2020年3月21日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

用GANs来自动生成音乐【代码+PPT】

用GANs来自动生成音乐【代码+PPT】

专知

29+阅读 · 2019年11月7日

关于GANs在医学图像领域应用的总结

关于GANs在医学图像领域应用的总结

人工智能前沿讲习班

31+阅读 · 2019年6月4日

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

专知

15+阅读 · 2019年5月17日

草图秒变风景照，英伟达神笔马良GaoGAN终于开源了

草图秒变风景照，英伟达神笔马良GaoGAN终于开源了

新智元

14+阅读 · 2019年4月17日

揭开GANs的神秘面纱

揭开GANs的神秘面纱

机器学习算法与Python学习

10+阅读 · 2019年2月27日

Ian Goodfellow等提出自注意力GAN，ImageNet图像合成获最优结果！

Ian Goodfellow等提出自注意力GAN，ImageNet图像合成获最优结果！

新智元

11+阅读 · 2018年5月24日

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

AI研习社

10+阅读 · 2018年3月6日

基于体素划分模型的多视图深度信息融合三维重建研究

国家自然科学基金

2+阅读 · 2015年12月31日

2D/3D视觉信息融合仿生SLAM关键问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于尺度集的高分辨率遥感影像多尺度分类

国家自然科学基金

0+阅读 · 2015年12月31日

使用GPU加速银道面尘埃辐射图像的高分辨率模拟与多参数反演

国家自然科学基金

0+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂场景点线光流三维重建模型的建立及鲁棒性分析

国家自然科学基金

2+阅读 · 2014年12月31日

形状先验和数据驱动的高分辨遥感影像目标提取

国家自然科学基金

3+阅读 · 2014年12月31日

高维复杂结构数据降维

国家自然科学基金

10+阅读 · 2014年12月31日

VRGaussianAvatar: Integrating 3D Gaussian Avatars into VR

Arxiv

0+阅读 · 5月4日

Stepper: Stepwise Immersive Scene Generation with Multiview Panoramas

Arxiv

0+阅读 · 5月1日

AnchorSplat: Feed-Forward 3D Gaussian Splatting with 3D Geometric Priors

Arxiv

0+阅读 · 4月9日

Free-Range Gaussians: Non-Grid-Aligned Generative 3D Gaussian Reconstruction

Arxiv

0+阅读 · 4月6日

RT-GS: Gaussian Splatting with Reflection and Transmittance Primitives

Arxiv

0+阅读 · 4月1日

WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation

Arxiv

0+阅读 · 3月17日

3DGEER: 3D Gaussian Rendering Made Exact and Efficient for Generic Cameras

Arxiv

0+阅读 · 3月12日

LiftAvatar: Kinematic-Space Completion for Expression-Controlled 3D Gaussian Avatar Animation

Arxiv

0+阅读 · 3月2日

ArtiFixer: Enhancing and Extending 3D Reconstruction with Auto-Regressive Diffusion Models

Arxiv

0+阅读 · 2月28日

GAGA: Gaussianity-Aware Gaussian Approximation for Efficient 3D Molecular Generation

Arxiv

0+阅读 · 2月20日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

2+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

4+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

7+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

4+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

6+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

5+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

3+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

8+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

6+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

9+阅读 · 6月22日

相关VIP内容

3D形状生成：综述

3D形状生成：综述

专知会员服务

18+阅读 · 2025年7月7日

CVPR2025最新《扩散Transformers》论文，概述最新图像视频生成方法

CVPR2025最新《扩散Transformers》论文，概述最新图像视频生成方法

专知会员服务

13+阅读 · 2025年4月20日

【AAAI2025】FatesGS：基于深度特征一致性的高斯溅射法进行快速精确的稀疏视角表面重建

【AAAI2025】FatesGS：基于深度特征一致性的高斯溅射法进行快速精确的稀疏视角表面重建

专知会员服务

10+阅读 · 2025年1月9日

【CVPR2024】VastGaussian: 用于大型场景重建的巨大三维高斯

【CVPR2024】VastGaussian: 用于大型场景重建的巨大三维高斯

专知会员服务

25+阅读 · 2024年3月3日

什么是3D高斯喷溅(Gaussian Splatting，GS)技术？复旦等最新《3D高斯作为新视觉时代》综述，详述3DGS技术

什么是3D高斯喷溅(Gaussian Splatting，GS)技术？复旦等最新《3D高斯作为新视觉时代》综述，详述3DGS技术

专知会员服务

44+阅读 · 2024年2月18日

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

专知会员服务

48+阅读 · 2023年4月20日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知会员服务

47+阅读 · 2022年10月31日

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

专知会员服务

39+阅读 · 2022年8月9日

自回归模型:PixelCNN

自回归模型:PixelCNN

专知会员服务

29+阅读 · 2020年3月21日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

用GANs来自动生成音乐【代码+PPT】

用GANs来自动生成音乐【代码+PPT】

专知

29+阅读 · 2019年11月7日

关于GANs在医学图像领域应用的总结

关于GANs在医学图像领域应用的总结

人工智能前沿讲习班

31+阅读 · 2019年6月4日

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

专知

15+阅读 · 2019年5月17日

草图秒变风景照，英伟达神笔马良GaoGAN终于开源了

草图秒变风景照，英伟达神笔马良GaoGAN终于开源了

新智元

14+阅读 · 2019年4月17日

揭开GANs的神秘面纱

揭开GANs的神秘面纱

机器学习算法与Python学习

10+阅读 · 2019年2月27日

Ian Goodfellow等提出自注意力GAN，ImageNet图像合成获最优结果！

Ian Goodfellow等提出自注意力GAN，ImageNet图像合成获最优结果！

新智元

11+阅读 · 2018年5月24日

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

AI研习社

10+阅读 · 2018年3月6日

相关论文

VRGaussianAvatar: Integrating 3D Gaussian Avatars into VR

Arxiv

0+阅读 · 5月4日

Stepper: Stepwise Immersive Scene Generation with Multiview Panoramas

Arxiv

0+阅读 · 5月1日

AnchorSplat: Feed-Forward 3D Gaussian Splatting with 3D Geometric Priors

Arxiv

0+阅读 · 4月9日

Free-Range Gaussians: Non-Grid-Aligned Generative 3D Gaussian Reconstruction

Arxiv

0+阅读 · 4月6日

RT-GS: Gaussian Splatting with Reflection and Transmittance Primitives

Arxiv

0+阅读 · 4月1日

WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation

Arxiv

0+阅读 · 3月17日

3DGEER: 3D Gaussian Rendering Made Exact and Efficient for Generic Cameras

Arxiv

0+阅读 · 3月12日

LiftAvatar: Kinematic-Space Completion for Expression-Controlled 3D Gaussian Avatar Animation

Arxiv

0+阅读 · 3月2日

ArtiFixer: Enhancing and Extending 3D Reconstruction with Auto-Regressive Diffusion Models

Arxiv

0+阅读 · 2月28日

GAGA: Gaussianity-Aware Gaussian Approximation for Efficient 3D Molecular Generation

Arxiv

0+阅读 · 2月20日

相关基金

基于体素划分模型的多视图深度信息融合三维重建研究

国家自然科学基金

2+阅读 · 2015年12月31日

2D/3D视觉信息融合仿生SLAM关键问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于尺度集的高分辨率遥感影像多尺度分类

国家自然科学基金

0+阅读 · 2015年12月31日

使用GPU加速银道面尘埃辐射图像的高分辨率模拟与多参数反演

国家自然科学基金

0+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂场景点线光流三维重建模型的建立及鲁棒性分析

国家自然科学基金

2+阅读 · 2014年12月31日

形状先验和数据驱动的高分辨遥感影像目标提取

国家自然科学基金

3+阅读 · 2014年12月31日

高维复杂结构数据降维

国家自然科学基金

10+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员