Most recent advances in 3D generative modeling rely on diffusion or flow-matching formulations. We instead explore a fully autoregressive alternative and introduce GaussianGPT, a transformer-based model that directly generates 3D Gaussians via next-token prediction, thus facilitating full 3D scene generation. We first compress Gaussian primitives into a discrete latent grid using a sparse 3D convolutional autoencoder with vector quantization. The resulting tokens are serialized and modeled using a causal transformer with 3D rotary positional embedding, enabling sequential generation of spatial structure and appearance. Unlike diffusion-based methods that refine scenes holistically, our formulation constructs scenes step-by-step, naturally supporting completion, outpainting, controllable sampling via temperature, and flexible generation horizons. This formulation leverages the compositional inductive biases and scalability of autoregressive modeling while operating on explicit representations compatible with modern neural rendering pipelines, positioning autoregressive transformers as a complementary paradigm for controllable and context-aware 3D generation.


翻译:近期在3D生成建模方面的最新进展主要依赖于扩散或流匹配公式。我们转而探索一种完全自回归的替代方案,并提出GaussianGPT——一种基于Transformer的模型,通过下一个词元预测直接生成3D高斯体,从而促进完整3D场景的生成。我们首先利用带有向量量化的稀疏3D卷积自编码器,将高斯基元压缩到离散潜在网格中。所得词元被序列化,并通过带有3D旋转位置编码的因果Transformer进行建模,从而支持空间结构和外观的序列生成。与整体优化场景的扩散方法不同,我们的公式逐步构建场景,自然地支持补全、外推、通过温度实现可控采样以及灵活的生成范围。该公式利用了自回归建模的组成性归纳偏置和可扩展性,同时操作于与现代神经渲染管线兼容的显式表示,从而将自回归Transformer定位为可控和上下文感知3D生成的互补范式。

0
下载
关闭预览

相关内容

3D形状生成:综述
专知会员服务
18+阅读 · 2025年7月7日
【CVPR2024】VastGaussian: 用于大型场景重建的巨大三维高斯
自回归模型:PixelCNN
专知会员服务
29+阅读 · 2020年3月21日
用GANs来自动生成音乐【代码+PPT】
专知
29+阅读 · 2019年11月7日
关于GANs在医学图像领域应用的总结
人工智能前沿讲习班
31+阅读 · 2019年6月4日
揭开GANs的神秘面纱
机器学习算法与Python学习
10+阅读 · 2019年2月27日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关主题
最新内容
综述 | 世界动作模型:少做梦,多行动
专知会员服务
4+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
7+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员