DVD: Discrete Voxel Diffusion for 3D Generation and Editing - 专知论文

会员服务 ·

0

离散 · 三维生成 · 稀疏 · 不确定 · 不确定性 ·

DVD: Discrete Voxel Diffusion for 3D Generation and Editing

翻译：DVD：面向三维生成与编辑的离散体素扩散模型

Zhengrui Xiang,Jiaqi Wu,Fupeng Sun,Heliang Zheng,Yingzhen Li

We introduce Discrete Voxel Diffusion (DVD), a discrete diffusion framework to generate, assess, and edit sparse voxels for SLat (Structured LATent) based 3D generative pipelines. Although discrete diffusion has not generally displaced continuous diffusion in image-like generation, we show that it can be an effective first-stage prior for sparse voxel scaffolds. By treating voxel occupancy as a native discrete variable, DVD avoids continuous-to-discrete thresholding and provides a simple framework for voxel generation, uncertainty estimation, and editing. Beyond quality gains, DVD provides more interpretable generation dynamics through explicit categorical modeling. Furthermore, we leverage the predictive entropy as a robust uncertainty metric to identify ambiguous voxel regions and complicated samples, facilitating tasks such as data filtering and quality assessment. Finally, we propose a lightweight fine-tuning strategy using block-structured perturbation patterns. This approach empowers the model to inpaint and edit voxels within a single sampling round, requiring negligible auxiliary computation and no additional model evaluations. Code is available at https://github.com/TeCai/DVD.

翻译：我们提出离散体素扩散（DVD）——一种用于生成、评估和编辑稀疏体素的离散扩散框架，适用于基于SLat（结构化隐式张量）的三维生成管线。尽管在类图像生成任务中离散扩散尚未普遍取代连续扩散，但研究表明，离散扩散可作为稀疏体素支架的有效第一阶段先验。通过将体素占用率视作原生离散变量，DVD避免了连续到离散的阈值化过程，并提供了体素生成、不确定性估计与编辑的简洁框架。除质量提升外，DVD通过显式类别建模实现了更具可解释性的生成动态。此外，我们利用预测熵作为稳健的不确定性度量，以识别模糊体素区域与复杂样本，进而支持数据筛选与质量评估等任务。最后，我们提出一种基于分块扰动模式的轻量微调策略。该方法使模型能够在单次采样回合内完成体素修补与编辑，所需辅助计算量可忽略且无需额外模型评估。代码见https://github.com/TeCai/DVD。

0

相关内容

144页ppt《扩散模型》，Google DeepMind Sander Dieleman

144页ppt《扩散模型》，Google DeepMind Sander Dieleman

专知会员服务

51+阅读 · 2025年11月21日

如何理解扩散模型？ICML2025最新《利用扩散模型中的低维性：从理论到实践》。300页ppt

如何理解扩散模型？ICML2025最新《利用扩散模型中的低维性：从理论到实践》。300页ppt

专知会员服务

59+阅读 · 2025年7月20日

用于语言生成的离散扩散模型

用于语言生成的离散扩散模型

专知会员服务

12+阅读 · 2025年7月10日

医学影像中的高效扩散模型：全面综述

医学影像中的高效扩散模型：全面综述

专知会员服务

15+阅读 · 2025年5月26日

【新书】图像与视觉领域的扩散模型教程，90页pdf

【新书】图像与视觉领域的扩散模型教程，90页pdf

专知会员服务

48+阅读 · 2025年1月9日

《基于扩散模型的条件图像生成》综述

《基于扩散模型的条件图像生成》综述

专知会员服务

44+阅读 · 2024年10月1日

视频扩散模型：综述

视频扩散模型：综述

专知会员服务

38+阅读 · 2024年5月8日

Sora之后，OpenAI Lilian Weng亲自撰文教你从头设计《视频生成扩散模型》

Sora之后，OpenAI Lilian Weng亲自撰文教你从头设计《视频生成扩散模型》

专知会员服务

22+阅读 · 2024年4月22日

【简明书】扩散模型在图像和视觉领域的教程，51页pdf

【简明书】扩散模型在图像和视觉领域的教程，51页pdf

专知会员服务

58+阅读 · 2024年3月29日

大“火”的扩散模型综述又一弹！UCF等《视觉扩散模型》综述，20页pdf详述三种通用的扩散建模框架

大“火”的扩散模型综述又一弹！UCF等《视觉扩散模型》综述，20页pdf详述三种通用的扩散建模框架

专知会员服务

87+阅读 · 2022年9月13日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

【ICML2020】图神经网络谱聚类

【ICML2020】图神经网络谱聚类

专知

10+阅读 · 2020年7月7日

【华南理工大学ICCV-CVPR2019】基于单一的RGB图像的拓扑感知的三维物体重建

【华南理工大学ICCV-CVPR2019】基于单一的RGB图像的拓扑感知的三维物体重建

专知

18+阅读 · 2020年1月15日

超像素、语义分割、实例分割、全景分割傻傻分不清？

超像素、语义分割、实例分割、全景分割傻傻分不清？

计算机视觉life

19+阅读 · 2018年11月27日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

专知

10+阅读 · 2018年3月2日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

后向散斑记忆水下目标激光远距离成像的理论与实验研究

国家自然科学基金

0+阅读 · 2015年12月31日

离散曲面的局部形状特征描述及应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

一种高通量大尺度生物样品电镜三维重构方法的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于稀疏理论和图Laplacian矩阵的图像去噪理论与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向视觉质量的高效立体视频编码资源分配优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

用隐身方法对散射介质后物体非侵入式成像

国家自然科学基金

0+阅读 · 2015年12月31日

三维立体GR/有序介孔Bi2MoO6 异质结的设计合成及可见光催化性能

国家自然科学基金

0+阅读 · 2014年12月31日

基于超像素稀疏表示的图像超分辨率方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

距离选通编码超分辨率三维成像方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

纤维素基多孔整体柱色谱介质的合成与生物分离研究

国家自然科学基金

0+阅读 · 2014年12月31日

MMDiff: Extending Diffusion Transformers for Multi-Modal Generation

Arxiv

0+阅读 · 6月15日

SceneConductor: 3D Scene Generation from a Single Image with Multi-Agent Orchestration

Arxiv

0+阅读 · 6月13日

VideoMDM: Towards 3D Human Motion Generation From 2D Supervision

Arxiv

0+阅读 · 6月11日

HYGENE: A Diffusion-based Hypergraph Generation Method

Arxiv

0+阅读 · 5月29日

Veda: Scalable Video Diffusion via Distilled Sparse Attention

Arxiv

0+阅读 · 5月28日

Towards Controllable Image Generation through Representation-Conditioned Diffusion Models

Arxiv

0+阅读 · 5月26日

VoxScene: Anchor-Conditioned Voxel Diffusion for Indoor Scene Arrangement

Arxiv

0+阅读 · 5月16日

Pixal3D: Pixel-Aligned 3D Generation from Images

Arxiv

0+阅读 · 5月11日

ArtiFixer: Enhancing and Extending 3D Reconstruction with Auto-Regressive Diffusion Models

Arxiv

0+阅读 · 5月5日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

88+阅读 · 2023年4月4日

VIP会员

文章信息

相关主题

最新内容

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

0+阅读 · 今天6:30

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

2+阅读 · 今天6:18

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

2+阅读 · 今天6:08

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

2+阅读 · 今天5:54

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

0+阅读 · 今天5:22

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

3+阅读 · 今天5:15

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

2+阅读 · 今天3:42

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

4+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

3+阅读 · 6月24日

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

8+阅读 · 6月24日

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

7+阅读 · 6月24日

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

5+阅读 · 6月24日

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

7+阅读 · 6月24日

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

6+阅读 · 6月24日

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

6+阅读 · 6月24日

相关VIP内容

144页ppt《扩散模型》，Google DeepMind Sander Dieleman

144页ppt《扩散模型》，Google DeepMind Sander Dieleman

专知会员服务

51+阅读 · 2025年11月21日

如何理解扩散模型？ICML2025最新《利用扩散模型中的低维性：从理论到实践》。300页ppt

如何理解扩散模型？ICML2025最新《利用扩散模型中的低维性：从理论到实践》。300页ppt

专知会员服务

59+阅读 · 2025年7月20日

用于语言生成的离散扩散模型

用于语言生成的离散扩散模型

专知会员服务

12+阅读 · 2025年7月10日

医学影像中的高效扩散模型：全面综述

医学影像中的高效扩散模型：全面综述

专知会员服务

15+阅读 · 2025年5月26日

【新书】图像与视觉领域的扩散模型教程，90页pdf

【新书】图像与视觉领域的扩散模型教程，90页pdf

专知会员服务

48+阅读 · 2025年1月9日

《基于扩散模型的条件图像生成》综述

《基于扩散模型的条件图像生成》综述

专知会员服务

44+阅读 · 2024年10月1日

视频扩散模型：综述

视频扩散模型：综述

专知会员服务

38+阅读 · 2024年5月8日

Sora之后，OpenAI Lilian Weng亲自撰文教你从头设计《视频生成扩散模型》

Sora之后，OpenAI Lilian Weng亲自撰文教你从头设计《视频生成扩散模型》

专知会员服务

22+阅读 · 2024年4月22日

【简明书】扩散模型在图像和视觉领域的教程，51页pdf

【简明书】扩散模型在图像和视觉领域的教程，51页pdf

专知会员服务

58+阅读 · 2024年3月29日

大“火”的扩散模型综述又一弹！UCF等《视觉扩散模型》综述，20页pdf详述三种通用的扩散建模框架

大“火”的扩散模型综述又一弹！UCF等《视觉扩散模型》综述，20页pdf详述三种通用的扩散建模框架

专知会员服务

87+阅读 · 2022年9月13日

热门VIP内容

开通专知VIP会员享更多权益服务

网状网络及其在军事领域的运用

无美国参与的欧洲战争方式（万字长文）

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

相关资讯

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

【ICML2020】图神经网络谱聚类

【ICML2020】图神经网络谱聚类

专知

10+阅读 · 2020年7月7日

【华南理工大学ICCV-CVPR2019】基于单一的RGB图像的拓扑感知的三维物体重建

【华南理工大学ICCV-CVPR2019】基于单一的RGB图像的拓扑感知的三维物体重建

专知

18+阅读 · 2020年1月15日

超像素、语义分割、实例分割、全景分割傻傻分不清？

超像素、语义分割、实例分割、全景分割傻傻分不清？

计算机视觉life

19+阅读 · 2018年11月27日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

专知

10+阅读 · 2018年3月2日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

相关论文

MMDiff: Extending Diffusion Transformers for Multi-Modal Generation

Arxiv

0+阅读 · 6月15日

SceneConductor: 3D Scene Generation from a Single Image with Multi-Agent Orchestration

Arxiv

0+阅读 · 6月13日

VideoMDM: Towards 3D Human Motion Generation From 2D Supervision

Arxiv

0+阅读 · 6月11日

HYGENE: A Diffusion-based Hypergraph Generation Method

Arxiv

0+阅读 · 5月29日

Veda: Scalable Video Diffusion via Distilled Sparse Attention

Arxiv

0+阅读 · 5月28日

Towards Controllable Image Generation through Representation-Conditioned Diffusion Models

Arxiv

0+阅读 · 5月26日

VoxScene: Anchor-Conditioned Voxel Diffusion for Indoor Scene Arrangement

Arxiv

0+阅读 · 5月16日

Pixal3D: Pixel-Aligned 3D Generation from Images

Arxiv

0+阅读 · 5月11日

ArtiFixer: Enhancing and Extending 3D Reconstruction with Auto-Regressive Diffusion Models

Arxiv

0+阅读 · 5月5日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

88+阅读 · 2023年4月4日

相关基金

后向散斑记忆水下目标激光远距离成像的理论与实验研究

国家自然科学基金

0+阅读 · 2015年12月31日

离散曲面的局部形状特征描述及应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

一种高通量大尺度生物样品电镜三维重构方法的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于稀疏理论和图Laplacian矩阵的图像去噪理论与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向视觉质量的高效立体视频编码资源分配优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

用隐身方法对散射介质后物体非侵入式成像

国家自然科学基金

0+阅读 · 2015年12月31日

三维立体GR/有序介孔Bi2MoO6 异质结的设计合成及可见光催化性能

国家自然科学基金

0+阅读 · 2014年12月31日

基于超像素稀疏表示的图像超分辨率方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

距离选通编码超分辨率三维成像方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

纤维素基多孔整体柱色谱介质的合成与生物分离研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员