We introduce Discrete Voxel Diffusion (DVD), a discrete diffusion framework to generate, assess, and edit sparse voxels for SLat (Structured LATent) based 3D generative pipelines. Although discrete diffusion has not generally displaced continuous diffusion in image-like generation, we show that it can be an effective first-stage prior for sparse voxel scaffolds. By treating voxel occupancy as a native discrete variable, DVD avoids continuous-to-discrete thresholding and provides a simple framework for voxel generation, uncertainty estimation, and editing. Beyond quality gains, DVD provides more interpretable generation dynamics through explicit categorical modeling. Furthermore, we leverage the predictive entropy as a robust uncertainty metric to identify ambiguous voxel regions and complicated samples, facilitating tasks such as data filtering and quality assessment. Finally, we propose a lightweight fine-tuning strategy using block-structured perturbation patterns. This approach empowers the model to inpaint and edit voxels within a single sampling round, requiring negligible auxiliary computation and no additional model evaluations. Code is available at https://github.com/TeCai/DVD.


翻译:我们提出离散体素扩散(DVD)——一种用于生成、评估和编辑稀疏体素的离散扩散框架,适用于基于SLat(结构化隐式张量)的三维生成管线。尽管在类图像生成任务中离散扩散尚未普遍取代连续扩散,但研究表明,离散扩散可作为稀疏体素支架的有效第一阶段先验。通过将体素占用率视作原生离散变量,DVD避免了连续到离散的阈值化过程,并提供了体素生成、不确定性估计与编辑的简洁框架。除质量提升外,DVD通过显式类别建模实现了更具可解释性的生成动态。此外,我们利用预测熵作为稳健的不确定性度量,以识别模糊体素区域与复杂样本,进而支持数据筛选与质量评估等任务。最后,我们提出一种基于分块扰动模式的轻量微调策略。该方法使模型能够在单次采样回合内完成体素修补与编辑,所需辅助计算量可忽略且无需额外模型评估。代码见https://github.com/TeCai/DVD。

0
下载
关闭预览

相关内容

144页ppt《扩散模型》,Google DeepMind Sander Dieleman
专知会员服务
51+阅读 · 2025年11月21日
用于语言生成的离散扩散模型
专知会员服务
12+阅读 · 2025年7月10日
医学影像中的高效扩散模型:全面综述
专知会员服务
15+阅读 · 2025年5月26日
【新书】图像与视觉领域的扩散模型教程,90页pdf
专知会员服务
48+阅读 · 2025年1月9日
《基于扩散模型的条件图像生成》综述
专知会员服务
44+阅读 · 2024年10月1日
视频扩散模型:综述
专知会员服务
38+阅读 · 2024年5月8日
【简明书】扩散模型在图像和视觉领域的教程,51页pdf
专知会员服务
58+阅读 · 2024年3月29日
【ICML2020】图神经网络谱聚类
专知
10+阅读 · 2020年7月7日
超像素、语义分割、实例分割、全景分割 傻傻分不清?
计算机视觉life
19+阅读 · 2018年11月27日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
网状网络及其在军事领域的运用
专知会员服务
2+阅读 · 今天6:18
无美国参与的欧洲战争方式(万字长文)
专知会员服务
2+阅读 · 今天5:54
《国防领域敏感性分析白皮书》
专知会员服务
2+阅读 · 今天3:42
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
3+阅读 · 6月24日
重新思考无人机时代的生存能力
专知会员服务
7+阅读 · 6月24日
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
5+阅读 · 6月24日
在人工智能加速决策环境中拓展OODA循环
专知会员服务
7+阅读 · 6月24日
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
6+阅读 · 6月24日
相关VIP内容
144页ppt《扩散模型》,Google DeepMind Sander Dieleman
专知会员服务
51+阅读 · 2025年11月21日
用于语言生成的离散扩散模型
专知会员服务
12+阅读 · 2025年7月10日
医学影像中的高效扩散模型:全面综述
专知会员服务
15+阅读 · 2025年5月26日
【新书】图像与视觉领域的扩散模型教程,90页pdf
专知会员服务
48+阅读 · 2025年1月9日
《基于扩散模型的条件图像生成》综述
专知会员服务
44+阅读 · 2024年10月1日
视频扩散模型:综述
专知会员服务
38+阅读 · 2024年5月8日
【简明书】扩散模型在图像和视觉领域的教程,51页pdf
专知会员服务
58+阅读 · 2024年3月29日
相关资讯
【ICML2020】图神经网络谱聚类
专知
10+阅读 · 2020年7月7日
超像素、语义分割、实例分割、全景分割 傻傻分不清?
计算机视觉life
19+阅读 · 2018年11月27日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员