We tackle the task of text-to-3D creation with pre-trained latent-based NeRFs (NeRFs that generate 3D objects given input latent code). Recent works such as DreamFusion and Magic3D have shown great success in generating 3D content using NeRFs and text prompts, but the current approach of optimizing a NeRF for every text prompt is 1) extremely time-consuming and 2) often leads to low-resolution outputs. To address these challenges, we propose a novel method named 3D-CLFusion which leverages the pre-trained latent-based NeRFs and performs fast 3D content creation in less than a minute. In particular, we introduce a latent diffusion prior network for learning the w latent from the input CLIP text/image embeddings. This pipeline allows us to produce the w latent without further optimization during inference and the pre-trained NeRF is able to perform multi-view high-resolution 3D synthesis based on the latent. We note that the novelty of our model lies in that we introduce contrastive learning during training the diffusion prior which enables the generation of the valid view-invariant latent code. We demonstrate through experiments the effectiveness of our proposed view-invariant diffusion process for fast text-to-3D creation, e.g., 100 times faster than DreamFusion. We note that our model is able to serve as the role of a plug-and-play tool for text-to-3D with pre-trained NeRFs.


翻译:我们针对利用预训练潜在神经辐射场(NeRF,根据输入潜在码生成三维对象的NeRF)实现文本到三维内容生成的任务展开研究。近期诸如DreamFusion和Magic3D等方法在借助NeRF与文本提示生成三维内容方面取得了显著成功,但当前针对每个文本提示优化NeRF的方案存在两大问题:1)耗时极长;2)输出分辨率往往较低。为应对这些挑战,我们提出名为3D-CLFusion的新方法,该方法利用预训练潜在NeRF,在不到一分钟内实现快速三维内容生成。具体而言,我们引入潜在扩散先验网络,从输入的CLIP文本/图像嵌入中学习w潜在码。该流程使得我们能够在推理时无需进一步优化即可生成w潜在码,而预训练NeRF能基于该潜在码执行多视角高分辨率三维合成。值得注意的是,我们方法的新颖之处在于:在训练扩散先验过程中引入对比学习,从而生成有效且视角不变的潜在码。通过实验证明,我们提出的视角不变扩散过程在快速文本到三维内容生成方面的有效性——例如,速度比DreamFusion快100倍。此外,我们的模型可作为预训练NeRF的即插即用工具,服务于文本到三维生成任务。

0
下载
关闭预览

相关内容

 DiffRec: 扩散推荐模型(SIGIR'23)
专知会员服务
48+阅读 · 2023年4月16日
用于分子Linker设计的等变3D条件扩散模型
专知会员服务
6+阅读 · 2022年10月24日
GraphBP:3D空间中的靶向分子生成
专知会员服务
12+阅读 · 2022年9月27日
【SIGGRAPH 2022】域增强的任意图像风格对比迁移方法
专知会员服务
26+阅读 · 2022年4月20日
NAACL 2022 | 基于Prompt的文本生成迁移学习
PaperWeekly
1+阅读 · 2022年8月31日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
可解释的CNN
CreateAMind
18+阅读 · 2017年10月5日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
12+阅读 · 2021年6月21日
VIP会员
最新内容
超越网格:作战环境对炮兵的影响
专知会员服务
1+阅读 · 今天15:35
KDD 2026 | MixRAGRec:面向LLM推荐的混合专家KG-RAG框架
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
4+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
4+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
14+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
8+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
相关VIP内容
 DiffRec: 扩散推荐模型(SIGIR'23)
专知会员服务
48+阅读 · 2023年4月16日
用于分子Linker设计的等变3D条件扩散模型
专知会员服务
6+阅读 · 2022年10月24日
GraphBP:3D空间中的靶向分子生成
专知会员服务
12+阅读 · 2022年9月27日
【SIGGRAPH 2022】域增强的任意图像风格对比迁移方法
专知会员服务
26+阅读 · 2022年4月20日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员