文本引导的 3D 编辑旨在通过自然语言指令对现有的 3D 资产进行修改。现有方法在协同理解复杂提示词、自动化 3D 编辑定位以及保持非编辑区域内容完整性方面仍面临巨大挑战。本文提出 Vinedresser3D,这是一种用于高质量文本引导 3D 编辑的智能体化框架(Agentic Framework),该框架直接在原生 3D 生成模型的潜空间(Latent Space)中执行操作。 针对给定的 3D 资产与编辑提示词,Vinedresser3D 利用多模态大语言模型(MLLM)推断原资产的详尽描述,精准识别编辑区域及类型(增补、修改或删除),并生成解耦后的结构级与外观级文本引导。随后,该智能体自主选择具备丰富信息的视角,并调用图像编辑模型以获取视觉引导。最后,通过一种集成交错采样模块(Interleaved Sampling Module)基于逆向算子的修正流(Rectified-flow)内补绘制管线,在 3D 潜空间中完成编辑任务;该机制在确保 3D 一致性并保留未编辑区域的同时,实现了严苛的提示词对齐。 针对多种 3D 编辑场景的实验结果表明,Vinedresser3D 在客观评估指标与主观人类偏好研究中均优于现有基准方法,并实现了精确、连贯且**免掩码(Mask-free)**的 3D 编辑。

成为VIP会员查看完整内容
9

相关内容

【CVPR2024】VidLA: 大规模视频-语言对齐
专知会员服务
20+阅读 · 2024年3月31日
【CVPR2024】VP3D:释放二维视觉提示以进行文本到三维生成
【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型
专知会员服务
30+阅读 · 2024年3月10日
【CVPR2023】NS3D:3D对象和关系的神经符号Grounding
专知会员服务
22+阅读 · 2023年3月26日
[ICCV 2021] 联合视觉语义推理:文本识别的多级解码器
专知会员服务
19+阅读 · 2021年11月28日
【Tutorial】计算机视觉中的Transformer,98页ppt
专知
21+阅读 · 2021年10月25日
论文盘点:CVPR 2019 - 文本检测专题
PaperWeekly
14+阅读 · 2019年5月31日
CVPR 2019 | PointConv:在点云上高效实现卷积操作
机器之心
10+阅读 · 2019年4月21日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员