【CVPR2026】Vinedresser3D：智能体化文本引导的 3D 编辑 - 专知VIP

会员服务 ·

5

CVPR 2026 · 3D编辑 ·

【CVPR2026】Vinedresser3D：智能体化文本引导的 3D 编辑

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

文本引导的 3D 编辑旨在通过自然语言指令对现有的 3D 资产进行修改。现有方法在协同理解复杂提示词、自动化 3D 编辑定位以及保持非编辑区域内容完整性方面仍面临巨大挑战。本文提出 Vinedresser3D，这是一种用于高质量文本引导 3D 编辑的智能体化框架（Agentic Framework），该框架直接在原生 3D 生成模型的潜空间（Latent Space）中执行操作。针对给定的 3D 资产与编辑提示词，Vinedresser3D 利用多模态大语言模型（MLLM）推断原资产的详尽描述，精准识别编辑区域及类型（增补、修改或删除），并生成解耦后的结构级与外观级文本引导。随后，该智能体自主选择具备丰富信息的视角，并调用图像编辑模型以获取视觉引导。最后，通过一种集成交错采样模块（Interleaved Sampling Module）的基于逆向算子的修正流（Rectified-flow）内补绘制管线，在 3D 潜空间中完成编辑任务；该机制在确保 3D 一致性并保留未编辑区域的同时，实现了严苛的提示词对齐。针对多种 3D 编辑场景的实验结果表明，Vinedresser3D 在客观评估指标与主观人类偏好研究中均优于现有基准方法，并实现了精确、连贯且**免掩码（Mask-free）**的 3D 编辑。

成为VIP会员查看完整内容

9

相关内容

CVPR 2026

【CVPR2026】SwiftTailor：利用几何图像表示实现高效的 3D 服装生成。

【CVPR2026】SwiftTailor：利用几何图像表示实现高效的 3D 服装生成。

专知会员服务

6+阅读 · 3月22日

【CVPR2025】基于低秩专家混合机制的视觉语言模型终身知识编辑

【CVPR2025】基于低秩专家混合机制的视觉语言模型终身知识编辑

专知会员服务

14+阅读 · 2025年4月14日

【CVPR2025】《VideoMage：文本到视频扩散模型的多主体与运动定制》

【CVPR2025】《VideoMage：文本到视频扩散模型的多主体与运动定制》

专知会员服务

12+阅读 · 2025年3月28日

【CVPR2024】VidLA: 大规模视频-语言对齐

【CVPR2024】VidLA: 大规模视频-语言对齐

专知会员服务

20+阅读 · 2024年3月31日

【CVPR2024】VP3D：释放二维视觉提示以进行文本到三维生成

【CVPR2024】VP3D：释放二维视觉提示以进行文本到三维生成

专知会员服务

23+阅读 · 2024年3月26日

【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型

【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型

专知会员服务

30+阅读 · 2024年3月10日

CVPR 2023开会了！UIUC等最新《知识驱动的视觉语言编码》教程，附ppt

CVPR 2023开会了！UIUC等最新《知识驱动的视觉语言编码》教程，附ppt

专知会员服务

34+阅读 · 2023年6月24日

【CVPR2023】Mask3D:通过学习掩码3D先验对2D视觉transformer进行预训练

【CVPR2023】Mask3D:通过学习掩码3D先验对2D视觉transformer进行预训练

专知会员服务

24+阅读 · 2023年4月9日

【CVPR2023】NS3D：3D对象和关系的神经符号Grounding

【CVPR2023】NS3D：3D对象和关系的神经符号Grounding

专知会员服务

23+阅读 · 2023年3月26日

【CVPR2020】语义增强的场景文本识别的编码-解码器框架，SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

【CVPR2020】语义增强的场景文本识别的编码-解码器框架，SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

专知会员服务

25+阅读 · 2020年5月22日

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

【2022新书】Transformer自然语言处理：构建语言应用

【2022新书】Transformer自然语言处理：构建语言应用

专知

38+阅读 · 2022年1月31日

【Tutorial】计算机视觉中的Transformer，98页ppt

【Tutorial】计算机视觉中的Transformer，98页ppt

专知

21+阅读 · 2021年10月25日

最新《知识驱动的文本生成》综述论文，44页pdf

最新《知识驱动的文本生成》综述论文，44页pdf

专知

26+阅读 · 2020年10月14日

【ICME2019】智能图像视频编辑，北大教程，400多页PPT

【ICME2019】智能图像视频编辑，北大教程，400多页PPT

专知

11+阅读 · 2019年7月14日

【泡泡图灵智库】VITAMIN-E:极密集特征点的视觉跟踪和建图（CVPR）

【泡泡图灵智库】VITAMIN-E:极密集特征点的视觉跟踪和建图（CVPR）

泡泡机器人SLAM

10+阅读 · 2019年6月14日

【泡泡图灵智库】FlowNet3D:在三维点云中学习场景流（CVPR）

【泡泡图灵智库】FlowNet3D:在三维点云中学习场景流（CVPR）

泡泡机器人SLAM

13+阅读 · 2019年6月13日

论文盘点：CVPR 2019 - 文本检测专题

论文盘点：CVPR 2019 - 文本检测专题

PaperWeekly

14+阅读 · 2019年5月31日

CVPR 2019 | PointConv：在点云上高效实现卷积操作

CVPR 2019 | PointConv：在点云上高效实现卷积操作

机器之心

10+阅读 · 2019年4月21日

【KDD2018】UIUC韩家炜团队218页文本语料数据挖掘教程

【KDD2018】UIUC韩家炜团队218页文本语料数据挖掘教程

专知

21+阅读 · 2018年8月22日

基于内容分析的低复杂度高效视频编码方法

国家自然科学基金

0+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向视觉质量的高效立体视频编码资源分配优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于本体及推理机的构件化软件演化信息获取及度量技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

InterEdit: Navigating Text-Guided Multi-Human 3D Motion Editing

Arxiv

0+阅读 · 3月13日

Variation-aware Flexible 3D Gaussian Editing

Arxiv

0+阅读 · 3月13日

SceneAssistant: A Visual Feedback Agent for Open-Vocabulary 3D Scene Generation

Arxiv

0+阅读 · 3月12日

Context-Nav: Context-Driven Exploration and Viewpoint-Aware 3D Spatial Reasoning for Instance Navigation

Arxiv

0+阅读 · 3月10日

Improved 3D Scene Stylization via Text-Guided Generative Image Editing with Region-Based Control

Arxiv

0+阅读 · 3月2日

CoreEditor: Correspondence-constrained Diffusion for Consistent 3D Editing

Arxiv

0+阅读 · 2月19日

Variation-aware Flexible 3D Gaussian Editing

Arxiv

0+阅读 · 2月12日

FusionEdit: Semantic Fusion and Attention Modulation for Training-Free Image Editing

Arxiv

0+阅读 · 2月9日

Training-Free Text-Guided Color Editing with Multi-Modal Diffusion Transformer

Arxiv

0+阅读 · 2月3日

VDE Bench: Evaluating The Capability of Image Editing Models to Modify Visual Documents

Arxiv

0+阅读 · 1月27日

VIP会员

相关主题

最新内容

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

7+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

4+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

6+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

7+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

11+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

11+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

8+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

18+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

9+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

相关VIP内容

【CVPR2026】SwiftTailor：利用几何图像表示实现高效的 3D 服装生成。

【CVPR2026】SwiftTailor：利用几何图像表示实现高效的 3D 服装生成。

专知会员服务

6+阅读 · 3月22日

【CVPR2025】基于低秩专家混合机制的视觉语言模型终身知识编辑

【CVPR2025】基于低秩专家混合机制的视觉语言模型终身知识编辑

专知会员服务

14+阅读 · 2025年4月14日

【CVPR2025】《VideoMage：文本到视频扩散模型的多主体与运动定制》

【CVPR2025】《VideoMage：文本到视频扩散模型的多主体与运动定制》

专知会员服务

12+阅读 · 2025年3月28日

【CVPR2024】VidLA: 大规模视频-语言对齐

【CVPR2024】VidLA: 大规模视频-语言对齐

专知会员服务

20+阅读 · 2024年3月31日

【CVPR2024】VP3D：释放二维视觉提示以进行文本到三维生成

【CVPR2024】VP3D：释放二维视觉提示以进行文本到三维生成

专知会员服务

23+阅读 · 2024年3月26日

【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型

【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型

专知会员服务

30+阅读 · 2024年3月10日

CVPR 2023开会了！UIUC等最新《知识驱动的视觉语言编码》教程，附ppt

CVPR 2023开会了！UIUC等最新《知识驱动的视觉语言编码》教程，附ppt

专知会员服务

34+阅读 · 2023年6月24日

【CVPR2023】Mask3D:通过学习掩码3D先验对2D视觉transformer进行预训练

【CVPR2023】Mask3D:通过学习掩码3D先验对2D视觉transformer进行预训练

专知会员服务

24+阅读 · 2023年4月9日

【CVPR2023】NS3D：3D对象和关系的神经符号Grounding

【CVPR2023】NS3D：3D对象和关系的神经符号Grounding

专知会员服务

23+阅读 · 2023年3月26日

【CVPR2020】语义增强的场景文本识别的编码-解码器框架，SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

【CVPR2020】语义增强的场景文本识别的编码-解码器框架，SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

专知会员服务

25+阅读 · 2020年5月22日

热门VIP内容

开通专知VIP会员享更多权益服务

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

相关资讯

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

【2022新书】Transformer自然语言处理：构建语言应用

【2022新书】Transformer自然语言处理：构建语言应用

专知

38+阅读 · 2022年1月31日

【Tutorial】计算机视觉中的Transformer，98页ppt

【Tutorial】计算机视觉中的Transformer，98页ppt

专知

21+阅读 · 2021年10月25日

最新《知识驱动的文本生成》综述论文，44页pdf

最新《知识驱动的文本生成》综述论文，44页pdf

专知

26+阅读 · 2020年10月14日

【ICME2019】智能图像视频编辑，北大教程，400多页PPT

【ICME2019】智能图像视频编辑，北大教程，400多页PPT

专知

11+阅读 · 2019年7月14日

【泡泡图灵智库】VITAMIN-E:极密集特征点的视觉跟踪和建图（CVPR）

【泡泡图灵智库】VITAMIN-E:极密集特征点的视觉跟踪和建图（CVPR）

泡泡机器人SLAM

10+阅读 · 2019年6月14日

【泡泡图灵智库】FlowNet3D:在三维点云中学习场景流（CVPR）

【泡泡图灵智库】FlowNet3D:在三维点云中学习场景流（CVPR）

泡泡机器人SLAM

13+阅读 · 2019年6月13日

论文盘点：CVPR 2019 - 文本检测专题

论文盘点：CVPR 2019 - 文本检测专题

PaperWeekly

14+阅读 · 2019年5月31日

CVPR 2019 | PointConv：在点云上高效实现卷积操作

CVPR 2019 | PointConv：在点云上高效实现卷积操作

机器之心

10+阅读 · 2019年4月21日

【KDD2018】UIUC韩家炜团队218页文本语料数据挖掘教程

【KDD2018】UIUC韩家炜团队218页文本语料数据挖掘教程

专知

21+阅读 · 2018年8月22日

相关基金

基于内容分析的低复杂度高效视频编码方法

国家自然科学基金

0+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向视觉质量的高效立体视频编码资源分配优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于本体及推理机的构件化软件演化信息获取及度量技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

相关论文

InterEdit: Navigating Text-Guided Multi-Human 3D Motion Editing

Arxiv

0+阅读 · 3月13日

Variation-aware Flexible 3D Gaussian Editing

Arxiv

0+阅读 · 3月13日

SceneAssistant: A Visual Feedback Agent for Open-Vocabulary 3D Scene Generation

Arxiv

0+阅读 · 3月12日

Context-Nav: Context-Driven Exploration and Viewpoint-Aware 3D Spatial Reasoning for Instance Navigation

Arxiv

0+阅读 · 3月10日

Improved 3D Scene Stylization via Text-Guided Generative Image Editing with Region-Based Control

Arxiv

0+阅读 · 3月2日

CoreEditor: Correspondence-constrained Diffusion for Consistent 3D Editing

Arxiv

0+阅读 · 2月19日

Variation-aware Flexible 3D Gaussian Editing

Arxiv

0+阅读 · 2月12日

FusionEdit: Semantic Fusion and Attention Modulation for Training-Free Image Editing

Arxiv

0+阅读 · 2月9日

Training-Free Text-Guided Color Editing with Multi-Modal Diffusion Transformer

Arxiv

0+阅读 · 2月3日

VDE Bench: Evaluating The Capability of Image Editing Models to Modify Visual Documents

Arxiv

0+阅读 · 1月27日

微信扫码咨询专知VIP会员