ShapeUP: Scalable Image-Conditioned 3D Editing - 专知论文

会员服务 ·

0

3D · 3D编辑 · 潜空间 · 一致 · 形式化 ·

ShapeUP: Scalable Image-Conditioned 3D Editing

翻译：ShapeUP：可扩展的图像条件3D编辑

Inbar Gat,Dana Cohen-Bar,Guy Levy,Elad Richardson,Daniel Cohen-Or

from arxiv, SIGGRAPH 2026. Project page: https://inbar-2344.github.io/ShapeUp-page/

Recent advancements in 3D foundation models have enabled the generation of high-fidelity assets, yet precise 3D manipulation remains a significant challenge. Existing 3D editing frameworks often face a difficult trade-off between visual controllability, geometric consistency, and scalability. Specifically, optimization-based methods are prohibitively slow, multi-view 2D propagation techniques suffer from visual drift, and training-free latent manipulation methods are inherently bound by frozen priors and cannot directly benefit from scaling. In this work, we present ShapeUP, a scalable, image-conditioned 3D editing framework that formulates editing as a supervised latent-to-latent translation within a native 3D representation. This formulation allows ShapeUP to build on a pretrained 3D foundation model, leveraging its strong generative prior while adapting it to editing through supervised training. In practice, ShapeUP is trained on triplets consisting of a source 3D shape, an edited 2D image, and the corresponding edited 3D shape, and learns a direct mapping using a 3D Diffusion Transformer (DiT). This image-as-prompt approach enables fine-grained visual control over both local and global edits and achieves implicit, mask-free localization, while maintaining strict structural consistency with the original asset. Our extensive evaluations demonstrate that ShapeUP consistently outperforms current trained and training-free baselines in both identity preservation and edit fidelity, offering a robust and scalable paradigm for native 3D content creation.

翻译：近期3D基础模型的进展已实现高保真资产的生成，但精确的3D操控仍面临重大挑战。现有3D编辑框架往往在视觉可控性、几何一致性与可扩展性之间存在艰难权衡：基于优化的方法耗时过长，多视图2D传播技术存在视觉漂移，而免训练的潜空间操控方法本质上受限于冻结先验，无法直接受益于规模扩展。本文提出ShapeUP——一个可扩展的图像条件3D编辑框架，将编辑任务形式化为原生3D表征下的有监督潜空间到潜空间映射。该形式化使ShapeUP能够构建于预训练3D基础模型之上，在利用其强大生成先验的同时，通过有监督训练使其适配编辑任务。实践中，ShapeUP基于由源3D形状、编辑后2D图像及对应编辑后3D形状构成的三元组进行训练，通过3D扩散Transformer（DiT）学习直接映射。这种图像即提示的方法既支持对局部与全局编辑的细粒度视觉控制，又能实现隐式、无掩模的定位，同时保持与原始资产严格的结构一致性。大量评估表明，无论在身份保持还是编辑保真度方面，ShapeUP均持续优于现有训练与非训练基线方法，为原生3D内容创作提供了稳健且可扩展的范式。

0

相关内容

3D是英文“Three Dimensions”的简称，中文是指三维、三个维度、三个坐标，即有长、有宽、有高，换句话说，就是立体的，是相对于只有长和宽的平面（2D）而言。

【CVPR2026】SwiftTailor：利用几何图像表示实现高效的 3D 服装生成。

【CVPR2026】SwiftTailor：利用几何图像表示实现高效的 3D 服装生成。

专知会员服务

6+阅读 · 3月22日

3D形状生成：综述

3D形状生成：综述

专知会员服务

18+阅读 · 2025年7月7日

【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型

【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型

专知会员服务

30+阅读 · 2024年3月10日

【KAUST博士论文】朝向可扩展的深度3D感知与生成，109页pdf

【KAUST博士论文】朝向可扩展的深度3D感知与生成，109页pdf

专知会员服务

24+阅读 · 2023年10月19日

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

专知会员服务

48+阅读 · 2023年4月20日

伦敦大学学院最新《三维图像合成技术》综述，26页pdf阐述3D图像合成技术进展

伦敦大学学院最新《三维图像合成技术》综述，26页pdf阐述3D图像合成技术进展

专知会员服务

34+阅读 · 2022年10月27日

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

专知会员服务

39+阅读 · 2022年8月9日

图像增强领域大突破！以1.66ms的速度处理4K图像，港理工提出图像自适应的3DLUT

专知会员服务

17+阅读 · 2020年9月25日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

【三维物体和手部姿态估计】综述论文最新进展，Recent Advances in 3D Object and Hand Pose Estimation

【三维物体和手部姿态估计】综述论文最新进展，Recent Advances in 3D Object and Hand Pose Estimation

专知会员服务

21+阅读 · 2020年6月13日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

专知

21+阅读 · 2019年12月31日

【泡泡图灵智库】体积实例感知语义建图与3D对象发现

【泡泡图灵智库】体积实例感知语义建图与3D对象发现

泡泡机器人SLAM

22+阅读 · 2019年9月7日

Deformable Kernels，用于图像/视频去噪，即将开源

Deformable Kernels，用于图像/视频去噪，即将开源

极市平台

13+阅读 · 2019年8月29日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

基于GAN的图像水印去除器，效果堪比PS高手

基于GAN的图像水印去除器，效果堪比PS高手

AI100

12+阅读 · 2019年6月25日

目前最好的开源人脸3D重建与密集对齐算法

目前最好的开源人脸3D重建与密集对齐算法

计算机视觉life

17+阅读 · 2019年4月24日

Image Captioning 36页最新综述， 161篇参考文献

Image Captioning 36页最新综述， 161篇参考文献

专知

90+阅读 · 2018年10月23日

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

全球人工智能

12+阅读 · 2017年12月3日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

曲面上图像处理的非局部变分模型与算法

国家自然科学基金

0+阅读 · 2017年12月31日

高保真大景深实时3D显微成像研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于内容感知编辑算子的复合型人脸图像真实感绘制

国家自然科学基金

0+阅读 · 2015年12月31日

广义双随机相位编码系统中以QR码为载体的信息加密及无损恢复

国家自然科学基金

0+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

彩色图像的高保真可逆信息隐藏算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

纳米修饰与3D打印联用技术在医用材料中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

3DMorph: Single-Image-Guided Local 3D Shape Editing and Morphing

Arxiv

0+阅读 · 6月5日

Make-It-Poseable: Feed-forward Latent Posing Model for 3D Characters

Arxiv

0+阅读 · 5月13日

Prox-E: Fine-Grained 3D Shape Editing via Primitive-Based Abstractions

Arxiv

0+阅读 · 4月26日

InHabit: Leveraging Image Foundation Models for Scalable 3D Human Placement

Arxiv

0+阅读 · 4月21日

SketchFaceGS: Real-Time Sketch-Driven Face Editing and Generation with Gaussian Splatting

Arxiv

0+阅读 · 4月21日

AniGen: Unified $S^3$ Fields for Animatable 3D Asset Generation

Arxiv

0+阅读 · 4月9日

SpatialEdit: Benchmarking Fine-Grained Image Spatial Editing

Arxiv

0+阅读 · 4月6日

LaVR: Scene Latent Conditioned Generative Video Trajectory Re-Rendering using Large 4D Reconstruction Models

Arxiv

0+阅读 · 4月2日

Skullptor: High Fidelity 3D Head Reconstruction in Seconds with Multi-View Normal Prediction

Arxiv

0+阅读 · 3月27日

RealMaster: Lifting Rendered Scenes into Photorealistic Video

Arxiv

0+阅读 · 3月24日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

2+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

2+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

3+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

3+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

3+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

3+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

4+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

21+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

【CVPR2026】SwiftTailor：利用几何图像表示实现高效的 3D 服装生成。

【CVPR2026】SwiftTailor：利用几何图像表示实现高效的 3D 服装生成。

专知会员服务

6+阅读 · 3月22日

3D形状生成：综述

3D形状生成：综述

专知会员服务

18+阅读 · 2025年7月7日

【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型

【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型

专知会员服务

30+阅读 · 2024年3月10日

【KAUST博士论文】朝向可扩展的深度3D感知与生成，109页pdf

【KAUST博士论文】朝向可扩展的深度3D感知与生成，109页pdf

专知会员服务

24+阅读 · 2023年10月19日

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

专知会员服务

48+阅读 · 2023年4月20日

伦敦大学学院最新《三维图像合成技术》综述，26页pdf阐述3D图像合成技术进展

伦敦大学学院最新《三维图像合成技术》综述，26页pdf阐述3D图像合成技术进展

专知会员服务

34+阅读 · 2022年10月27日

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

专知会员服务

39+阅读 · 2022年8月9日

图像增强领域大突破！以1.66ms的速度处理4K图像，港理工提出图像自适应的3DLUT

专知会员服务

17+阅读 · 2020年9月25日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

【三维物体和手部姿态估计】综述论文最新进展，Recent Advances in 3D Object and Hand Pose Estimation

【三维物体和手部姿态估计】综述论文最新进展，Recent Advances in 3D Object and Hand Pose Estimation

专知会员服务

21+阅读 · 2020年6月13日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

专知

21+阅读 · 2019年12月31日

【泡泡图灵智库】体积实例感知语义建图与3D对象发现

【泡泡图灵智库】体积实例感知语义建图与3D对象发现

泡泡机器人SLAM

22+阅读 · 2019年9月7日

Deformable Kernels，用于图像/视频去噪，即将开源

Deformable Kernels，用于图像/视频去噪，即将开源

极市平台

13+阅读 · 2019年8月29日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

基于GAN的图像水印去除器，效果堪比PS高手

基于GAN的图像水印去除器，效果堪比PS高手

AI100

12+阅读 · 2019年6月25日

目前最好的开源人脸3D重建与密集对齐算法

目前最好的开源人脸3D重建与密集对齐算法

计算机视觉life

17+阅读 · 2019年4月24日

Image Captioning 36页最新综述， 161篇参考文献

Image Captioning 36页最新综述， 161篇参考文献

专知

90+阅读 · 2018年10月23日

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

全球人工智能

12+阅读 · 2017年12月3日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

相关论文

3DMorph: Single-Image-Guided Local 3D Shape Editing and Morphing

Arxiv

0+阅读 · 6月5日

Make-It-Poseable: Feed-forward Latent Posing Model for 3D Characters

Arxiv

0+阅读 · 5月13日

Prox-E: Fine-Grained 3D Shape Editing via Primitive-Based Abstractions

Arxiv

0+阅读 · 4月26日

InHabit: Leveraging Image Foundation Models for Scalable 3D Human Placement

Arxiv

0+阅读 · 4月21日

SketchFaceGS: Real-Time Sketch-Driven Face Editing and Generation with Gaussian Splatting

Arxiv

0+阅读 · 4月21日

AniGen: Unified $S^3$ Fields for Animatable 3D Asset Generation

Arxiv

0+阅读 · 4月9日

SpatialEdit: Benchmarking Fine-Grained Image Spatial Editing

Arxiv

0+阅读 · 4月6日

LaVR: Scene Latent Conditioned Generative Video Trajectory Re-Rendering using Large 4D Reconstruction Models

Arxiv

0+阅读 · 4月2日

Skullptor: High Fidelity 3D Head Reconstruction in Seconds with Multi-View Normal Prediction

Arxiv

0+阅读 · 3月27日

RealMaster: Lifting Rendered Scenes into Photorealistic Video

Arxiv

0+阅读 · 3月24日

相关基金

曲面上图像处理的非局部变分模型与算法

国家自然科学基金

0+阅读 · 2017年12月31日

高保真大景深实时3D显微成像研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于内容感知编辑算子的复合型人脸图像真实感绘制

国家自然科学基金

0+阅读 · 2015年12月31日

广义双随机相位编码系统中以QR码为载体的信息加密及无损恢复

国家自然科学基金

0+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

彩色图像的高保真可逆信息隐藏算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

纳米修饰与3D打印联用技术在医用材料中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员