Dragging with Geometry: From Pixels to Geometry-Guided Image Editing - 专知论文

会员服务 ·

0

一致 · 结构 · 交互 · 可控 · 操作 ·

Dragging with Geometry: From Pixels to Geometry-Guided Image Editing

翻译：基于几何的拖拽：从像素到几何引导的图像编辑

Xinyu Pu,Hongsong Wang,Jie Gui,Pan Zhou

Interactive point-based image editing serves as a controllable editor, enabling precise and flexible manipulation of image content. However, most drag-based methods operate primarily on the 2D pixel plane with limited use of 3D cues. As a result, they often produce imprecise and inconsistent edits, particularly in geometry-intensive scenarios such as rotations and perspective transformations. To address these limitations, we propose a novel geometry-guided drag-based image editing method-GeoDrag, which addresses three key challenges: 1) incorporating 3D geometric cues into pixel-level editing, 2) mitigating discontinuities caused by geometry-only guidance, and 3) resolving conflicts arising from multi-point dragging. Built upon a unified displacement field that jointly encodes 3D geometry and 2D spatial priors, GeoDrag enables coherent, high-fidelity, and structure-consistent editing in a single forward pass. In addition, a conflict-free partitioning strategy is introduced to isolate editing regions, effectively preventing interference and ensuring consistency. Extensive experiments across various editing scenarios validate the effectiveness of our method, showing superior precision, structural consistency, and reliable multi-point editability. Project page: https://xinyu-pu.github.io/projects/geodrag.

翻译：交互式基于点的图像编辑作为一种可控编辑器，能够对图像内容进行精确且灵活的操控。然而，大多数基于拖拽的方法主要在二维像素平面上操作，对三维线索的利用有限。因此，它们常常产生不精确且不一致的编辑结果，尤其是在旋转和透视变换等几何密集的场景中。为了解决这些局限性，我们提出了一种新颖的几何引导的基于拖拽的图像编辑方法——GeoDrag。该方法解决了三个关键挑战：1）将三维几何线索融入像素级编辑；2）缓解仅由几何引导引起的连续性中断；3）解决多点拖拽产生的冲突。GeoDrag建立在一个统一的位移场上，该场联合编码了三维几何和二维空间先验，从而能够在单次前向传播中实现连贯、高保真且结构一致的编辑。此外，我们引入了一种无冲突分区策略来隔离编辑区域，有效防止干扰并确保一致性。在各种编辑场景下的大量实验验证了我们方法的有效性，显示出其在精确性、结构一致性和可靠的多点可编辑性方面的优越性。项目页面：https://xinyu-pu.github.io/projects/geodrag。

0

相关内容

【CMU博士论文】《学习生成三维内容：几何、外观与物理》

【CMU博士论文】《学习生成三维内容：几何、外观与物理》

专知会员服务

24+阅读 · 2025年8月26日

《基于扩散模型的条件图像生成》综述

《基于扩散模型的条件图像生成》综述

专知会员服务

44+阅读 · 2024年10月1日

复旦最新《基于文本到图像扩散模型的多模态引导图像编辑》综述

复旦最新《基于文本到图像扩散模型的多模态引导图像编辑》综述

专知会员服务

16+阅读 · 2024年6月21日

Transformer如何做视觉分割？南洋理工最新《基于Transformer的视觉分割》综述，详述120多个深度分割模型

Transformer如何做视觉分割？南洋理工最新《基于Transformer的视觉分割》综述，详述120多个深度分割模型

专知会员服务

56+阅读 · 2023年4月27日

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

专知会员服务

39+阅读 · 2022年8月9日

最新《图像描述Image Captioning》综述论文，22页pdf220篇文献

专知会员服务

43+阅读 · 2021年7月17日

【伯克利博士论文】面向深度图像合成的机器学习，155页pdf

【伯克利博士论文】面向深度图像合成的机器学习，155页pdf

专知会员服务

36+阅读 · 2021年5月26日

【CIKM 2019论文】重力启发式图自编码器定向链路预测（Gravity-Inspired Graph Autoencoders for Directed Link Prediction），Guillaume Salha，Stratis Limnios

【CIKM 2019论文】重力启发式图自编码器定向链路预测（Gravity-Inspired Graph Autoencoders for Directed Link Prediction），Guillaume Salha，Stratis Limnios

专知会员服务

28+阅读 · 2019年11月20日

【ICDAR2019教程】模式识别和文档图像中基于图的方法，Graph-based Methods in Pattern Recognition and Document Image Analysis

【ICDAR2019教程】模式识别和文档图像中基于图的方法，Graph-based Methods in Pattern Recognition and Document Image Analysis

专知会员服务

30+阅读 · 2019年9月20日

【ICIP 2019 Tutorials】图像到图像的转换（Image-to-Image Translation）,英伟达研究员Ming-Yu Liu

【ICIP 2019 Tutorials】图像到图像的转换（Image-to-Image Translation）,英伟达研究员Ming-Yu Liu

专知会员服务

27+阅读 · 2019年8月10日

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

人工智能前沿讲习班

144+阅读 · 2019年3月15日

超像素、语义分割、实例分割、全景分割傻傻分不清？

超像素、语义分割、实例分割、全景分割傻傻分不清？

计算机视觉life

19+阅读 · 2018年11月27日

实战 | 用Python做图像处理（二）

实战 | 用Python做图像处理（二）

七月在线实验室

17+阅读 · 2018年5月25日

一文读懂图像压缩算法

一文读懂图像压缩算法

七月在线实验室

17+阅读 · 2018年5月2日

如何设计基于深度学习的图像压缩算法

如何设计基于深度学习的图像压缩算法

论智

41+阅读 · 2018年4月26日

【学界】李飞飞学生最新论文：利用场景图生成图像

【学界】李飞飞学生最新论文：利用场景图生成图像

GAN生成式对抗网络

15+阅读 · 2018年4月9日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

基于图片内容的深度学习图片检索（一）

基于图片内容的深度学习图片检索（一）

七月在线实验室

20+阅读 · 2017年10月1日

Generative Adversarial Text to Image Synthesis论文解读

Generative Adversarial Text to Image Synthesis论文解读

统计学习与视觉计算组

13+阅读 · 2017年6月9日

天元数学交流项目图像处理中的数学理论及方法研讨会

国家自然科学基金

9+阅读 · 2017年12月31日

基于压缩感知理论的图像采样、编码和重建研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于全局阈值分割和局部聚类的自然图像超像素分割技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于内容感知编辑算子的复合型人脸图像真实感绘制

国家自然科学基金

0+阅读 · 2015年12月31日

基于形状信息和结果反馈的多图谱图像分割方法

国家自然科学基金

0+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

有向图谱理论在图像匹配中应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于草图的几何处理和应用

国家自然科学基金

2+阅读 · 2015年12月31日

基于陀螺振动探测和编码曝光的遥感图像快速恢复方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于超像素稀疏表示的图像超分辨率方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

PhysEdit: Physically-Consistent Region-Aware Image Editing via Adaptive Spatio-Temporal Reasoning

Arxiv

0+阅读 · 5月1日

ShapeUP: Scalable Image-Conditioned 3D Editing

Arxiv

0+阅读 · 4月27日

Prox-E: Fine-Grained 3D Shape Editing via Primitive-Based Abstractions

Arxiv

0+阅读 · 4月26日

View-Consistent 3D Scene Editing via Dual-Path Structural Correspondense and Semantic Continuity

Arxiv

0+阅读 · 4月24日

Image-Guided Geometric Stylization of 3D Meshes

Arxiv

0+阅读 · 4月9日

TRACE: High-Fidelity 3D Scene Editing via Tangible Reconstruction and Geometry-Aligned Contextual Video Masking

Arxiv

0+阅读 · 4月1日

Editing on the Generative Manifold: A Theoretical and Empirical Study of General Diffusion-Based Image Editing Trade-offs

Arxiv

0+阅读 · 3月31日

TRACE: Object Motion Editing in Videos with First-Frame Trajectory Guidance

Arxiv

0+阅读 · 3月26日

3D-Consistent Multi-View Editing by Correspondence Guidance

Arxiv

0+阅读 · 3月20日

GOT-Edit: Geometry-Aware Generic Object Tracking via Online Model Editing

Arxiv

0+阅读 · 2月24日

VIP会员

文章信息

相关主题

最新内容

美国边境监控技术演变：无人机与人工智能系统（2001-2025年）（中文版下载，1.3万字）

美国边境监控技术演变：无人机与人工智能系统（2001-2025年）（中文版下载，1.3万字）

专知会员服务

4+阅读 · 今天6:24

技术突袭：俄乌战争中新型精确打击武器的战术与效应（中文版下载，2万字）

技术突袭：俄乌战争中新型精确打击武器的战术与效应（中文版下载，2万字）

专知会员服务

4+阅读 · 今天4:57

《基于生成式通信模型的分布式智能体学习》127页

《基于生成式通信模型的分布式智能体学习》127页

专知会员服务

6+阅读 · 今天3:38

《应对无人机威胁：欧洲反无人机系统》最新报告

《应对无人机威胁：欧洲反无人机系统》最新报告

专知会员服务

4+阅读 · 今天3:35

俄罗斯无人机战线实验

俄罗斯无人机战线实验

专知会员服务

5+阅读 · 今天3:29

高阶网络的表示：基于图的框架综述

高阶网络的表示：基于图的框架综述

专知会员服务

8+阅读 · 5月14日

【ICML2026】面向长上下文大语言模型的训练-推理一致性分段执行

【ICML2026】面向长上下文大语言模型的训练-推理一致性分段执行

专知会员服务

4+阅读 · 5月14日

俄乌冲突中的高超音速武器系统及效能评估（中文版PDF下载）

俄乌冲突中的高超音速武器系统及效能评估（中文版PDF下载）

专知会员服务

20+阅读 · 5月14日

《战略冲突的数学建模：基于变分不等式、不动点理论、间隙函数与微分博弈的美以伊冲突分析》

《战略冲突的数学建模：基于变分不等式、不动点理论、间隙函数与微分博弈的美以伊冲突分析》

专知会员服务

12+阅读 · 5月14日

《人工智能中的多智能体自主决策》380页博士论文

《人工智能中的多智能体自主决策》380页博士论文

专知会员服务

16+阅读 · 5月14日

《作战资源再分配的作战行动数学模型构建》

《作战资源再分配的作战行动数学模型构建》

专知会员服务

13+阅读 · 5月14日

乌克兰作为杀伤网实验室：情报监视侦察（ISR）网络赋能自适应无人机战争——经验分析

乌克兰作为杀伤网实验室：情报监视侦察（ISR）网络赋能自适应无人机战争——经验分析

专知会员服务

10+阅读 · 5月14日

【博士论文】面向可扩展且可信智能系统的强化学习

【博士论文】面向可扩展且可信智能系统的强化学习

专知会员服务

8+阅读 · 5月13日

世界动作模型: 具身AI的下一个前沿

世界动作模型: 具身AI的下一个前沿

专知会员服务

15+阅读 · 5月13日

全球十大防空反导系统：列表、射程与用途

全球十大防空反导系统：列表、射程与用途

专知会员服务

16+阅读 · 5月13日

相关VIP内容

【CMU博士论文】《学习生成三维内容：几何、外观与物理》

【CMU博士论文】《学习生成三维内容：几何、外观与物理》

专知会员服务

24+阅读 · 2025年8月26日

《基于扩散模型的条件图像生成》综述

《基于扩散模型的条件图像生成》综述

专知会员服务

44+阅读 · 2024年10月1日

复旦最新《基于文本到图像扩散模型的多模态引导图像编辑》综述

复旦最新《基于文本到图像扩散模型的多模态引导图像编辑》综述

专知会员服务

16+阅读 · 2024年6月21日

Transformer如何做视觉分割？南洋理工最新《基于Transformer的视觉分割》综述，详述120多个深度分割模型

Transformer如何做视觉分割？南洋理工最新《基于Transformer的视觉分割》综述，详述120多个深度分割模型

专知会员服务

56+阅读 · 2023年4月27日

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

专知会员服务

39+阅读 · 2022年8月9日

最新《图像描述Image Captioning》综述论文，22页pdf220篇文献

专知会员服务

43+阅读 · 2021年7月17日

【伯克利博士论文】面向深度图像合成的机器学习，155页pdf

【伯克利博士论文】面向深度图像合成的机器学习，155页pdf

专知会员服务

36+阅读 · 2021年5月26日

【CIKM 2019论文】重力启发式图自编码器定向链路预测（Gravity-Inspired Graph Autoencoders for Directed Link Prediction），Guillaume Salha，Stratis Limnios

【CIKM 2019论文】重力启发式图自编码器定向链路预测（Gravity-Inspired Graph Autoencoders for Directed Link Prediction），Guillaume Salha，Stratis Limnios

专知会员服务

28+阅读 · 2019年11月20日

【ICDAR2019教程】模式识别和文档图像中基于图的方法，Graph-based Methods in Pattern Recognition and Document Image Analysis

【ICDAR2019教程】模式识别和文档图像中基于图的方法，Graph-based Methods in Pattern Recognition and Document Image Analysis

专知会员服务

30+阅读 · 2019年9月20日

【ICIP 2019 Tutorials】图像到图像的转换（Image-to-Image Translation）,英伟达研究员Ming-Yu Liu

【ICIP 2019 Tutorials】图像到图像的转换（Image-to-Image Translation）,英伟达研究员Ming-Yu Liu

专知会员服务

27+阅读 · 2019年8月10日

热门VIP内容

开通专知VIP会员享更多权益服务

技术突袭：俄乌战争中新型精确打击武器的战术与效应（中文版下载，2万字）

《应对无人机威胁：欧洲反无人机系统》最新报告

美国边境监控技术演变：无人机与人工智能系统（2001-2025年）（中文版下载，1.3万字）

《基于生成式通信模型的分布式智能体学习》127页

相关资讯

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

人工智能前沿讲习班

144+阅读 · 2019年3月15日

超像素、语义分割、实例分割、全景分割傻傻分不清？

超像素、语义分割、实例分割、全景分割傻傻分不清？

计算机视觉life

19+阅读 · 2018年11月27日

实战 | 用Python做图像处理（二）

实战 | 用Python做图像处理（二）

七月在线实验室

17+阅读 · 2018年5月25日

一文读懂图像压缩算法

一文读懂图像压缩算法

七月在线实验室

17+阅读 · 2018年5月2日

如何设计基于深度学习的图像压缩算法

如何设计基于深度学习的图像压缩算法

论智

41+阅读 · 2018年4月26日

【学界】李飞飞学生最新论文：利用场景图生成图像

【学界】李飞飞学生最新论文：利用场景图生成图像

GAN生成式对抗网络

15+阅读 · 2018年4月9日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

基于图片内容的深度学习图片检索（一）

基于图片内容的深度学习图片检索（一）

七月在线实验室

20+阅读 · 2017年10月1日

Generative Adversarial Text to Image Synthesis论文解读

Generative Adversarial Text to Image Synthesis论文解读

统计学习与视觉计算组

13+阅读 · 2017年6月9日

相关论文

PhysEdit: Physically-Consistent Region-Aware Image Editing via Adaptive Spatio-Temporal Reasoning

Arxiv

0+阅读 · 5月1日

ShapeUP: Scalable Image-Conditioned 3D Editing

Arxiv

0+阅读 · 4月27日

Prox-E: Fine-Grained 3D Shape Editing via Primitive-Based Abstractions

Arxiv

0+阅读 · 4月26日

View-Consistent 3D Scene Editing via Dual-Path Structural Correspondense and Semantic Continuity

Arxiv

0+阅读 · 4月24日

Image-Guided Geometric Stylization of 3D Meshes

Arxiv

0+阅读 · 4月9日

TRACE: High-Fidelity 3D Scene Editing via Tangible Reconstruction and Geometry-Aligned Contextual Video Masking

Arxiv

0+阅读 · 4月1日

Editing on the Generative Manifold: A Theoretical and Empirical Study of General Diffusion-Based Image Editing Trade-offs

Arxiv

0+阅读 · 3月31日

TRACE: Object Motion Editing in Videos with First-Frame Trajectory Guidance

Arxiv

0+阅读 · 3月26日

3D-Consistent Multi-View Editing by Correspondence Guidance

Arxiv

0+阅读 · 3月20日

GOT-Edit: Geometry-Aware Generic Object Tracking via Online Model Editing

Arxiv

0+阅读 · 2月24日

相关基金

天元数学交流项目图像处理中的数学理论及方法研讨会

国家自然科学基金

9+阅读 · 2017年12月31日

基于压缩感知理论的图像采样、编码和重建研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于全局阈值分割和局部聚类的自然图像超像素分割技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于内容感知编辑算子的复合型人脸图像真实感绘制

国家自然科学基金

0+阅读 · 2015年12月31日

基于形状信息和结果反馈的多图谱图像分割方法

国家自然科学基金

0+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

有向图谱理论在图像匹配中应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于草图的几何处理和应用

国家自然科学基金

2+阅读 · 2015年12月31日

基于陀螺振动探测和编码曝光的遥感图像快速恢复方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于超像素稀疏表示的图像超分辨率方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员