Interactive point-based image editing serves as a controllable editor, enabling precise and flexible manipulation of image content. However, most drag-based methods operate primarily on the 2D pixel plane with limited use of 3D cues. As a result, they often produce imprecise and inconsistent edits, particularly in geometry-intensive scenarios such as rotations and perspective transformations. To address these limitations, we propose a novel geometry-guided drag-based image editing method-GeoDrag, which addresses three key challenges: 1) incorporating 3D geometric cues into pixel-level editing, 2) mitigating discontinuities caused by geometry-only guidance, and 3) resolving conflicts arising from multi-point dragging. Built upon a unified displacement field that jointly encodes 3D geometry and 2D spatial priors, GeoDrag enables coherent, high-fidelity, and structure-consistent editing in a single forward pass. In addition, a conflict-free partitioning strategy is introduced to isolate editing regions, effectively preventing interference and ensuring consistency. Extensive experiments across various editing scenarios validate the effectiveness of our method, showing superior precision, structural consistency, and reliable multi-point editability. Project page: https://xinyu-pu.github.io/projects/geodrag.


翻译:交互式基于点的图像编辑作为一种可控编辑器,能够对图像内容进行精确且灵活的操控。然而,大多数基于拖拽的方法主要在二维像素平面上操作,对三维线索的利用有限。因此,它们常常产生不精确且不一致的编辑结果,尤其是在旋转和透视变换等几何密集的场景中。为了解决这些局限性,我们提出了一种新颖的几何引导的基于拖拽的图像编辑方法——GeoDrag。该方法解决了三个关键挑战:1)将三维几何线索融入像素级编辑;2)缓解仅由几何引导引起的连续性中断;3)解决多点拖拽产生的冲突。GeoDrag建立在一个统一的位移场上,该场联合编码了三维几何和二维空间先验,从而能够在单次前向传播中实现连贯、高保真且结构一致的编辑。此外,我们引入了一种无冲突分区策略来隔离编辑区域,有效防止干扰并确保一致性。在各种编辑场景下的大量实验验证了我们方法的有效性,显示出其在精确性、结构一致性和可靠的多点可编辑性方面的优越性。项目页面:https://xinyu-pu.github.io/projects/geodrag。

0
下载
关闭预览

相关内容

《基于扩散模型的条件图像生成》综述
专知会员服务
44+阅读 · 2024年10月1日
超像素、语义分割、实例分割、全景分割 傻傻分不清?
计算机视觉life
19+阅读 · 2018年11月27日
实战 | 用Python做图像处理(二)
七月在线实验室
17+阅读 · 2018年5月25日
一文读懂图像压缩算法
七月在线实验室
17+阅读 · 2018年5月2日
如何设计基于深度学习的图像压缩算法
论智
41+阅读 · 2018年4月26日
【学界】 李飞飞学生最新论文:利用场景图生成图像
GAN生成式对抗网络
15+阅读 · 2018年4月9日
基于图片内容的深度学习图片检索(一)
七月在线实验室
20+阅读 · 2017年10月1日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
俄罗斯无人机战线实验
专知会员服务
5+阅读 · 今天3:29
高阶网络的表示:基于图的框架综述
专知会员服务
8+阅读 · 5月14日
《作战资源再分配的作战行动数学模型构建》
专知会员服务
13+阅读 · 5月14日
世界动作模型: 具身AI的下一个前沿
专知会员服务
15+阅读 · 5月13日
全球十大防空反导系统:列表、射程与用途
专知会员服务
16+阅读 · 5月13日
相关VIP内容
《基于扩散模型的条件图像生成》综述
专知会员服务
44+阅读 · 2024年10月1日
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员