SpatialEdit: Benchmarking Fine-Grained Image Spatial Editing - 专知论文

会员服务 ·

0

细粒度 · 粒度 · 图像空间 · 基准 · 操作 ·

SpatialEdit: Benchmarking Fine-Grained Image Spatial Editing

翻译：SpatialEdit: 细粒度图像空间编辑基准测试

Yicheng Xiao,Wenhu Zhang,Lin Song,Yukang Chen,Wenbo Li,Nan Jiang,Tianhe Ren,Haokun Lin,Wei Huang,Haoyang Huang,Xiu Li,Nan Duan,Xiaojuan Qi

from arxiv, Code: https://github.com/EasonXiao-888/SpatialEdit

Image spatial editing performs geometry-driven transformations, allowing precise control over object layout and camera viewpoints. Current models are insufficient for fine-grained spatial manipulations, motivating a dedicated assessment suite. Our contributions are listed: (i) We introduce SpatialEdit-Bench, a complete benchmark that evaluates spatial editing by jointly measuring perceptual plausibility and geometric fidelity via viewpoint reconstruction and framing analysis. (ii) To address the data bottleneck for scalable training, we construct SpatialEdit-500k, a synthetic dataset generated with a controllable Blender pipeline that renders objects across diverse backgrounds and systematic camera trajectories, providing precise ground-truth transformations for both object- and camera-centric operations. (iii) Building on this data, we develop SpatialEdit-16B, a baseline model for fine-grained spatial editing. Our method achieves competitive performance on general editing while substantially outperforming prior methods on spatial manipulation tasks. All resources will be made public at https://github.com/EasonXiao-888/SpatialEdit.

翻译：图像空间编辑通过几何驱动的变换，实现对物体布局与相机视角的精确控制。当前模型在细粒度空间操作方面仍存在不足，亟需专门的评估体系。本文贡献如下：（i）提出SpatialEdit-Bench，通过视角重建与构图分析联合评估感知合理性与几何保真度，构建完整的空间编辑评测基准；（ii）为解决可扩展训练的数据瓶颈，构建SpatialEdit-500k合成数据集，基于可控Blender管线生成多背景物体及系统性相机轨迹渲染结果，为面向物体与相机的操作提供精确真值变换；（iii）基于该数据，开发细粒度空间编辑基线模型SpatialEdit-16B，在通用编辑任务上取得竞争力表现，并在空间操作任务中显著优于先前方法。所有资源将在https://github.com/EasonXiao-888/SpatialEdit公开。

0

相关内容

细粒度

【斯坦福博士论文】有限监督下的细粒度的图像和视频分析

【斯坦福博士论文】有限监督下的细粒度的图像和视频分析

专知会员服务

21+阅读 · 2024年7月9日

【TPAMI2022】「深度学习图像分割」最新综述论文，带你全面了解100个10大类深度图像分割算法

【TPAMI2022】「深度学习图像分割」最新综述论文，带你全面了解100个10大类深度图像分割算法

专知会员服务

60+阅读 · 2022年4月11日

阿联酋MBZ大学发布首篇《Transformers医学影像处理》综述论文，41页pdf阐述ViT在医学图像分割、检测、分类等应用

阿联酋MBZ大学发布首篇《Transformers医学影像处理》综述论文，41页pdf阐述ViT在医学图像分割、检测、分类等应用

专知会员服务

92+阅读 · 2022年1月25日

南理工最新「深度学习细粒度图像分析」综述论文，带你全面了解细粒度图像识别与检索方法

南理工最新「深度学习细粒度图像分析」综述论文，带你全面了解细粒度图像识别与检索方法

专知会员服务

23+阅读 · 2021年11月21日

中科院计算所最新「视觉Transformer」综述论文，带你全面了解最新CV分类、检测/分割方法

中科院计算所最新「视觉Transformer」综述论文，带你全面了解最新CV分类、检测/分割方法

专知会员服务

99+阅读 · 2021年11月16日

细粒度图像分类的深度学习方法

细粒度图像分类的深度学习方法

专知会员服务

43+阅读 · 2021年10月18日

图像增强领域大突破！以1.66ms的速度处理4K图像，港理工提出图像自适应的3DLUT

专知会员服务

17+阅读 · 2020年9月25日

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

专知会员服务

34+阅读 · 2020年4月2日

基于破坏和构造学习的细粒度图像识别（Destruction and Construction Learning for Fine-grained Image Recognition）

基于破坏和构造学习的细粒度图像识别（Destruction and Construction Learning for Fine-grained Image Recognition）

专知会员服务

20+阅读 · 2020年1月26日

【论文推荐】不同图像域弱监督语义分割的综合分析，A Comprehensive Analysis of Weakly-Supervised Semantic Segmentation in Different Image Domains

【论文推荐】不同图像域弱监督语义分割的综合分析，A Comprehensive Analysis of Weakly-Supervised Semantic Segmentation in Different Image Domains

专知会员服务

28+阅读 · 2019年12月27日

【TPAMI2022】「深度学习图像分割」最新综述论文，带你全面了解100个10大类深度图像分割算法

【TPAMI2022】「深度学习图像分割」最新综述论文，带你全面了解100个10大类深度图像分割算法

专知

10+阅读 · 2022年4月11日

南理工最新「深度学习细粒度图像分析」综述论文，带你全面了解细粒度图像识别与检索方法

南理工最新「深度学习细粒度图像分析」综述论文，带你全面了解细粒度图像识别与检索方法

专知

12+阅读 · 2021年11月21日

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

专知

12+阅读 · 2020年3月29日

超全深度学习细粒度图像分析：项目、综述、教程一网打尽

超全深度学习细粒度图像分析：项目、综述、教程一网打尽

机器之心

16+阅读 · 2019年7月14日

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

专知

12+阅读 · 2018年6月9日

【论文推荐】最新六篇图像分割相关论文—控制、全卷积网络、子空间表示、多模态图像分割

【论文推荐】最新六篇图像分割相关论文—控制、全卷积网络、子空间表示、多模态图像分割

专知

25+阅读 · 2018年4月15日

【论文推荐】最新七篇图像分类相关论文—条件标签空间、生成对抗胶囊网络、深度预测编码网络、生成对抗网络、数字病理图像、在线表示学习

【论文推荐】最新七篇图像分类相关论文—条件标签空间、生成对抗胶囊网络、深度预测编码网络、生成对抗网络、数字病理图像、在线表示学习

专知

17+阅读 · 2018年3月3日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

【论文推荐】最新5篇图像分割相关论文—条件随机场和深度特征学习、移动端网络、长期视觉定位、主动学习、主动轮廓模型、生成对抗性网络

【论文推荐】最新5篇图像分割相关论文—条件随机场和深度特征学习、移动端网络、长期视觉定位、主动学习、主动轮廓模型、生成对抗性网络

专知

13+阅读 · 2018年1月23日

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

全球人工智能

12+阅读 · 2017年12月3日

基于压缩感知理论的图像采样、编码和重建研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于相关性准则和参数优化策略的彩色图像灰度化关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

基于内容感知编辑算子的复合型人脸图像真实感绘制

国家自然科学基金

0+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于高阶信息和深度表示的图像复原研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于尺度集的高分辨率遥感影像多尺度分类

国家自然科学基金

0+阅读 · 2015年12月31日

面向光谱-空间特征集合的高光谱遥感影像度量学习与分类研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于分层稀疏表示的微动目标ISAR三维层析成像技术

国家自然科学基金

1+阅读 · 2015年12月31日

基于超像素稀疏表示的图像超分辨率方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

Fine-Grained Graph Generation through Latent Mixture Scheduling

Arxiv

0+阅读 · 5月4日

PhysEdit: Physically-Consistent Region-Aware Image Editing via Adaptive Spatio-Temporal Reasoning

Arxiv

0+阅读 · 5月1日

Prox-E: Fine-Grained 3D Shape Editing via Primitive-Based Abstractions

Arxiv

0+阅读 · 4月29日

Meta-CoT: Enhancing Granularity and Generalization in Image Editing

Arxiv

0+阅读 · 4月27日

ShapeUP: Scalable Image-Conditioned 3D Editing

Arxiv

0+阅读 · 4月27日

Prox-E: Fine-Grained 3D Shape Editing via Primitive-Based Abstractions

Arxiv

0+阅读 · 4月26日

PixelDiT: Pixel Diffusion Transformers for Image Generation

Arxiv

0+阅读 · 4月16日

Benchmarking PhD-Level Coding in 3D Geometric Computer Vision

Arxiv

0+阅读 · 3月31日

PixelSmile: Toward Fine-Grained Facial Expression Editing

Arxiv

0+阅读 · 3月26日

SpatialReward: Verifiable Spatial Reward Modeling for Fine-Grained Spatial Consistency in Text-to-Image Generation

Arxiv

0+阅读 · 3月23日

VIP会员

文章信息

相关主题

最新内容

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

1+阅读 · 今天15:03

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

0+阅读 · 今天14:31

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

0+阅读 · 今天14:29

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

12+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

4+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

7+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

8+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

11+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

12+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

8+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

21+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

10+阅读 · 6月17日

相关VIP内容

【斯坦福博士论文】有限监督下的细粒度的图像和视频分析

【斯坦福博士论文】有限监督下的细粒度的图像和视频分析

专知会员服务

21+阅读 · 2024年7月9日

【TPAMI2022】「深度学习图像分割」最新综述论文，带你全面了解100个10大类深度图像分割算法

【TPAMI2022】「深度学习图像分割」最新综述论文，带你全面了解100个10大类深度图像分割算法

专知会员服务

60+阅读 · 2022年4月11日

阿联酋MBZ大学发布首篇《Transformers医学影像处理》综述论文，41页pdf阐述ViT在医学图像分割、检测、分类等应用

阿联酋MBZ大学发布首篇《Transformers医学影像处理》综述论文，41页pdf阐述ViT在医学图像分割、检测、分类等应用

专知会员服务

92+阅读 · 2022年1月25日

南理工最新「深度学习细粒度图像分析」综述论文，带你全面了解细粒度图像识别与检索方法

南理工最新「深度学习细粒度图像分析」综述论文，带你全面了解细粒度图像识别与检索方法

专知会员服务

23+阅读 · 2021年11月21日

中科院计算所最新「视觉Transformer」综述论文，带你全面了解最新CV分类、检测/分割方法

中科院计算所最新「视觉Transformer」综述论文，带你全面了解最新CV分类、检测/分割方法

专知会员服务

99+阅读 · 2021年11月16日

细粒度图像分类的深度学习方法

细粒度图像分类的深度学习方法

专知会员服务

43+阅读 · 2021年10月18日

图像增强领域大突破！以1.66ms的速度处理4K图像，港理工提出图像自适应的3DLUT

专知会员服务

17+阅读 · 2020年9月25日

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

专知会员服务

34+阅读 · 2020年4月2日

基于破坏和构造学习的细粒度图像识别（Destruction and Construction Learning for Fine-grained Image Recognition）

基于破坏和构造学习的细粒度图像识别（Destruction and Construction Learning for Fine-grained Image Recognition）

专知会员服务

20+阅读 · 2020年1月26日

【论文推荐】不同图像域弱监督语义分割的综合分析，A Comprehensive Analysis of Weakly-Supervised Semantic Segmentation in Different Image Domains

【论文推荐】不同图像域弱监督语义分割的综合分析，A Comprehensive Analysis of Weakly-Supervised Semantic Segmentation in Different Image Domains

专知会员服务

28+阅读 · 2019年12月27日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

相关资讯

【TPAMI2022】「深度学习图像分割」最新综述论文，带你全面了解100个10大类深度图像分割算法

【TPAMI2022】「深度学习图像分割」最新综述论文，带你全面了解100个10大类深度图像分割算法

专知

10+阅读 · 2022年4月11日

南理工最新「深度学习细粒度图像分析」综述论文，带你全面了解细粒度图像识别与检索方法

南理工最新「深度学习细粒度图像分析」综述论文，带你全面了解细粒度图像识别与检索方法

专知

12+阅读 · 2021年11月21日

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

专知

12+阅读 · 2020年3月29日

超全深度学习细粒度图像分析：项目、综述、教程一网打尽

超全深度学习细粒度图像分析：项目、综述、教程一网打尽

机器之心

16+阅读 · 2019年7月14日

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

专知

12+阅读 · 2018年6月9日

【论文推荐】最新六篇图像分割相关论文—控制、全卷积网络、子空间表示、多模态图像分割

【论文推荐】最新六篇图像分割相关论文—控制、全卷积网络、子空间表示、多模态图像分割

专知

25+阅读 · 2018年4月15日

【论文推荐】最新七篇图像分类相关论文—条件标签空间、生成对抗胶囊网络、深度预测编码网络、生成对抗网络、数字病理图像、在线表示学习

【论文推荐】最新七篇图像分类相关论文—条件标签空间、生成对抗胶囊网络、深度预测编码网络、生成对抗网络、数字病理图像、在线表示学习

专知

17+阅读 · 2018年3月3日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

【论文推荐】最新5篇图像分割相关论文—条件随机场和深度特征学习、移动端网络、长期视觉定位、主动学习、主动轮廓模型、生成对抗性网络

【论文推荐】最新5篇图像分割相关论文—条件随机场和深度特征学习、移动端网络、长期视觉定位、主动学习、主动轮廓模型、生成对抗性网络

专知

13+阅读 · 2018年1月23日

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

全球人工智能

12+阅读 · 2017年12月3日

相关论文

Fine-Grained Graph Generation through Latent Mixture Scheduling

Arxiv

0+阅读 · 5月4日

PhysEdit: Physically-Consistent Region-Aware Image Editing via Adaptive Spatio-Temporal Reasoning

Arxiv

0+阅读 · 5月1日

Prox-E: Fine-Grained 3D Shape Editing via Primitive-Based Abstractions

Arxiv

0+阅读 · 4月29日

Meta-CoT: Enhancing Granularity and Generalization in Image Editing

Arxiv

0+阅读 · 4月27日

ShapeUP: Scalable Image-Conditioned 3D Editing

Arxiv

0+阅读 · 4月27日

Prox-E: Fine-Grained 3D Shape Editing via Primitive-Based Abstractions

Arxiv

0+阅读 · 4月26日

PixelDiT: Pixel Diffusion Transformers for Image Generation

Arxiv

0+阅读 · 4月16日

Benchmarking PhD-Level Coding in 3D Geometric Computer Vision

Arxiv

0+阅读 · 3月31日

PixelSmile: Toward Fine-Grained Facial Expression Editing

Arxiv

0+阅读 · 3月26日

SpatialReward: Verifiable Spatial Reward Modeling for Fine-Grained Spatial Consistency in Text-to-Image Generation

Arxiv

0+阅读 · 3月23日

相关基金

基于压缩感知理论的图像采样、编码和重建研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于相关性准则和参数优化策略的彩色图像灰度化关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

基于内容感知编辑算子的复合型人脸图像真实感绘制

国家自然科学基金

0+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于高阶信息和深度表示的图像复原研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于尺度集的高分辨率遥感影像多尺度分类

国家自然科学基金

0+阅读 · 2015年12月31日

面向光谱-空间特征集合的高光谱遥感影像度量学习与分类研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于分层稀疏表示的微动目标ISAR三维层析成像技术

国家自然科学基金

1+阅读 · 2015年12月31日

基于超像素稀疏表示的图像超分辨率方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员