SimGraph: A Unified Framework for Scene Graph-Based Image Generation and Editing - 专知论文

会员服务 ·

0

场景图 · 图像生成 · 一致 · 结构 · 结构化 ·

SimGraph: A Unified Framework for Scene Graph-Based Image Generation and Editing

翻译：SimGraph：基于场景图的图像生成与编辑统一框架

Thanh-Nhan Vo,Trong-Thuan Nguyen,Tam V. Nguyen,Minh-Triet Tran

Recent advancements in Generative Artificial Intelligence (GenAI) have significantly enhanced the capabilities of both image generation and editing. However, current approaches often treat these tasks separately, leading to inefficiencies and challenges in maintaining spatial consistency and semantic coherence between generated content and edits. Moreover, a major obstacle is the lack of structured control over object relationships and spatial arrangements. Scene graph-based methods, which represent objects and their interrelationships in a structured format, offer a solution by providing greater control over composition and interactions in both image generation and editing. To address this, we introduce SimGraph, a unified framework that integrates scene graph-based image generation and editing, enabling precise control over object interactions, layouts, and spatial coherence. In particular, our framework integrates token-based generation and diffusion-based editing within a single scene graph-driven model, ensuring high-quality and consistent results. Through extensive experiments, we empirically demonstrate that our approach outperforms existing state-of-the-art methods.

翻译：生成式人工智能（GenAI）的最新进展显著提升了图像生成与编辑的能力。然而，现有方法通常将这两项任务分开处理，导致在生成内容与编辑之间保持空间一致性和语义连贯性方面存在效率低下和挑战。此外，一个主要障碍是缺乏对物体关系和空间布局的结构化控制。基于场景图的方法以结构化格式表示物体及其相互关系，通过提供对图像生成与编辑中构图和交互的更强控制，为解决这一问题提供了方案。为此，我们提出了SimGraph，一个统一框架，集成了基于场景图的图像生成与编辑，能够精确控制物体交互、布局和空间一致性。具体而言，我们的框架在单一场景图驱动模型中整合了基于令牌的生成和基于扩散的编辑，确保了高质量且一致的结果。通过大量实验，我们实证证明了该方法优于现有的最先进方法。

0

相关内容

场景图

生物信息学中的生成式人工智能：模型、应用与方法学进展的系统性综述

生物信息学中的生成式人工智能：模型、应用与方法学进展的系统性综述

专知会员服务

17+阅读 · 2025年11月10日

中文版 | 生成式人工智能（GenAI）：概览、议题与美国国会考量

中文版 | 生成式人工智能（GenAI）：概览、议题与美国国会考量

专知会员服务

23+阅读 · 2025年4月15日

图增强生成（GraphRAG）

图增强生成（GraphRAG）

专知会员服务

35+阅读 · 2025年1月4日

复旦最新《基于文本到图像扩散模型的多模态引导图像编辑》综述

复旦最新《基于文本到图像扩散模型的多模态引导图像编辑》综述

专知会员服务

16+阅读 · 2024年6月21日

生成式人工智能在可视化中的应用：现状与未来方向

生成式人工智能在可视化中的应用：现状与未来方向

专知会员服务

42+阅读 · 2024年6月8日

可解释生成人工智能 (GenXAI)：综述、概念化与研究议程

可解释生成人工智能 (GenXAI)：综述、概念化与研究议程

专知会员服务

39+阅读 · 2024年4月19日

用GPT-4实现可控文本图像生成，UC伯克利&微软提出新框架Control-GPT

用GPT-4实现可控文本图像生成，UC伯克利&微软提出新框架Control-GPT

专知会员服务

35+阅读 · 2023年6月3日

多模态图像合成与编辑这么火，马普所、南洋理工等出了份详细综述

多模态图像合成与编辑这么火，马普所、南洋理工等出了份详细综述

专知会员服务

30+阅读 · 2022年8月24日

【中科院自动化所】深度图生成方法及应用综述，A Survey on Deep Graph Generation: Methods and Applications

【中科院自动化所】深度图生成方法及应用综述，A Survey on Deep Graph Generation: Methods and Applications

专知会员服务

24+阅读 · 2022年3月15日

最新《图像描述Image Captioning》综述论文，22页pdf220篇文献

专知会员服务

43+阅读 · 2021年7月17日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

西电最新《场景图生成SGG》全面综述论文，阐述总结138项工作

西电最新《场景图生成SGG》全面综述论文，阐述总结138项工作

专知

13+阅读 · 2022年1月4日

图嵌入（Graph embedding）综述

图嵌入（Graph embedding）综述

人工智能前沿讲习班

449+阅读 · 2019年4月30日

Github热门图深度学习（GraphDL）源码与框架

Github热门图深度学习（GraphDL）源码与框架

新智元

21+阅读 · 2019年3月19日

深度学习时代的图模型，清华发文综述图网络

深度学习时代的图模型，清华发文综述图网络

GAN生成式对抗网络

13+阅读 · 2018年12月23日

Image Captioning 36页最新综述， 161篇参考文献

Image Captioning 36页最新综述， 161篇参考文献

专知

90+阅读 · 2018年10月23日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

【学界】李飞飞学生最新论文：利用场景图生成图像

【学界】李飞飞学生最新论文：利用场景图生成图像

GAN生成式对抗网络

15+阅读 · 2018年4月9日

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

专知

11+阅读 · 2018年3月20日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

基于压缩感知理论的图像采样、编码和重建研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于部件结构的图像协同分割方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于内容感知编辑算子的复合型人脸图像真实感绘制

国家自然科学基金

0+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于矩阵分解的图像表示方法及其应用研究

国家自然科学基金

2+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于草图的几何处理和应用

国家自然科学基金

2+阅读 · 2015年12月31日

基于框架提升变换的多源图像融合研究

国家自然科学基金

1+阅读 · 2015年12月31日

Towards Geometric and Textural Consistency 3D Scene Generation via Single Image-guided Model Generation and Layout Optimization

Arxiv

1+阅读 · 2月17日

ZeroScene: A Zero-Shot Framework for 3D Scene Generation from a Single Image and Controllable Texture Editing

Arxiv

0+阅读 · 2月17日

SketchingReality: From Freehand Scene Sketches To Photorealistic Images

Arxiv

0+阅读 · 2月16日

Tele-Omni: a Unified Multimodal Framework for Video Generation and Editing

Arxiv

0+阅读 · 2月10日

SceneSmith: Agentic Generation of Simulation-Ready Indoor Scenes

Arxiv

0+阅读 · 2月9日

Enhancing Generative AI Image Refinement with Scribbles and Annotations: A Comparative Study of Multimodal Prompts

Arxiv

0+阅读 · 2月9日

ImageRAG: Dynamic Image Retrieval for Reference-Guided Image Generation

Arxiv

0+阅读 · 2月8日

Many-for-Many: Unify the Training of Multiple Video and Image Generation and Manipulation Tasks

Arxiv

0+阅读 · 2月5日

A Research Roadmap for Augmenting Software Engineering Processes and Software Products with Generative AI

Arxiv

0+阅读 · 2月3日

Architecture inside the mirage: evaluating generative image models on architectural style, elements, and typologies

Arxiv

0+阅读 · 1月14日

VIP会员

文章信息

相关主题

最新内容

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

专知会员服务

0+阅读 · 今天15:43

比利时发布用于实时战场军事装备识别的离线人工智能系统

比利时发布用于实时战场军事装备识别的离线人工智能系统

专知会员服务

0+阅读 · 今天15:41

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

专知会员服务

0+阅读 · 今天15:37

超越网格：作战环境对炮兵的影响

超越网格：作战环境对炮兵的影响

专知会员服务

0+阅读 · 今天15:35

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

专知会员服务

4+阅读 · 今天12:11

综述 | 推理时控制：可信大语言模型的运行时治理全景

综述 | 推理时控制：可信大语言模型的运行时治理全景

专知会员服务

3+阅读 · 今天12:10

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

4+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

5+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

4+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

5+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

14+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

8+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

8+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

9+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

12+阅读 · 5月29日

相关VIP内容

生物信息学中的生成式人工智能：模型、应用与方法学进展的系统性综述

生物信息学中的生成式人工智能：模型、应用与方法学进展的系统性综述

专知会员服务

17+阅读 · 2025年11月10日

中文版 | 生成式人工智能（GenAI）：概览、议题与美国国会考量

中文版 | 生成式人工智能（GenAI）：概览、议题与美国国会考量

专知会员服务

23+阅读 · 2025年4月15日

图增强生成（GraphRAG）

图增强生成（GraphRAG）

专知会员服务

35+阅读 · 2025年1月4日

复旦最新《基于文本到图像扩散模型的多模态引导图像编辑》综述

复旦最新《基于文本到图像扩散模型的多模态引导图像编辑》综述

专知会员服务

16+阅读 · 2024年6月21日

生成式人工智能在可视化中的应用：现状与未来方向

生成式人工智能在可视化中的应用：现状与未来方向

专知会员服务

42+阅读 · 2024年6月8日

可解释生成人工智能 (GenXAI)：综述、概念化与研究议程

可解释生成人工智能 (GenXAI)：综述、概念化与研究议程

专知会员服务

39+阅读 · 2024年4月19日

用GPT-4实现可控文本图像生成，UC伯克利&微软提出新框架Control-GPT

用GPT-4实现可控文本图像生成，UC伯克利&微软提出新框架Control-GPT

专知会员服务

35+阅读 · 2023年6月3日

多模态图像合成与编辑这么火，马普所、南洋理工等出了份详细综述

多模态图像合成与编辑这么火，马普所、南洋理工等出了份详细综述

专知会员服务

30+阅读 · 2022年8月24日

【中科院自动化所】深度图生成方法及应用综述，A Survey on Deep Graph Generation: Methods and Applications

【中科院自动化所】深度图生成方法及应用综述，A Survey on Deep Graph Generation: Methods and Applications

专知会员服务

24+阅读 · 2022年3月15日

最新《图像描述Image Captioning》综述论文，22页pdf220篇文献

专知会员服务

43+阅读 · 2021年7月17日

热门VIP内容

开通专知VIP会员享更多权益服务

比利时发布用于实时战场军事装备识别的离线人工智能系统

超越网格：作战环境对炮兵的影响

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

相关资讯

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

西电最新《场景图生成SGG》全面综述论文，阐述总结138项工作

西电最新《场景图生成SGG》全面综述论文，阐述总结138项工作

专知

13+阅读 · 2022年1月4日

图嵌入（Graph embedding）综述

图嵌入（Graph embedding）综述

人工智能前沿讲习班

449+阅读 · 2019年4月30日

Github热门图深度学习（GraphDL）源码与框架

Github热门图深度学习（GraphDL）源码与框架

新智元

21+阅读 · 2019年3月19日

深度学习时代的图模型，清华发文综述图网络

深度学习时代的图模型，清华发文综述图网络

GAN生成式对抗网络

13+阅读 · 2018年12月23日

Image Captioning 36页最新综述， 161篇参考文献

Image Captioning 36页最新综述， 161篇参考文献

专知

90+阅读 · 2018年10月23日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

【学界】李飞飞学生最新论文：利用场景图生成图像

【学界】李飞飞学生最新论文：利用场景图生成图像

GAN生成式对抗网络

15+阅读 · 2018年4月9日

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

专知

11+阅读 · 2018年3月20日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

相关论文

Towards Geometric and Textural Consistency 3D Scene Generation via Single Image-guided Model Generation and Layout Optimization

Arxiv

1+阅读 · 2月17日

ZeroScene: A Zero-Shot Framework for 3D Scene Generation from a Single Image and Controllable Texture Editing

Arxiv

0+阅读 · 2月17日

SketchingReality: From Freehand Scene Sketches To Photorealistic Images

Arxiv

0+阅读 · 2月16日

Tele-Omni: a Unified Multimodal Framework for Video Generation and Editing

Arxiv

0+阅读 · 2月10日

SceneSmith: Agentic Generation of Simulation-Ready Indoor Scenes

Arxiv

0+阅读 · 2月9日

Enhancing Generative AI Image Refinement with Scribbles and Annotations: A Comparative Study of Multimodal Prompts

Arxiv

0+阅读 · 2月9日

ImageRAG: Dynamic Image Retrieval for Reference-Guided Image Generation

Arxiv

0+阅读 · 2月8日

Many-for-Many: Unify the Training of Multiple Video and Image Generation and Manipulation Tasks

Arxiv

0+阅读 · 2月5日

A Research Roadmap for Augmenting Software Engineering Processes and Software Products with Generative AI

Arxiv

0+阅读 · 2月3日

Architecture inside the mirage: evaluating generative image models on architectural style, elements, and typologies

Arxiv

0+阅读 · 1月14日

相关基金

基于压缩感知理论的图像采样、编码和重建研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于部件结构的图像协同分割方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于内容感知编辑算子的复合型人脸图像真实感绘制

国家自然科学基金

0+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于矩阵分解的图像表示方法及其应用研究

国家自然科学基金

2+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于草图的几何处理和应用

国家自然科学基金

2+阅读 · 2015年12月31日

基于框架提升变换的多源图像融合研究

国家自然科学基金

1+阅读 · 2015年12月31日

微信扫码咨询专知VIP会员