Inst-Inpaint: Instructing to Remove Objects with Diffusion Models - 专知论文

会员服务 ·

0

图像修复 · 数据集 · 掩码 · 扩散模型 · 评估指标 ·

2023 年 4 月 6 日

Inst-Inpaint: Instructing to Remove Objects with Diffusion Models

翻译：Inst-Inpaint: 基于扩散模型的指令式物体移除

Ahmet Burak Yildirim,Vedat Baday,Erkut Erdem,Aykut Erdem,Aysegul Dundar

Image inpainting task refers to erasing unwanted pixels from images and filling them in a semantically consistent and realistic way. Traditionally, the pixels that are wished to be erased are defined with binary masks. From the application point of view, a user needs to generate the masks for the objects they would like to remove which can be time-consuming and prone to errors. In this work, we are interested in an image inpainting algorithm that estimates which object to be removed based on natural language input and also removes it, simultaneously. For this purpose, first, we construct a dataset named GQA-Inpaint for this task which will be released soon. Second, we present a novel inpainting framework, Inst-Inpaint, that can remove objects from images based on the instructions given as text prompts. We set various GAN and diffusion-based baselines and run experiments on synthetic and real image datasets. We compare methods with different evaluation metrics that measure the quality and accuracy of the models and show significant quantitative and qualitative improvements.

翻译：图像修复任务是指从图像中擦除不需要的像素，并以语义一致且真实的方式填充缺失区域。传统方法中，需要擦除的像素通过二进制掩码定义。从应用角度来看，用户需手动生成待移除物体的掩码，这一过程既耗时又容易出错。本文致力于研究一种基于自然语言输入即可同步识别待移除物体并执行擦除的图像修复算法。为此，我们首先构建了面向该任务的GQA-Inpaint数据集（即将发布），随后提出了一种新型修复框架Inst-Inpaint，该框架能够根据文本指令从图像中移除指定物体。我们建立了多种基于生成对抗网络（GAN）与扩散模型的基线方法，并在合成图像与真实图像数据集上开展实验。通过多项评估指标（衡量模型质量与精度）对不同方法进行对比，实验结果表明该方法在定量与定性层面均实现了显著提升。

0

相关内容

图像修复

图像修复（英语：Inpainting）指重建的图像和视频中丢失或损坏的部分的过程。例如在博物馆中，这项工作常由经验丰富的博物馆管理员或者艺术品修复师来进行。数码世界中，图像修复又称图像插值或视频插值，指利用复杂的算法来替换已丢失、损坏的图像数据，主要替换一些小区域和瑕疵。

ChatGPT中的RLHF技术如何用？CMU最新《自然语言生成中的人工反馈集成》综述，详述人类反馈的格式、目标、用途和建模

ChatGPT中的RLHF技术如何用？CMU最新《自然语言生成中的人工反馈集成》综述，详述人类反馈的格式、目标、用途和建模

专知会员服务

75+阅读 · 2023年5月4日

【Hugging Face】使用自定义数据集微调语义分割模型，Fine-Tune a Semantic Segmentation Model with a Custom Dataset

【Hugging Face】使用自定义数据集微调语义分割模型，Fine-Tune a Semantic Segmentation Model with a Custom Dataset

专知会员服务

21+阅读 · 2022年3月18日

【AAAI 2022】用于文本摘要任务的序列级对比学习模型

【AAAI 2022】用于文本摘要任务的序列级对比学习模型

专知会员服务

25+阅读 · 2022年1月11日

【干货书】开放数据结构，Open Data Structures，337页pdf

【干货书】开放数据结构，Open Data Structures，337页pdf

专知会员服务

19+阅读 · 2021年9月17日

【论文推荐】文本摘要简述

【论文推荐】文本摘要简述

专知会员服务

69+阅读 · 2020年7月20日

【2020新书】自然语言处理Python与spaCy实践，216页pdf，NLP with Python

【2020新书】自然语言处理Python与spaCy实践，216页pdf，NLP with Python

专知会员服务

109+阅读 · 2020年5月1日

【Google-Mila】你的GAN实际上是一个基于能量的模型，你应该使用鉴别器驱动的潜在采样，Your GAN is Secretly an Energy-based Model and You Should Use Discriminator Driven Latent Sampling

【Google-Mila】你的GAN实际上是一个基于能量的模型，你应该使用鉴别器驱动的潜在采样，Your GAN is Secretly an Energy-based Model and You Should Use Discriminator Driven Latent Sampling

专知会员服务

30+阅读 · 2020年3月28日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

【人工智能在2019：一年回顾】反人工智能，AI in 2019: A Year in Review

【人工智能在2019：一年回顾】反人工智能，AI in 2019: A Year in Review

专知会员服务

80+阅读 · 2019年10月10日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

只需3个样本一句话，AI就能定制照片级图像，谷歌在玩一种很新的扩散模型

只需3个样本一句话，AI就能定制照片级图像，谷歌在玩一种很新的扩散模型

机器之心

0+阅读 · 2022年11月11日

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

【泡泡一分钟】PathTrack：使用路径监督的快速轨迹标注方法（ICCV2017-28）

【泡泡一分钟】PathTrack：使用路径监督的快速轨迹标注方法（ICCV2017-28）

泡泡机器人SLAM

10+阅读 · 2018年5月26日

笔记 | Sentiment Analysis

笔记 | Sentiment Analysis

黑龙江大学自然语言处理实验室

10+阅读 · 2018年5月6日

【论文推荐】最新5篇行人再识别（ReID）相关论文—迁移学习、特征集成、重排序、多通道金字塔、深层生成模型

【论文推荐】最新5篇行人再识别（ReID）相关论文—迁移学习、特征集成、重排序、多通道金字塔、深层生成模型

专知

12+阅读 · 2018年3月24日

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

专知

25+阅读 · 2018年2月6日

最新5篇生成对抗网络相关论文推荐—FusedGAN、DeblurGAN、AdvGAN、CipherGAN、MMD GANS

最新5篇生成对抗网络相关论文推荐—FusedGAN、DeblurGAN、AdvGAN、CipherGAN、MMD GANS

专知

23+阅读 · 2018年1月18日

ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

全球人工智能

20+阅读 · 2017年12月17日

维吾尔语命名实体间语义关系抽取理论方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

利用连锁和关联分析剖析花生种子大小的遗传基础

国家自然科学基金

0+阅读 · 2013年12月31日

对象模型上交互式修复生成技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

不同途径移植HUCB-MSCs治疗脑血管病大鼠microPET-CT评价及其治疗机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

实时安全关键系统的建模、仿真与验证

国家自然科学基金

1+阅读 · 2012年12月31日

下牙槽神经、舌神经挤压伤和离断伤的磁共振成像及基础研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于聚偏氟乙烯中空纤维为基体的小口径人工血管的可控制备及抗凝血表面构筑

国家自然科学基金

0+阅读 · 2012年12月31日

小口径人工血管研究中内皮干细胞捕捉的生物学和病理学评价

国家自然科学基金

0+阅读 · 2011年12月31日

基于广义稀疏表示的异质人脸图像变换和质量评价

国家自然科学基金

0+阅读 · 2011年12月31日

半监督鉴别特征抽取及人脸识别应用研究

国家自然科学基金

0+阅读 · 2008年12月31日

Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions with Large Language Model

Arxiv

1+阅读 · 2023年5月23日

Learning Remote Sensing Object Detection with Single Point Supervision

Arxiv

0+阅读 · 2023年5月23日

Realistic Noise Synthesis with Diffusion Models

Arxiv

0+阅读 · 2023年5月23日

Prompting with Pseudo-Code Instructions

Arxiv

0+阅读 · 2023年5月22日

InstructVid2Vid: Controllable Video Editing with Natural Language Instructions

Arxiv

0+阅读 · 2023年5月21日

Enhancing Vision-Language Pre-Training with Jointly Learned Questioner and Dense Captioner

Arxiv

0+阅读 · 2023年5月19日

Cinematic Mindscapes: High-quality Video Reconstruction from Brain Activity

Arxiv

0+阅读 · 2023年5月19日

Pix2seq: A Language Modeling Framework for Object Detection

Arxiv

10+阅读 · 2021年9月22日

Image Manipulation Detection by Multi-View Multi-Scale Supervision

Arxiv

13+阅读 · 2021年7月25日

Unifying Vision-and-Language Tasks via Text Generation

Arxiv

10+阅读 · 2021年2月4日

VIP会员

文章信息

相关主题

最新内容

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

10+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

6+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

6+阅读 · 7月19日

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

7+阅读 · 7月19日

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

10+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

8+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

13+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

8+阅读 · 7月18日

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

10+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

10+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

6+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

5+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

8+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

6+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

7+阅读 · 7月17日

相关VIP内容

ChatGPT中的RLHF技术如何用？CMU最新《自然语言生成中的人工反馈集成》综述，详述人类反馈的格式、目标、用途和建模

ChatGPT中的RLHF技术如何用？CMU最新《自然语言生成中的人工反馈集成》综述，详述人类反馈的格式、目标、用途和建模

专知会员服务

75+阅读 · 2023年5月4日

【Hugging Face】使用自定义数据集微调语义分割模型，Fine-Tune a Semantic Segmentation Model with a Custom Dataset

【Hugging Face】使用自定义数据集微调语义分割模型，Fine-Tune a Semantic Segmentation Model with a Custom Dataset

专知会员服务

21+阅读 · 2022年3月18日

【AAAI 2022】用于文本摘要任务的序列级对比学习模型

【AAAI 2022】用于文本摘要任务的序列级对比学习模型

专知会员服务

25+阅读 · 2022年1月11日

【干货书】开放数据结构，Open Data Structures，337页pdf

【干货书】开放数据结构，Open Data Structures，337页pdf

专知会员服务

19+阅读 · 2021年9月17日

【论文推荐】文本摘要简述

【论文推荐】文本摘要简述

专知会员服务

69+阅读 · 2020年7月20日

【2020新书】自然语言处理Python与spaCy实践，216页pdf，NLP with Python

【2020新书】自然语言处理Python与spaCy实践，216页pdf，NLP with Python

专知会员服务

109+阅读 · 2020年5月1日

【Google-Mila】你的GAN实际上是一个基于能量的模型，你应该使用鉴别器驱动的潜在采样，Your GAN is Secretly an Energy-based Model and You Should Use Discriminator Driven Latent Sampling

【Google-Mila】你的GAN实际上是一个基于能量的模型，你应该使用鉴别器驱动的潜在采样，Your GAN is Secretly an Energy-based Model and You Should Use Discriminator Driven Latent Sampling

专知会员服务

30+阅读 · 2020年3月28日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

【人工智能在2019：一年回顾】反人工智能，AI in 2019: A Year in Review

【人工智能在2019：一年回顾】反人工智能，AI in 2019: A Year in Review

专知会员服务

80+阅读 · 2019年10月10日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

锻造未来士兵：外骨骼、基因工程与赛博格

《无人机蜂群通信技术研究》50页

深入Project Maven：为何人工智能在战场上依然失灵

《无人机系统（UAS）通信网状网络试验性部署》50页报告

相关资讯

只需3个样本一句话，AI就能定制照片级图像，谷歌在玩一种很新的扩散模型

只需3个样本一句话，AI就能定制照片级图像，谷歌在玩一种很新的扩散模型

机器之心

0+阅读 · 2022年11月11日

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

【泡泡一分钟】PathTrack：使用路径监督的快速轨迹标注方法（ICCV2017-28）

【泡泡一分钟】PathTrack：使用路径监督的快速轨迹标注方法（ICCV2017-28）

泡泡机器人SLAM

10+阅读 · 2018年5月26日

笔记 | Sentiment Analysis

笔记 | Sentiment Analysis

黑龙江大学自然语言处理实验室

10+阅读 · 2018年5月6日

【论文推荐】最新5篇行人再识别（ReID）相关论文—迁移学习、特征集成、重排序、多通道金字塔、深层生成模型

【论文推荐】最新5篇行人再识别（ReID）相关论文—迁移学习、特征集成、重排序、多通道金字塔、深层生成模型

专知

12+阅读 · 2018年3月24日

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

专知

25+阅读 · 2018年2月6日

最新5篇生成对抗网络相关论文推荐—FusedGAN、DeblurGAN、AdvGAN、CipherGAN、MMD GANS

最新5篇生成对抗网络相关论文推荐—FusedGAN、DeblurGAN、AdvGAN、CipherGAN、MMD GANS

专知

23+阅读 · 2018年1月18日

ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

全球人工智能

20+阅读 · 2017年12月17日

相关论文

Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions with Large Language Model

Arxiv

1+阅读 · 2023年5月23日

Learning Remote Sensing Object Detection with Single Point Supervision

Arxiv

0+阅读 · 2023年5月23日

Realistic Noise Synthesis with Diffusion Models

Arxiv

0+阅读 · 2023年5月23日

Prompting with Pseudo-Code Instructions

Arxiv

0+阅读 · 2023年5月22日

InstructVid2Vid: Controllable Video Editing with Natural Language Instructions

Arxiv

0+阅读 · 2023年5月21日

Enhancing Vision-Language Pre-Training with Jointly Learned Questioner and Dense Captioner

Arxiv

0+阅读 · 2023年5月19日

Cinematic Mindscapes: High-quality Video Reconstruction from Brain Activity

Arxiv

0+阅读 · 2023年5月19日

Pix2seq: A Language Modeling Framework for Object Detection

Arxiv

10+阅读 · 2021年9月22日

Image Manipulation Detection by Multi-View Multi-Scale Supervision

Arxiv

13+阅读 · 2021年7月25日

Unifying Vision-and-Language Tasks via Text Generation

Arxiv

10+阅读 · 2021年2月4日

相关基金

维吾尔语命名实体间语义关系抽取理论方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

利用连锁和关联分析剖析花生种子大小的遗传基础

国家自然科学基金

0+阅读 · 2013年12月31日

对象模型上交互式修复生成技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

不同途径移植HUCB-MSCs治疗脑血管病大鼠microPET-CT评价及其治疗机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

实时安全关键系统的建模、仿真与验证

国家自然科学基金

1+阅读 · 2012年12月31日

下牙槽神经、舌神经挤压伤和离断伤的磁共振成像及基础研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于聚偏氟乙烯中空纤维为基体的小口径人工血管的可控制备及抗凝血表面构筑

国家自然科学基金

0+阅读 · 2012年12月31日

小口径人工血管研究中内皮干细胞捕捉的生物学和病理学评价

国家自然科学基金

0+阅读 · 2011年12月31日

基于广义稀疏表示的异质人脸图像变换和质量评价

国家自然科学基金

0+阅读 · 2011年12月31日

半监督鉴别特征抽取及人脸识别应用研究

国家自然科学基金

0+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员