sketch-plot: Progressive Editing for Text-to-Image Academic Figures - 专知论文

会员服务 ·

0

分解 · 文本到图像生成 · 图像生成 · 输出 · 交互 ·

sketch-plot: Progressive Editing for Text-to-Image Academic Figures

翻译：sketch-plot：学术图表文本到图像生成中的渐进式编辑

Yinghao Tang,Yupeng Xie,Yingchaojie Feng,Tingfeng Lan,Wei Chen

from arxiv, 5 pages, 3 figures. Demonstration paper

Text to image (T2I) models such as gpt-image-2 can now generate publication grade academic figures from a short prompt, but the output is a flat raster: a user who wants to change one arrow, one label, or one icon has to regenerate the whole image, which also disturbs the parts they wanted to keep. We present sketch-plot, an interactive system that closes this controllability gap with a three layer progressive editing pipeline: a generated PNG, an addressable puzzle of editable pieces, and a per piece SVG. The user stops at the layer that gives them enough control for the change at hand, so the cost of decomposition and vectorisation is paid only on the pieces that need it. Realising this pipeline is not trivial. General segmentation models lack the semantic discriminability to decompose a research figure cleanly, and end to end image vectorisation produces incomplete shapes and loses semantic structure. We therefore route both stages through a human in the loop interface that lets the user accept, refine, or reject decomposition and vectorisation decisions on a piece by piece basis. We validate the design with an expert user study, in which participants found sketch-plot effective for making targeted edits to AI generated academic figures and preferred it over regenerating the whole image. A demonstration video is available at https://anonymous.4open.science/r/SketchPlotVideo/.

翻译：文本到图像（T2I）模型（如gpt-image-2）现已能通过简短提示生成达到发表级别的学术图表，但其输出为平面光栅图像：用户若需修改一个箭头、标签或图标，必须重新生成整张图像，这也会破坏其希望保留的部分。我们提出交互式系统sketch-plot，通过三层渐进式编辑流水线弥合这一可控性鸿沟：生成的PNG图像、可寻址的可编辑拼图块、以及逐块SVG矢量图。用户可在适合当前修改需求的层级停止操作，因此分解与矢量化成本仅由需要修改的图形块承担。实现该流水线并非易事。通用分割模型缺乏语义区分能力以清晰分解学术图表，而端到端图像矢量化会产生不完整图形并丢失语义结构。为此，我们通过人工在环接口引导这两个阶段，允许用户逐块接受、优化或拒绝分解与矢量化决策。我们通过专家用户研究验证了该设计，参与者发现sketch-plot能有效对AI生成的学术图表进行定向编辑，且优于重新生成整幅图像。演示视频见https://anonymous.4open.science/r/SketchPlotVideo/。

0

相关内容

文本生成与编辑图像：综述

文本生成与编辑图像：综述

专知会员服务

11+阅读 · 2025年5月8日

【CVPR2025】先获取后适配：挖掘文本‑图像生成模型在图像复原中的潜力

【CVPR2025】先获取后适配：挖掘文本‑图像生成模型在图像复原中的潜力

专知会员服务

11+阅读 · 2025年4月22日

IMAGINE-E：最先进文本到图像模型的图像生成智能评估

IMAGINE-E：最先进文本到图像模型的图像生成智能评估

专知会员服务

13+阅读 · 2025年2月3日

文本到图像合成：十年回顾

文本到图像合成：十年回顾

专知会员服务

31+阅读 · 2024年11月26日

复旦最新《基于文本到图像扩散模型的多模态引导图像编辑》综述

复旦最新《基于文本到图像扩散模型的多模态引导图像编辑》综述

专知会员服务

16+阅读 · 2024年6月21日

【CVPR2024】用于文本到图像生成的判别性探测和调整

【CVPR2024】用于文本到图像生成的判别性探测和调整

专知会员服务

15+阅读 · 2024年3月11日

Sora背后的技术，最新《可控生成与文本到图像扩散模型》综述

Sora背后的技术，最新《可控生成与文本到图像扩散模型》综述

专知会员服务

69+阅读 · 2024年3月9日

【ICCV2023教程】控制文本到图像扩散模型，40页slides（Hugging Face Sayak Paul）

【ICCV2023教程】控制文本到图像扩散模型，40页slides（Hugging Face Sayak Paul）

专知会员服务

31+阅读 · 2023年10月4日

用GPT-4实现可控文本图像生成，UC伯克利&微软提出新框架Control-GPT

用GPT-4实现可控文本图像生成，UC伯克利&微软提出新框架Control-GPT

专知会员服务

35+阅读 · 2023年6月3日

【ICIP 2019 Tutorials】图像到图像的转换（Image-to-Image Translation）,英伟达研究员Ming-Yu Liu

【ICIP 2019 Tutorials】图像到图像的转换（Image-to-Image Translation）,英伟达研究员Ming-Yu Liu

专知会员服务

27+阅读 · 2019年8月10日

复旦大学：利用场景图针对图像序列进行故事生成 | AAAI 2020

复旦大学：利用场景图针对图像序列进行故事生成 | AAAI 2020

AI科技评论

10+阅读 · 2019年12月23日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

图像和文本的融合表示学习——Text2Image和Image2Text

图像和文本的融合表示学习——Text2Image和Image2Text

专知

125+阅读 · 2018年6月11日

【论文推荐】最新六篇图像描述生成相关论文—字符级推断、视觉解释、语义对齐、实体感知、确定性非自回归

【论文推荐】最新六篇图像描述生成相关论文—字符级推断、视觉解释、语义对齐、实体感知、确定性非自回归

专知

15+阅读 · 2018年5月28日

实战 | 用Python做图像处理（二）

实战 | 用Python做图像处理（二）

七月在线实验室

17+阅读 · 2018年5月25日

实践 | 如何使用深度学习为照片自动生成文本描述？

实践 | 如何使用深度学习为照片自动生成文本描述？

七月在线实验室

10+阅读 · 2018年5月21日

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

专知

11+阅读 · 2018年3月20日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

全球人工智能

12+阅读 · 2017年12月3日

基于区分型码本的图像表示的研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于内容感知编辑算子的复合型人脸图像真实感绘制

国家自然科学基金

0+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于矩阵分解的图像表示方法及其应用研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于高阶信息和深度表示的图像复原研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

2+阅读 · 2015年12月31日

有向图谱理论在图像匹配中应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

图像复原中非凸稀疏优化问题的快速算法

国家自然科学基金

0+阅读 · 2015年12月31日

基于超像素稀疏表示的图像超分辨率方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

Text-Vision Co-Instructed Image Editing

Arxiv

0+阅读 · 6月15日

SceneCraft: Interactive System for Image Editing via Scene Graph

Arxiv

0+阅读 · 6月15日

An Extensive Benchmark for Single-round and Multi-round Instruction-based Image Editing

Arxiv

0+阅读 · 6月14日

ForceForget: Reinforcement Concept Removal for Enhancing Safety in Text-to-Image Models

Arxiv

0+阅读 · 6月12日

sketch-plot: Progressive Editing for Text-to-Image Academic Figures

Arxiv

0+阅读 · 6月11日

Demonstrating chart-plot: Closing the Last Mile of Academic Chart Generation

Arxiv

0+阅读 · 6月8日

WISE: A World Knowledge-Informed Semantic Evaluation for Text-to-Image Generation

Arxiv

0+阅读 · 6月2日

PlotPick: AI-powered batch extraction of numerical data from scientific figures

Arxiv

0+阅读 · 5月7日

ANCHOR: LLM-driven Subject Conditioning for Text-to-Image Synthesis

Arxiv

0+阅读 · 4月25日

Controllable Generation with Text-to-Image Diffusion Models: A Survey

Arxiv

14+阅读 · 2024年3月7日

VIP会员

文章信息

相关主题

文本到图像生成

最新内容

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

专知会员服务

2+阅读 · 今天7:13

俄乌无人机战争的六大启示

俄乌无人机战争的六大启示

专知会员服务

4+阅读 · 今天7:07

《无人机空中监控：通信实验洞察》

《无人机空中监控：通信实验洞察》

专知会员服务

3+阅读 · 今天7:05

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

专知会员服务

3+阅读 · 今天6:59

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

12+阅读 · 8月2日

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

5+阅读 · 8月2日

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

10+阅读 · 8月2日

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

12+阅读 · 8月2日

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

6+阅读 · 8月2日

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

10+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

8+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

9+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

8+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

6+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

13+阅读 · 7月31日

相关VIP内容

文本生成与编辑图像：综述

文本生成与编辑图像：综述

专知会员服务

11+阅读 · 2025年5月8日

【CVPR2025】先获取后适配：挖掘文本‑图像生成模型在图像复原中的潜力

【CVPR2025】先获取后适配：挖掘文本‑图像生成模型在图像复原中的潜力

专知会员服务

11+阅读 · 2025年4月22日

IMAGINE-E：最先进文本到图像模型的图像生成智能评估

IMAGINE-E：最先进文本到图像模型的图像生成智能评估

专知会员服务

13+阅读 · 2025年2月3日

文本到图像合成：十年回顾

文本到图像合成：十年回顾

专知会员服务

31+阅读 · 2024年11月26日

复旦最新《基于文本到图像扩散模型的多模态引导图像编辑》综述

复旦最新《基于文本到图像扩散模型的多模态引导图像编辑》综述

专知会员服务

16+阅读 · 2024年6月21日

【CVPR2024】用于文本到图像生成的判别性探测和调整

【CVPR2024】用于文本到图像生成的判别性探测和调整

专知会员服务

15+阅读 · 2024年3月11日

Sora背后的技术，最新《可控生成与文本到图像扩散模型》综述

Sora背后的技术，最新《可控生成与文本到图像扩散模型》综述

专知会员服务

69+阅读 · 2024年3月9日

【ICCV2023教程】控制文本到图像扩散模型，40页slides（Hugging Face Sayak Paul）

【ICCV2023教程】控制文本到图像扩散模型，40页slides（Hugging Face Sayak Paul）

专知会员服务

31+阅读 · 2023年10月4日

用GPT-4实现可控文本图像生成，UC伯克利&微软提出新框架Control-GPT

用GPT-4实现可控文本图像生成，UC伯克利&微软提出新框架Control-GPT

专知会员服务

35+阅读 · 2023年6月3日

【ICIP 2019 Tutorials】图像到图像的转换（Image-to-Image Translation）,英伟达研究员Ming-Yu Liu

【ICIP 2019 Tutorials】图像到图像的转换（Image-to-Image Translation）,英伟达研究员Ming-Yu Liu

专知会员服务

27+阅读 · 2019年8月10日

热门VIP内容

开通专知VIP会员享更多权益服务

俄乌无人机战争的六大启示

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《无人机空中监控：通信实验洞察》

相关资讯

复旦大学：利用场景图针对图像序列进行故事生成 | AAAI 2020

复旦大学：利用场景图针对图像序列进行故事生成 | AAAI 2020

AI科技评论

10+阅读 · 2019年12月23日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

图像和文本的融合表示学习——Text2Image和Image2Text

图像和文本的融合表示学习——Text2Image和Image2Text

专知

125+阅读 · 2018年6月11日

【论文推荐】最新六篇图像描述生成相关论文—字符级推断、视觉解释、语义对齐、实体感知、确定性非自回归

【论文推荐】最新六篇图像描述生成相关论文—字符级推断、视觉解释、语义对齐、实体感知、确定性非自回归

专知

15+阅读 · 2018年5月28日

实战 | 用Python做图像处理（二）

实战 | 用Python做图像处理（二）

七月在线实验室

17+阅读 · 2018年5月25日

实践 | 如何使用深度学习为照片自动生成文本描述？

实践 | 如何使用深度学习为照片自动生成文本描述？

七月在线实验室

10+阅读 · 2018年5月21日

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

专知

11+阅读 · 2018年3月20日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

全球人工智能

12+阅读 · 2017年12月3日

相关论文

Text-Vision Co-Instructed Image Editing

Arxiv

0+阅读 · 6月15日

SceneCraft: Interactive System for Image Editing via Scene Graph

Arxiv

0+阅读 · 6月15日

An Extensive Benchmark for Single-round and Multi-round Instruction-based Image Editing

Arxiv

0+阅读 · 6月14日

ForceForget: Reinforcement Concept Removal for Enhancing Safety in Text-to-Image Models

Arxiv

0+阅读 · 6月12日

sketch-plot: Progressive Editing for Text-to-Image Academic Figures

Arxiv

0+阅读 · 6月11日

Demonstrating chart-plot: Closing the Last Mile of Academic Chart Generation

Arxiv

0+阅读 · 6月8日

WISE: A World Knowledge-Informed Semantic Evaluation for Text-to-Image Generation

Arxiv

0+阅读 · 6月2日

PlotPick: AI-powered batch extraction of numerical data from scientific figures

Arxiv

0+阅读 · 5月7日

ANCHOR: LLM-driven Subject Conditioning for Text-to-Image Synthesis

Arxiv

0+阅读 · 4月25日

Controllable Generation with Text-to-Image Diffusion Models: A Survey

Arxiv

14+阅读 · 2024年3月7日

相关基金

基于区分型码本的图像表示的研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于内容感知编辑算子的复合型人脸图像真实感绘制

国家自然科学基金

0+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于矩阵分解的图像表示方法及其应用研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于高阶信息和深度表示的图像复原研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

2+阅读 · 2015年12月31日

有向图谱理论在图像匹配中应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

图像复原中非凸稀疏优化问题的快速算法

国家自然科学基金

0+阅读 · 2015年12月31日

基于超像素稀疏表示的图像超分辨率方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员