Text to image (T2I) models such as gpt-image-2 can now generate publication grade academic figures from a short prompt, but the output is a flat raster: a user who wants to change one arrow, one label, or one icon has to regenerate the whole image, which also disturbs the parts they wanted to keep. We present sketch-plot, an interactive system that closes this controllability gap with a three layer progressive editing pipeline: a generated PNG, an addressable puzzle of editable pieces, and a per piece SVG. The user stops at the layer that gives them enough control for the change at hand, so the cost of decomposition and vectorisation is paid only on the pieces that need it. Realising this pipeline is not trivial. General segmentation models lack the semantic discriminability to decompose a research figure cleanly, and end to end image vectorisation produces incomplete shapes and loses semantic structure. We therefore route both stages through a human in the loop interface that lets the user accept, refine, or reject decomposition and vectorisation decisions on a piece by piece basis. We validate the design with an expert user study, in which participants found sketch-plot effective for making targeted edits to AI generated academic figures and preferred it over regenerating the whole image. A demonstration video is available at https://paper-plot.dev/sketch.


翻译:摘要:当前文本到图像(T2I)模型(如gpt-image-2)已能通过简短提示词生成达到出版质量的学术图表,但其输出为扁平化光栅图像——用户若需修改某个箭头、标签或图标,必须重新生成整张图像,同时会破坏原本满意的部分。本文提出sketch-plot交互系统,通过三层渐进式编辑流水线填补这一可控性缺口:生成的PNG图像层、可寻址的模块化编辑拼图层,以及逐元素SVG层。用户可根据具体修改需求选择对应的控制层级,仅在需要调整的元件上付出分解与矢量化成本。实现该流水线存在显著挑战:通用分割模型缺乏足够的语义区分能力以准确分解科研图表,而端到端图像矢量化会产生不完整形状并丢失语义结构。为此,我们构建了人机协同界面,允许用户逐元件接受、优化或拒绝分解与矢量化结果。通过专家用户研究验证设计,参与者认为sketch-plot能有效实现AI生成学术图表的精准修改,其使用偏好度显著高于全图重新生成方案。演示视频见https://paper-plot.dev/sketch。

0
下载
关闭预览

相关内容

文本生成与编辑图像:综述
专知会员服务
11+阅读 · 2025年5月8日
IMAGINE-E:最先进文本到图像模型的图像生成智能评估
专知会员服务
13+阅读 · 2025年2月3日
文本到图像合成:十年回顾
专知会员服务
31+阅读 · 2024年11月26日
【CVPR2024】用于文本到图像生成的判别性探测和调整
专知会员服务
15+阅读 · 2024年3月11日
实践 | 如何使用深度学习为照片自动生成文本描述?
七月在线实验室
10+阅读 · 2018年5月21日
【学界】 李飞飞学生最新论文:利用场景图生成图像
GAN生成式对抗网络
15+阅读 · 2018年4月9日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
3+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关VIP内容
文本生成与编辑图像:综述
专知会员服务
11+阅读 · 2025年5月8日
IMAGINE-E:最先进文本到图像模型的图像生成智能评估
专知会员服务
13+阅读 · 2025年2月3日
文本到图像合成:十年回顾
专知会员服务
31+阅读 · 2024年11月26日
【CVPR2024】用于文本到图像生成的判别性探测和调整
专知会员服务
15+阅读 · 2024年3月11日
相关资讯
实践 | 如何使用深度学习为照片自动生成文本描述?
七月在线实验室
10+阅读 · 2018年5月21日
【学界】 李飞飞学生最新论文:利用场景图生成图像
GAN生成式对抗网络
15+阅读 · 2018年4月9日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员