Scientific illustrations are essential for depicting conceptual designs, methodologies, and experimental workflows in research, playing a pivotal role in communicating complex academic insights. However, creating high-quality scientific illustrations remains a labor-intensive task for human scientists. While recent generative image models have advanced prompt-based editing, the synthesis of fully editable figures remains a fundamental challenge. Valid editability involves structured transformations of graphical elements, scales, attributes, and text, rather than simple pixel-level changes. Existing models generate raster outputs that do not support manual correction or layout adjustment, limiting their utility in scientific publishing, where editable vector figures are typically required for submission. To address this challenge, we introduce LiveFigure, an agentic framework driven by VLM agents that imitates the multi-step drawing workflow of human researchers. It first plans figure blueprints by drawing inspiration from high-quality references in previous works, then generates executable scripts that produce figures via the PowerPoint interface based on skills and experience, and finally refines the outputs with targeted visual diagnostics, producing fully vectorized, editable figures that meet publication standards. Extensive experiments demonstrate that LiveFigure generates inherently editable figures, achieving 80% publication-readiness in only 17 manual edits, far surpassing the 24% rate of the strongest baseline, NanoBanana. Human preference studies further validate this advantage, with LiveFigure securing a 60% win rate against NanoBanana. Our code is available at https://github.com/tsinghua-fib-lab/LiveFigure.git.


翻译:科学插图对于展示研究中的概念设计、方法及实验流程至关重要,在传达复杂学术见解方面发挥着核心作用。然而,高质量科学插图的制作仍是人类科学家耗时费力的任务。尽管近期生成式图像模型推动了基于提示的编辑技术发展,但全可编辑插图的合成仍是一个根本性挑战。有效的可编辑性涉及图形元素、尺度、属性和文本的结构化变换,而非简单的像素级修改。现有模型生成的栅格输出无法支持人工修正或布局调整,这限制了它们在科学出版领域的实用性——该领域通常要求提交可编辑的矢量图形。为应对这一挑战,我们提出了LiveFigure——一个由VLM智能体驱动的代理框架,它模仿人类研究人员多步骤的绘图流程:首先从既往高质量参考文献中汲取灵感规划蓝图,然后基于技能与经验通过PowerPoint接口生成可执行脚本以创建插图,最后通过针对性视觉诊断优化输出,生成完全矢量化的、符合出版标准的可编辑插图。大量实验表明,LiveFigure能生成原生可编辑的插图,仅需17次手动编辑即可达到80%的出版就绪率,远超最强基线NanoBanana的24%就绪率。人工偏好研究进一步验证了这一优势,LiveFigure对NanoBanana取得了60%的胜率。我们的代码开源在https://github.com/tsinghua-fib-lab/LiveFigure.git。

0
下载
关闭预览

相关内容

图神经网络在科学领域的应用
专知会员服务
64+阅读 · 2023年2月5日
通俗易懂!《图机器学习导论》附69页PPT
专知
55+阅读 · 2019年12月27日
如何独立实现一个基于知识图谱的问答系统
PaperWeekly
11+阅读 · 2019年6月13日
图嵌入(Graph embedding)综述
人工智能前沿讲习班
449+阅读 · 2019年4月30日
图神经网络最近这么火,不妨看看我们精选的这七篇
人工智能前沿讲习班
37+阅读 · 2018年12月10日
Image Captioning 36页最新综述, 161篇参考文献
专知
90+阅读 · 2018年10月23日
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
2+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关VIP内容
图神经网络在科学领域的应用
专知会员服务
64+阅读 · 2023年2月5日
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员