Graphics Program Synthesis is pivotal for interpreting and editing visual data, effectively facilitating the reverse-engineering of static visuals into editable TikZ code. While TikZ is the de facto standard for scientific schematics due to its programmatic flexibility, its requirement for rigorous spatial precision presents a significant challenge for Multimodal Large Language Models. Progress is currently stifled by two primary gaps: (1) Data Quality Gap: existing image-TikZ corpora often lack strict executability and reliable visual alignment; (2) Evaluation Gap: a lack of benchmarks for both structural and visual fidelity. To address these, we present a closed-loop framework featuring: SciTikZ-230K, a large-scale, high-quality dataset from our Execution-Centric Data Engine covering 11 diverse scientific disciplines; SciTikZ-Bench, a multifaceted benchmark spanning from basic geometric constructs to intricate hierarchical schematics to evaluate both visual fidelity and structural logic. To further broaden the scope of visual-code optimization methodology, we introduce a novel Dual Self-Consistency Reinforcement Learning optimization paradigm, which utilizes Round-Trip Verification to penalize degenerate code and boost overall self-consistency. Empowered by these, our trained model SciTikZer-8B achieves state-of-the-art performance, consistently outperforming proprietary giants like Gemini-2.5-Pro and massive models like Qwen3-VL-235B-A22B-Instruct.


翻译:图形程序合成是解释与编辑视觉数据的关键技术,它能有效将静态视觉内容逆向工程转换为可编辑的TikZ代码。尽管TikZ凭借其程序化灵活性成为科学示意图的事实标准,但其对空间精度的严苛要求给多模态大语言模型带来了重大挑战。当前进展受限于两个核心鸿沟:(1)数据质量鸿沟:现有图像-TikZ语料库普遍缺乏严格的可执行性与可靠的视觉对齐;(2)评估鸿沟:缺乏同时兼顾结构精度与视觉保真度的基准测试。为应对这些挑战,我们提出闭环框架,包含:SciTikZ-230K——基于执行中心数据引擎构建的覆盖11个科学领域的大规模高质量数据集;SciTikZ-Bench——涵盖从基础几何构建到复杂层级示意图的多维基准测试,用于评估视觉保真度与结构逻辑性。为拓展视觉-代码优化方法的边界,我们创新性地提出双重自洽性强化学习优化范式,通过往返验证机制惩罚退化代码并增强整体自洽性。基于上述成果,训练得到的SciTikZer-8B模型达到业界领先性能,持续超越Gemini-2.5-Pro等专有巨头模型以及Qwen3-VL-235B-A22B-Instruct等超大规模模型。

0
下载
关闭预览

相关内容

图增强生成(GraphRAG)
专知会员服务
35+阅读 · 2025年1月4日
基于深度学习的程序合成研究进展
专知会员服务
17+阅读 · 2024年11月14日
【MIT博士论文】合成数据的视觉表示学习
专知会员服务
27+阅读 · 2024年8月25日
《图强化学习在组合优化中的应用》综述
专知会员服务
60+阅读 · 2024年4月10日
基于深度学习的图像融合方法综述
专知会员服务
57+阅读 · 2023年1月25日
最新《图嵌入组合优化》综述论文,40页pdf
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
深度学习时代的图模型,清华发文综述图网络
GAN生成式对抗网络
13+阅读 · 2018年12月23日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
9+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员