Scientific Graphics Program Synthesis via Dual Self-Consistency Reinforcement Learning - 专知论文

会员服务 ·

0

合成 · 代码 · 程序合成 · 精度 · 结构 ·

Scientific Graphics Program Synthesis via Dual Self-Consistency Reinforcement Learning

翻译：科学图形程序合成：基于双重自洽性强化学习的方法

Juekai Lin,Yun Zhu,Honglin Lin,Sijing Li,Tianwei Lin,Zheng Liu,Xiaoyang Wang,Wenqiao Zhang,Lijun Wu

Graphics Program Synthesis is pivotal for interpreting and editing visual data, effectively facilitating the reverse-engineering of static visuals into editable TikZ code. While TikZ is the de facto standard for scientific schematics due to its programmatic flexibility, its requirement for rigorous spatial precision presents a significant challenge for Multimodal Large Language Models. Progress is currently stifled by two primary gaps: (1) Data Quality Gap: existing image-TikZ corpora often lack strict executability and reliable visual alignment; (2) Evaluation Gap: a lack of benchmarks for both structural and visual fidelity. To address these, we present a closed-loop framework featuring: SciTikZ-230K, a large-scale, high-quality dataset from our Execution-Centric Data Engine covering 11 diverse scientific disciplines; SciTikZ-Bench, a multifaceted benchmark spanning from basic geometric constructs to intricate hierarchical schematics to evaluate both visual fidelity and structural logic. To further broaden the scope of visual-code optimization methodology, we introduce a novel Dual Self-Consistency Reinforcement Learning optimization paradigm, which utilizes Round-Trip Verification to penalize degenerate code and boost overall self-consistency. Empowered by these, our trained model SciTikZer-8B achieves state-of-the-art performance, consistently outperforming proprietary giants like Gemini-2.5-Pro and massive models like Qwen3-VL-235B-A22B-Instruct.

翻译：图形程序合成是解释与编辑视觉数据的关键技术，它能有效将静态视觉内容逆向工程转换为可编辑的TikZ代码。尽管TikZ凭借其程序化灵活性成为科学示意图的事实标准，但其对空间精度的严苛要求给多模态大语言模型带来了重大挑战。当前进展受限于两个核心鸿沟：(1)数据质量鸿沟：现有图像-TikZ语料库普遍缺乏严格的可执行性与可靠的视觉对齐；(2)评估鸿沟：缺乏同时兼顾结构精度与视觉保真度的基准测试。为应对这些挑战，我们提出闭环框架，包含：SciTikZ-230K——基于执行中心数据引擎构建的覆盖11个科学领域的大规模高质量数据集；SciTikZ-Bench——涵盖从基础几何构建到复杂层级示意图的多维基准测试，用于评估视觉保真度与结构逻辑性。为拓展视觉-代码优化方法的边界，我们创新性地提出双重自洽性强化学习优化范式，通过往返验证机制惩罚退化代码并增强整体自洽性。基于上述成果，训练得到的SciTikZer-8B模型达到业界领先性能，持续超越Gemini-2.5-Pro等专有巨头模型以及Qwen3-VL-235B-A22B-Instruct等超大规模模型。

0

相关内容

图增强生成（GraphRAG）

图增强生成（GraphRAG）

专知会员服务

35+阅读 · 2025年1月4日

基于深度学习的程序合成研究进展

基于深度学习的程序合成研究进展

专知会员服务

17+阅读 · 2024年11月14日

【MIT博士论文】合成数据的视觉表示学习

【MIT博士论文】合成数据的视觉表示学习

专知会员服务

27+阅读 · 2024年8月25日

《图强化学习在组合优化中的应用》综述

《图强化学习在组合优化中的应用》综述

专知会员服务

60+阅读 · 2024年4月10日

低资源如何合成图像？华东理工等最新《有限数据下的图像合成》综述，详述图像合成技术进展

低资源如何合成图像？华东理工等最新《有限数据下的图像合成》综述，详述图像合成技术进展

专知会员服务

29+阅读 · 2023年8月7日

基于深度学习的图像融合方法综述

基于深度学习的图像融合方法综述

专知会员服务

57+阅读 · 2023年1月25日

多模态图像合成与编辑这么火，马普所、南洋理工等出了份详细综述

多模态图像合成与编辑这么火，马普所、南洋理工等出了份详细综述

专知会员服务

30+阅读 · 2022年8月24日

【中科院自动化所】深度图生成方法及应用综述，A Survey on Deep Graph Generation: Methods and Applications

【中科院自动化所】深度图生成方法及应用综述，A Survey on Deep Graph Generation: Methods and Applications

专知会员服务

24+阅读 · 2022年3月15日

【清华大学朱文武老师课题组】图表示深度学习的5种方法，Deep Learning for Learning Graph Representations

【清华大学朱文武老师课题组】图表示深度学习的5种方法，Deep Learning for Learning Graph Representations

专知会员服务

115+阅读 · 2020年1月3日

【深度图相似学习综述】Deep Graph Similarity Learning: A Survey，29页pdf，117条参考文献

【深度图相似学习综述】Deep Graph Similarity Learning: A Survey，29页pdf，117条参考文献

专知会员服务

98+阅读 · 2019年12月31日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

图怎么用强化学习？东北大学最新《图强化学习》综述论文，54页pdf阐述GRL方法、数据与应用

图怎么用强化学习？东北大学最新《图强化学习》综述论文，54页pdf阐述GRL方法、数据与应用

专知

12+阅读 · 2022年4月14日

最新《图嵌入组合优化》综述论文，40页pdf

最新《图嵌入组合优化》综述论文，40页pdf

专知

41+阅读 · 2020年8月31日

55页图深度学习导论《A Gentle Introduction to Deep Learning for Graphs》

55页图深度学习导论《A Gentle Introduction to Deep Learning for Graphs》

专知

16+阅读 · 2020年1月3日

专家报告|深度学习+图像多模态融合

专家报告|深度学习+图像多模态融合

中国图象图形学报

12+阅读 · 2019年10月23日

深度学习时代的图模型，清华发文综述图网络

深度学习时代的图模型，清华发文综述图网络

GAN生成式对抗网络

13+阅读 · 2018年12月23日

深度学习如何用于计算机图形学？这一份八个主题700页PPT《图形深度学习》为你讲解(附代码)

深度学习如何用于计算机图形学？这一份八个主题700页PPT《图形深度学习》为你讲解(附代码)

专知

26+阅读 · 2018年12月9日

图像和文本的融合表示学习——Text2Image和Image2Text

图像和文本的融合表示学习——Text2Image和Image2Text

专知

125+阅读 · 2018年6月11日

Ian Goodfellow等提出自注意力GAN，ImageNet图像合成获最优结果！

Ian Goodfellow等提出自注意力GAN，ImageNet图像合成获最优结果！

新智元

11+阅读 · 2018年5月24日

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

AI研习社

10+阅读 · 2018年3月6日

天元数学交流项目图像处理中的数学理论及方法研讨会

国家自然科学基金

9+阅读 · 2017年12月31日

面向特征提取的低秩与稀疏图嵌入理论与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于压缩感知理论的图像采样、编码和重建研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于记忆的不变图像特征学习方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于框架提升变换的多源图像融合研究

国家自然科学基金

2+阅读 · 2015年12月31日

成像系统的光学/数字处理联合设计方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于DEM样本的交互式地形合成方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

一种低功耗高压缩率测试图形生成方法的实现与应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

Meta-CoT: Enhancing Granularity and Generalization in Image Editing

Arxiv

0+阅读 · 4月27日

The Program Hypergraph: Multi-Way Relational Structure for Geometric Algebra, Spatial Compute, and Physics-Aware Compilation

Arxiv

0+阅读 · 4月19日

The Program Hypergraph: Multi-Way Relational Structure for Geometric Algebra, Spatial Compute, and Physics-Aware Compilation

Arxiv

0+阅读 · 4月13日

VisionFoundry: Teaching VLMs Visual Perception with Synthetic Images

Arxiv

0+阅读 · 4月10日

Graph-PiT: Enhancing Structural Coherence in Part-Based Image Synthesis via Graph Priors

Arxiv

0+阅读 · 4月7日

MathGen: Revealing the Illusion of Mathematical Competence through Text-to-Image Generation

Arxiv

0+阅读 · 3月31日

Histropy: A Computer Program for Quantifications of Histograms of 2D Gray-scale Images

Arxiv

0+阅读 · 3月31日

Graph-centric Cross-model Data Integration and Analytics in a Unified Multi-model Database

Arxiv

0+阅读 · 3月25日

Task-Oriented Data Synthesis and Control-Rectify Sampling for Remote Sensing Semantic Segmentation

Arxiv

0+阅读 · 3月24日

The Program Hypergraph: Multi-Way Relational Structure for Geometric Algebra, Spatial Compute, and Physics-Aware Compilation

Arxiv

0+阅读 · 3月18日

VIP会员

文章信息

相关主题

最新内容

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

7+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

4+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

6+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

7+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

11+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

11+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

8+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

18+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

9+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

相关VIP内容

图增强生成（GraphRAG）

图增强生成（GraphRAG）

专知会员服务

35+阅读 · 2025年1月4日

基于深度学习的程序合成研究进展

基于深度学习的程序合成研究进展

专知会员服务

17+阅读 · 2024年11月14日

【MIT博士论文】合成数据的视觉表示学习

【MIT博士论文】合成数据的视觉表示学习

专知会员服务

27+阅读 · 2024年8月25日

《图强化学习在组合优化中的应用》综述

《图强化学习在组合优化中的应用》综述

专知会员服务

60+阅读 · 2024年4月10日

低资源如何合成图像？华东理工等最新《有限数据下的图像合成》综述，详述图像合成技术进展

低资源如何合成图像？华东理工等最新《有限数据下的图像合成》综述，详述图像合成技术进展

专知会员服务

29+阅读 · 2023年8月7日

基于深度学习的图像融合方法综述

基于深度学习的图像融合方法综述

专知会员服务

57+阅读 · 2023年1月25日

多模态图像合成与编辑这么火，马普所、南洋理工等出了份详细综述

多模态图像合成与编辑这么火，马普所、南洋理工等出了份详细综述

专知会员服务

30+阅读 · 2022年8月24日

【中科院自动化所】深度图生成方法及应用综述，A Survey on Deep Graph Generation: Methods and Applications

【中科院自动化所】深度图生成方法及应用综述，A Survey on Deep Graph Generation: Methods and Applications

专知会员服务

24+阅读 · 2022年3月15日

【清华大学朱文武老师课题组】图表示深度学习的5种方法，Deep Learning for Learning Graph Representations

【清华大学朱文武老师课题组】图表示深度学习的5种方法，Deep Learning for Learning Graph Representations

专知会员服务

115+阅读 · 2020年1月3日

【深度图相似学习综述】Deep Graph Similarity Learning: A Survey，29页pdf，117条参考文献

【深度图相似学习综述】Deep Graph Similarity Learning: A Survey，29页pdf，117条参考文献

专知会员服务

98+阅读 · 2019年12月31日

热门VIP内容

开通专知VIP会员享更多权益服务

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

相关资讯

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

图怎么用强化学习？东北大学最新《图强化学习》综述论文，54页pdf阐述GRL方法、数据与应用

图怎么用强化学习？东北大学最新《图强化学习》综述论文，54页pdf阐述GRL方法、数据与应用

专知

12+阅读 · 2022年4月14日

最新《图嵌入组合优化》综述论文，40页pdf

最新《图嵌入组合优化》综述论文，40页pdf

专知

41+阅读 · 2020年8月31日

55页图深度学习导论《A Gentle Introduction to Deep Learning for Graphs》

55页图深度学习导论《A Gentle Introduction to Deep Learning for Graphs》

专知

16+阅读 · 2020年1月3日

专家报告|深度学习+图像多模态融合

专家报告|深度学习+图像多模态融合

中国图象图形学报

12+阅读 · 2019年10月23日

深度学习时代的图模型，清华发文综述图网络

深度学习时代的图模型，清华发文综述图网络

GAN生成式对抗网络

13+阅读 · 2018年12月23日

深度学习如何用于计算机图形学？这一份八个主题700页PPT《图形深度学习》为你讲解(附代码)

深度学习如何用于计算机图形学？这一份八个主题700页PPT《图形深度学习》为你讲解(附代码)

专知

26+阅读 · 2018年12月9日

图像和文本的融合表示学习——Text2Image和Image2Text

图像和文本的融合表示学习——Text2Image和Image2Text

专知

125+阅读 · 2018年6月11日

Ian Goodfellow等提出自注意力GAN，ImageNet图像合成获最优结果！

Ian Goodfellow等提出自注意力GAN，ImageNet图像合成获最优结果！

新智元

11+阅读 · 2018年5月24日

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

AI研习社

10+阅读 · 2018年3月6日

相关论文

Meta-CoT: Enhancing Granularity and Generalization in Image Editing

Arxiv

0+阅读 · 4月27日

The Program Hypergraph: Multi-Way Relational Structure for Geometric Algebra, Spatial Compute, and Physics-Aware Compilation

Arxiv

0+阅读 · 4月19日

The Program Hypergraph: Multi-Way Relational Structure for Geometric Algebra, Spatial Compute, and Physics-Aware Compilation

Arxiv

0+阅读 · 4月13日

VisionFoundry: Teaching VLMs Visual Perception with Synthetic Images

Arxiv

0+阅读 · 4月10日

Graph-PiT: Enhancing Structural Coherence in Part-Based Image Synthesis via Graph Priors

Arxiv

0+阅读 · 4月7日

MathGen: Revealing the Illusion of Mathematical Competence through Text-to-Image Generation

Arxiv

0+阅读 · 3月31日

Histropy: A Computer Program for Quantifications of Histograms of 2D Gray-scale Images

Arxiv

0+阅读 · 3月31日

Graph-centric Cross-model Data Integration and Analytics in a Unified Multi-model Database

Arxiv

0+阅读 · 3月25日

Task-Oriented Data Synthesis and Control-Rectify Sampling for Remote Sensing Semantic Segmentation

Arxiv

0+阅读 · 3月24日

The Program Hypergraph: Multi-Way Relational Structure for Geometric Algebra, Spatial Compute, and Physics-Aware Compilation

Arxiv

0+阅读 · 3月18日

相关基金

天元数学交流项目图像处理中的数学理论及方法研讨会

国家自然科学基金

9+阅读 · 2017年12月31日

面向特征提取的低秩与稀疏图嵌入理论与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于压缩感知理论的图像采样、编码和重建研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于记忆的不变图像特征学习方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于框架提升变换的多源图像融合研究

国家自然科学基金

2+阅读 · 2015年12月31日

成像系统的光学/数字处理联合设计方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于DEM样本的交互式地形合成方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

一种低功耗高压缩率测试图形生成方法的实现与应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员