Modern generative models have demonstrated the ability to solve challenging mathematical problems. In many real-world settings, however, mathematical solutions must be expressed visually through diagrams, plots, geometric constructions, and structured symbolic layouts, where correctness depends on precise visual composition. This naturally raises the question of whether generative models can still do so when the answer must be rendered visually rather than written in text? To study this problem, we introduce MathGen, a rigorous benchmark of 900 problems spanning seven core domains, each paired with an executable verifier under a Script-as-a-Judge protocol for deterministic and objective evaluation. Experiments on representative open-source and proprietary text-to-image models show that mathematical fidelity remains a major bottleneck: even the best closed-source model reaches only 42.0% overall accuracy, while open-source models achieve just ~ 1-11%, often near 0% on structured tasks. Overall, current T2I models remain far from competent at even elementary mathematical visual generation.


翻译:现代生成模型已展现出解决复杂数学问题的能力。然而,在众多实际应用场景中,数学解答必须以图表、绘图、几何构造及结构化符号布局等视觉形式呈现,其正确性依赖于精确的视觉构成。这自然引发了一个问题:当答案必须通过视觉而非文本形式呈现时,生成模型是否仍能胜任?为研究此问题,我们引入了MathGen,一个包含900个问题的严格基准测试,涵盖七个核心领域,每个问题均配有在"脚本即裁判"协议下可执行的验证器,以实现确定性与客观性评估。针对代表性开源与专有文本到图像模型的实验表明,数学保真度仍是主要瓶颈:即使最优秀的闭源模型整体准确率也仅为42.0%,而开源模型仅达到约1-11%,在结构化任务上常接近0%。总体而言,当前文本到图像模型在生成哪怕基础数学视觉内容方面仍远未达到合格水平。

0
下载
关闭预览

相关内容

数学是关于数量、结构、变化等主题的探索。
文档视觉问答简述
专知会员服务
7+阅读 · 2025年10月17日
【新书】数学的本质——通过基础问题探究,400页pdf
专知会员服务
91+阅读 · 2025年1月31日
机器学习的可解释性
专知会员服务
180+阅读 · 2020年8月27日
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
0+阅读 · 3月19日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
0+阅读 · 12分钟前
21世纪的无人机战争
专知会员服务
1+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
1+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
文档视觉问答简述
专知会员服务
7+阅读 · 2025年10月17日
【新书】数学的本质——通过基础问题探究,400页pdf
专知会员服务
91+阅读 · 2025年1月31日
机器学习的可解释性
专知会员服务
180+阅读 · 2020年8月27日
相关资讯
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员