Data visualization rules-derived from decades of research in design and perception-ensure trustworthy chart communication. While prior work has shown that large language models (LLMs) can generate charts or flag misleading figures, it remains unclear whether they can reason about and enforce visualization rules directly. Constraint-based systems such as Draco encode these rules as logical constraints for precise automated checks, but maintaining symbolic encodings requires expert effort, motivating the use of LLMs as flexible rule validators. In this paper, we present the first systematic evaluation of LLMs against visualization rules using hard-verification ground truth derived from Answer Set Programming (ASP). We translated a subset of Draco's constraints into natural-language statements and generated a controlled dataset of 2,000 Vega-Lite specifications annotated with explicit rule violations. LLMs were evaluated on both accuracy in detecting violations and prompt adherence, which measures whether outputs follow the required structured format. Results show that frontier models achieve high adherence (Gemma 3 4B / 27B: 100%, GPT-oss 20B: 98%) and reliably detect common violations (F1 up to 0.82),yet performance drops for subtler perceptual rules (F1 < 0.15 for some categories) and for outputs generated from technical ASP formulations.Translating constraints into natural language improved performance by up to 150% for smaller models. These findings demonstrate the potential of LLMs as flexible, language-driven validators while highlighting their current limitations compared to symbolic solvers.


翻译:数据可视化规则源自设计与感知领域数十年的研究,能够确保图表传达的可信度。尽管已有研究表明大型语言模型(LLMs)能够生成图表或识别误导性图形,但其是否能够直接推理并执行可视化规则仍不明确。基于约束的系统(如Draco)将这些规则编码为逻辑约束以实现精确的自动化检查,但维护符号编码需要专家投入,这促使我们探索将LLMs用作灵活规则验证器的可能性。本文首次基于从答案集编程(ASP)导出的硬验证基准,对LLMs在可视化规则理解方面进行了系统评估。我们将Draco约束的子集转化为自然语言陈述,并构建了一个包含2000个标注了显式规则违反的Vega-Lite规范的控制数据集。评估LLMs时,既考察其检测违规的准确性,也衡量其提示遵循度——即输出是否符合规定的结构化格式。结果显示,前沿模型在提示遵循度上表现优异(Gemma 3 4B/27B:100%,GPT-oss 20B:98%),并能可靠检测常见违规(F1最高达0.82);然而,在面对更细微的感知规则(部分类别的F1低于0.15)以及从技术性ASP表述生成的输出时,其性能显著下降。将约束转化为自然语言使较小模型的性能提升最高达150%。这些发现证明了LLMs作为灵活的语言驱动验证器的潜力,同时也揭示了其当前相对于符号求解器的局限性。

0
下载
关闭预览

相关内容

大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
可解释人工智能中的大语言模型:全面综述
专知会员服务
53+阅读 · 2025年4月2日
面向统计学家的大型语言模型概述
专知会员服务
32+阅读 · 2025年3月16日
《大语言模型的数据合成与增强综述》
专知会员服务
43+阅读 · 2024年10月19日
大语言模型简明指南
专知会员服务
143+阅读 · 2023年7月29日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
下载 | 954页《数据可视化》手册
机器学习算法与Python学习
22+阅读 · 2019年1月3日
动态可视化指南:一步步拆解LSTM和GRU
论智
17+阅读 · 2018年10月25日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
机器学习模型的“可解释性”到底有多重要?
中国科学院自动化研究所
20+阅读 · 2018年3月1日
【深度】Deep Visualization:可视化并理解CNN
专知
12+阅读 · 2017年9月30日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(简介)
专知会员服务
1+阅读 · 4月12日
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
3+阅读 · 4月12日
远程空中优势:新一代超视距导弹的兴起
专知会员服务
1+阅读 · 4月12日
大语言模型溯因推理的统一分类学与综述
专知会员服务
0+阅读 · 4月12日
相关VIP内容
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员