Many web-based visualizations are deployed as Scalable Vector Graphics (SVG), a format that faithfully preserves visual appearance but typically omits the higher-level semantic structure needed for machine interpretation. Once rendered and published, information about a visualization's components, roles, and encodings is no longer explicitly available, limiting downstream operations such as querying, accessibility augmentation, explanation, personalization, and transformation. To address this gap, we introduce CSL, an AI-enabled, multi-stage pipeline for automatically recovering visualization semantics from deployed SVGs through two complementary mechanisms: (1) cohort-based decomposition, which organizes heterogeneous SVG primitives into structurally coherent subsets that reduce the semantic assignment space, and (2) hybrid semantic grounding, which combines model-based inference with deterministic structural validation and propagation to make labeling both context-sensitive and structurally anchored. CSL produces Semantic SVG (SSVG), a representation in which SVG elements are annotated with graphical mark type, visualization role, and data role. We implemented CSL as an end-to-end prototype and evaluated it on 102 SVG visualizations, achieving global macro-averaged accuracies of 0.822 for mark type, 0.853 for visualization role, and 0.860 for data-role recovery. An ablation against a non-cohort whole-chart baseline showed that cohorting significantly improves accuracy (paired t-test: t > 20, p < 0.001; Cohen's d > 2.0), and repeated labeling of a randomly selected SVG over 100 runs yielded mean agreement above 91.9% across all three attributes. These results provide strong evidence that CSL can transform deployed SVGs into machine-usable semantic representations, enabling more accessible, adaptive, and user-steerable visualization systems.


翻译:许多基于网页的可视化以可缩放矢量图形(SVG)形式部署,这种格式忠实地保留了视觉外观,但通常省略了机器理解所需的高级语义结构。一旦渲染并发布,关于可视化各组件、角色和编码的信息便不再显式可用,限制了查询、无障碍增强、解释、个性化及转换等下游操作。为解决这一缺陷,我们提出CSL——一种基于AI的多阶段流水线,通过两种互补机制从已部署SVG中自动恢复可视化语义:(1)基于集群的分解,将异构SVG图元组织为结构连贯的子集,以缩减语义赋值空间;(2)混合语义锚定,结合基于模型的推理与确定性结构验证及传播,使标注兼具上下文敏感性和结构锚定性。CSL生成语义SVG(SSVG)——一种用图形标记类型、可视化角色和数据角色对SVG元素进行注释的表示形式。我们将CSL实现为端到端原型,并在102个SVG可视化上评估,实现了全局宏平均准确率:标记类型0.822、可视化角色0.853、数据角色恢复0.860。与无集群的全图表基线的消融实验表明,集群化显著提升了准确率(配对t检验:t > 20,p < 0.001;Cohen's d > 2.0),且对随机选取的SVG进行100次重复标注后,三个属性的平均一致性均超过91.9%。这些结果有力证明了CSL能将已部署SVG转化为机器可用的语义表示,从而实现更易访问、更自适应、更用户可控的可视化系统。

0
下载
关闭预览

相关内容

在无标注条件下适配视觉—语言模型:全面综述
专知会员服务
13+阅读 · 2025年8月9日
时间序列复杂网络分析中的可视图方法研究综述
专知会员服务
31+阅读 · 2024年3月9日
【博士论文】结构化数据自动可视化关键技术研究
专知会员服务
47+阅读 · 2023年12月6日
基于深度学习的实时语义分割综述
专知会员服务
32+阅读 · 2023年11月27日
【资源推荐】AI可解释性资源汇总
专知
47+阅读 · 2019年4月24日
下载 | 954页《数据可视化》手册
机器学习算法与Python学习
22+阅读 · 2019年1月3日
基于视频的目标检测的发展【附PPT与视频资料】
人工智能前沿讲习班
19+阅读 · 2018年12月14日
【深度】Deep Visualization:可视化并理解CNN
专知
12+阅读 · 2017年9月30日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员