Self-Ensembling Vision-Language Models for Chart Data Extraction - 专知论文

会员服务 ·

0

提取 · 集成 · 基准 · 语言模型 · 分析 ·

Self-Ensembling Vision-Language Models for Chart Data Extraction

翻译：面向图表数据提取的自集成视觉语言模型

Thomas Berkane,Qianyi Wang,Maimuna S. Majumder

Charts effectively convey quantitative information, but the underlying data are often locked in image form, hindering reuse and analysis. Manually digitizing charts is time-consuming and error-prone, motivating automatic chart-to-table extraction. Recent approaches use specialized vision-language models (VLMs), yet performance still lags on charts with many datapoints or substantial stylistic variation. We propose a VLM self-ensembling method that repeatedly samples multiple tabular outputs from the same VLM for a fixed chart image and aggregates them at the level of individual table cells. We align candidate tables and take per-cell medians over numerical values to produce a more accurate consensus table. Our method also includes convergence detection to stop sampling once the aggregated table stabilizes, and uncertainty estimation based on dispersion across samples to help users assess extraction reliability. Because existing chart extraction benchmarks contain relatively simple plots with limited room for improvement, we introduce WB-ChartExtract, a new benchmark built from World Bank data with more complex and stylistically diverse charts; on average, its charts contain 7 times more datapoints than those in the ChartQA benchmark. Across both ChartQA and WB-ChartExtract, our approach improves extraction accuracy over single-pass VLM outputs, yielding up to 23% relative improvement on WB-ChartExtract after ensembling. More broadly, our method helps unlock tabular data previously siloed in chart images, enabling downstream analysis and reuse.

翻译：图表能有效传达定量信息，但底层数据常以图像形式封闭存储，阻碍了数据的复用与分析。人工提取图表数据耗时且易出错，这激发了从图表自动提取表格的研究。近期方法采用专用视觉语言模型（VLM），但在数据点密集或风格差异显著的图表上性能仍欠佳。我们提出一种VLM自集成方法：对同一图表图像，重复从同一VLM采样多个表格输出，并在单个单元格粒度进行聚合。通过对齐候选表格并对数值型单元格取中位数，生成更精确的共识表格。该方法还包含收敛检测机制——当聚合表格趋于稳定时自动停止采样，以及基于样本离散度的不确定性估计，帮助用户评估提取可靠性。鉴于现有图表提取基准多包含结构相对简单的图表（优化空间有限），我们基于世界银行数据构建了WB-ChartExtract新基准，其图表更复杂、风格更多样化：平均每张图表数据点数量是ChartQA基准的7倍。在ChartQA和WB-ChartExtract两数据集上，本方法相较单次VLM输出显著提升提取精度，在WB-ChartExtract上经集成后相对性能提升最高达23%。更广泛而言，我们的方法有助于解锁此前被图表图像隔离的表格数据，支持下游分析与复用。

0

相关内容

视觉语言建模遇见遥感：模型、数据集与前景展望

视觉语言建模遇见遥感：模型、数据集与前景展望

专知会员服务

17+阅读 · 2025年5月21日

高效视觉语言模型研究综述

高效视觉语言模型研究综述

专知会员服务

14+阅读 · 2025年4月18日

视觉自回归模型综述

视觉自回归模型综述

专知会员服务

45+阅读 · 2024年11月15日

WWW 2024 | GraphTranslator: 将图模型对齐大语言模型

WWW 2024 | GraphTranslator: 将图模型对齐大语言模型

专知会员服务

27+阅读 · 2024年3月25日

表格识别技术研究进展

表格识别技术研究进展

专知会员服务

38+阅读 · 2022年7月4日

清华大学朱文武老师最新「图表示深度学习」的5种方法综述论文，51页pdf

清华大学朱文武老师最新「图表示深度学习」的5种方法综述论文，51页pdf

专知会员服务

269+阅读 · 2020年1月4日

【清华大学朱文武老师课题组】图表示深度学习的5种方法，Deep Learning for Learning Graph Representations

【清华大学朱文武老师课题组】图表示深度学习的5种方法，Deep Learning for Learning Graph Representations

专知会员服务

115+阅读 · 2020年1月3日

【图机器学习论文】图摘要方法与应用综述（Graph Summarization Methods and Applications: A Survey）

【图机器学习论文】图摘要方法与应用综述（Graph Summarization Methods and Applications: A Survey）

专知会员服务

42+阅读 · 2019年12月16日

【WSDM 2020 论文】基于自关注网络的动态图表示学习（Dynamic graph representation learning via self-attention networks），Visa Research的研究员武延宏等

【WSDM 2020 论文】基于自关注网络的动态图表示学习（Dynamic graph representation learning via self-attention networks），Visa Research的研究员武延宏等

专知会员服务

98+阅读 · 2019年11月20日

【CCF优秀博士学位论文奖-2019】大规模图数据处理系统的设计与实现，清华大学朱晓伟

【CCF优秀博士学位论文奖-2019】大规模图数据处理系统的设计与实现，清华大学朱晓伟

专知会员服务

52+阅读 · 2019年11月8日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

图神经网络模型集合GraphGallery，TensorFLow&PyTorch一并实现

图神经网络模型集合GraphGallery，TensorFLow&PyTorch一并实现

专知

20+阅读 · 2020年10月5日

概述自动机器学习（AutoML）

概述自动机器学习（AutoML）

人工智能学家

19+阅读 · 2019年8月11日

计算机视觉方向简介 | 人脸表情识别

计算机视觉方向简介 | 人脸表情识别

计算机视觉life

36+阅读 · 2019年5月15日

计算机视觉方向简介 | 用深度学习进行表格提取

计算机视觉方向简介 | 用深度学习进行表格提取

计算机视觉life

21+阅读 · 2019年2月19日

深度学习时代的图模型，清华发文综述图网络

深度学习时代的图模型，清华发文综述图网络

GAN生成式对抗网络

13+阅读 · 2018年12月23日

【学科发展报告】计算机视觉

【学科发展报告】计算机视觉

中国自动化学会

43+阅读 · 2018年10月12日

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

专知

12+阅读 · 2018年6月9日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

NLP中自动生产文摘（auto text summarization）

NLP中自动生产文摘（auto text summarization）

机器学习研究会

14+阅读 · 2017年10月10日

大规模多视角高维图像特征提取

国家自然科学基金

5+阅读 · 2017年12月31日

天元数学交流项目图像处理中的数学理论及方法研讨会

国家自然科学基金

9+阅读 · 2017年12月31日

面向特征提取的低秩与稀疏图嵌入理论与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于行为数据的设计知识提取及表达方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

形状先验和数据驱动的高分辨遥感影像目标提取

国家自然科学基金

3+阅读 · 2014年12月31日

概率图模型学习及其在数据分析中的应用研究

国家自然科学基金

16+阅读 · 2013年12月31日

Learning Geometric Representations from Videos for Spatial Intelligent Multimodal Large Language Models

Arxiv

0+阅读 · 6月18日

Self-Questioning Vision-Language Models: Reinforcement Learning for Compositional Visual Reasoning

Arxiv

0+阅读 · 6月14日

Agentic Large Language Models for Automated Structural Analysis of 3D Frame Systems

Arxiv

0+阅读 · 6月11日

Self-Evolving Vision-Language Models for Image Quality Assessment via Voting and Ranking

Arxiv

0+阅读 · 6月11日

POTATR: A Lightweight Image-to-Graph Model for Page-Level Table Extraction

Arxiv

0+阅读 · 6月8日

Visual Template Inference for Data Extraction from Documents

Arxiv

0+阅读 · 6月8日

Self-Improving Language Models with Bidirectional Evolutionary Search

Arxiv

0+阅读 · 5月27日

Learning More from Less: Exploiting Counterfactuals for Data-Efficient Chart Understanding

Arxiv

0+阅读 · 5月11日

PlotPick: AI-powered batch extraction of numerical data from scientific figures

Arxiv

0+阅读 · 5月7日

A User-Friendly Framework for Generating Model-Preferred Prompts in Text-to-Image Synthesis

Arxiv

0+阅读 · 3月25日

VIP会员

文章信息

相关主题

最新内容

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

5+阅读 · 8月2日

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

2+阅读 · 8月2日

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

6+阅读 · 8月2日

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

7+阅读 · 8月2日

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

3+阅读 · 8月2日

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

7+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

5+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

5+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

5+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

3+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

12+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

9+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

9+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

6+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

9+阅读 · 7月31日

相关VIP内容

视觉语言建模遇见遥感：模型、数据集与前景展望

视觉语言建模遇见遥感：模型、数据集与前景展望

专知会员服务

17+阅读 · 2025年5月21日

高效视觉语言模型研究综述

高效视觉语言模型研究综述

专知会员服务

14+阅读 · 2025年4月18日

视觉自回归模型综述

视觉自回归模型综述

专知会员服务

45+阅读 · 2024年11月15日

WWW 2024 | GraphTranslator: 将图模型对齐大语言模型

WWW 2024 | GraphTranslator: 将图模型对齐大语言模型

专知会员服务

27+阅读 · 2024年3月25日

表格识别技术研究进展

表格识别技术研究进展

专知会员服务

38+阅读 · 2022年7月4日

清华大学朱文武老师最新「图表示深度学习」的5种方法综述论文，51页pdf

清华大学朱文武老师最新「图表示深度学习」的5种方法综述论文，51页pdf

专知会员服务

269+阅读 · 2020年1月4日

【清华大学朱文武老师课题组】图表示深度学习的5种方法，Deep Learning for Learning Graph Representations

【清华大学朱文武老师课题组】图表示深度学习的5种方法，Deep Learning for Learning Graph Representations

专知会员服务

115+阅读 · 2020年1月3日

【图机器学习论文】图摘要方法与应用综述（Graph Summarization Methods and Applications: A Survey）

【图机器学习论文】图摘要方法与应用综述（Graph Summarization Methods and Applications: A Survey）

专知会员服务

42+阅读 · 2019年12月16日

【WSDM 2020 论文】基于自关注网络的动态图表示学习（Dynamic graph representation learning via self-attention networks），Visa Research的研究员武延宏等

【WSDM 2020 论文】基于自关注网络的动态图表示学习（Dynamic graph representation learning via self-attention networks），Visa Research的研究员武延宏等

专知会员服务

98+阅读 · 2019年11月20日

【CCF优秀博士学位论文奖-2019】大规模图数据处理系统的设计与实现，清华大学朱晓伟

【CCF优秀博士学位论文奖-2019】大规模图数据处理系统的设计与实现，清华大学朱晓伟

专知会员服务

52+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

图神经网络模型集合GraphGallery，TensorFLow&PyTorch一并实现

图神经网络模型集合GraphGallery，TensorFLow&PyTorch一并实现

专知

20+阅读 · 2020年10月5日

概述自动机器学习（AutoML）

概述自动机器学习（AutoML）

人工智能学家

19+阅读 · 2019年8月11日

计算机视觉方向简介 | 人脸表情识别

计算机视觉方向简介 | 人脸表情识别

计算机视觉life

36+阅读 · 2019年5月15日

计算机视觉方向简介 | 用深度学习进行表格提取

计算机视觉方向简介 | 用深度学习进行表格提取

计算机视觉life

21+阅读 · 2019年2月19日

深度学习时代的图模型，清华发文综述图网络

深度学习时代的图模型，清华发文综述图网络

GAN生成式对抗网络

13+阅读 · 2018年12月23日

【学科发展报告】计算机视觉

【学科发展报告】计算机视觉

中国自动化学会

43+阅读 · 2018年10月12日

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

专知

12+阅读 · 2018年6月9日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

NLP中自动生产文摘（auto text summarization）

NLP中自动生产文摘（auto text summarization）

机器学习研究会

14+阅读 · 2017年10月10日

相关论文

Learning Geometric Representations from Videos for Spatial Intelligent Multimodal Large Language Models

Arxiv

0+阅读 · 6月18日

Self-Questioning Vision-Language Models: Reinforcement Learning for Compositional Visual Reasoning

Arxiv

0+阅读 · 6月14日

Agentic Large Language Models for Automated Structural Analysis of 3D Frame Systems

Arxiv

0+阅读 · 6月11日

Self-Evolving Vision-Language Models for Image Quality Assessment via Voting and Ranking

Arxiv

0+阅读 · 6月11日

POTATR: A Lightweight Image-to-Graph Model for Page-Level Table Extraction

Arxiv

0+阅读 · 6月8日

Visual Template Inference for Data Extraction from Documents

Arxiv

0+阅读 · 6月8日

Self-Improving Language Models with Bidirectional Evolutionary Search

Arxiv

0+阅读 · 5月27日

Learning More from Less: Exploiting Counterfactuals for Data-Efficient Chart Understanding

Arxiv

0+阅读 · 5月11日

PlotPick: AI-powered batch extraction of numerical data from scientific figures

Arxiv

0+阅读 · 5月7日

A User-Friendly Framework for Generating Model-Preferred Prompts in Text-to-Image Synthesis

Arxiv

0+阅读 · 3月25日

相关基金

大规模多视角高维图像特征提取

国家自然科学基金

5+阅读 · 2017年12月31日

天元数学交流项目图像处理中的数学理论及方法研讨会

国家自然科学基金

9+阅读 · 2017年12月31日

面向特征提取的低秩与稀疏图嵌入理论与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于行为数据的设计知识提取及表达方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

形状先验和数据驱动的高分辨遥感影像目标提取

国家自然科学基金

3+阅读 · 2014年12月31日

概率图模型学习及其在数据分析中的应用研究

国家自然科学基金

16+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员