Charts effectively convey quantitative information, but the underlying data are often locked in image form, hindering reuse and analysis. Manually digitizing charts is time-consuming and error-prone, motivating automatic chart-to-table extraction. Recent approaches use specialized vision-language models (VLMs), yet performance still lags on charts with many datapoints or substantial stylistic variation. We propose a VLM self-ensembling method that repeatedly samples multiple tabular outputs from the same VLM for a fixed chart image and aggregates them at the level of individual table cells. We align candidate tables and take per-cell medians over numerical values to produce a more accurate consensus table. Our method also includes convergence detection to stop sampling once the aggregated table stabilizes, and uncertainty estimation based on dispersion across samples to help users assess extraction reliability. Because existing chart extraction benchmarks contain relatively simple plots with limited room for improvement, we introduce WB-ChartExtract, a new benchmark built from World Bank data with more complex and stylistically diverse charts; on average, its charts contain 7 times more datapoints than those in the ChartQA benchmark. Across both ChartQA and WB-ChartExtract, our approach improves extraction accuracy over single-pass VLM outputs, yielding up to 23% relative improvement on WB-ChartExtract after ensembling. More broadly, our method helps unlock tabular data previously siloed in chart images, enabling downstream analysis and reuse.


翻译:图表能有效传达定量信息,但底层数据常以图像形式封闭存储,阻碍了数据的复用与分析。人工提取图表数据耗时且易出错,这激发了从图表自动提取表格的研究。近期方法采用专用视觉语言模型(VLM),但在数据点密集或风格差异显著的图表上性能仍欠佳。我们提出一种VLM自集成方法:对同一图表图像,重复从同一VLM采样多个表格输出,并在单个单元格粒度进行聚合。通过对齐候选表格并对数值型单元格取中位数,生成更精确的共识表格。该方法还包含收敛检测机制——当聚合表格趋于稳定时自动停止采样,以及基于样本离散度的不确定性估计,帮助用户评估提取可靠性。鉴于现有图表提取基准多包含结构相对简单的图表(优化空间有限),我们基于世界银行数据构建了WB-ChartExtract新基准,其图表更复杂、风格更多样化:平均每张图表数据点数量是ChartQA基准的7倍。在ChartQA和WB-ChartExtract两数据集上,本方法相较单次VLM输出显著提升提取精度,在WB-ChartExtract上经集成后相对性能提升最高达23%。更广泛而言,我们的方法有助于解锁此前被图表图像隔离的表格数据,支持下游分析与复用。

0
下载
关闭预览

相关内容

国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
10+阅读 · 6月15日
相关VIP内容
相关资讯
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员