Tabular data embedded in PDF files, web pages, and other types of documents is prevalent in various domains. These tables, which we call human-centric tables (HCTs for short), are dense in information but often exhibit complex structural and semantic layouts. To query these HCTs, some existing solutions focus on transforming them into relational formats. However, they fail to handle the diverse and complex layouts of HCTs, making them not amenable to easy querying with SQL-based approaches. Another emerging option is to use Large Language Models (LLMs) and Vision Language Models (VLMs). However, there is a lack of standard evaluation benchmarks to measure and compare the performance of models to query HCTs using natural language. To address this gap, we propose the HumanCentric Tables Question-Answering extensive benchmark (HCTQA) consisting of thousands of HCTs with several thousands of natural language questions with their respective answers. More specifically, HCT-QA includes 1,880 real-world HCTs with 9,835 QA pairs in addition to 4,679 synthetic HCTs with 67.7K QA pairs. Also, we show through extensive experiments the performance of 25 and 9 different LLMS and VLMs, respectively, in an answering HCT-QA's questions. In addition, we show how finetuning an LLM on HCT-QA improves F1 scores by up to 25 percentage points compared to the off-the-shelf model. Compared to existing benchmarks, HCT-QA stands out for its broad complexity and diversity of covered HCTs and generated questions, its comprehensive metadata enabling deeper insight and analysis, and its novel synthetic data and QA generator.


翻译:嵌入在PDF文件、网页及其他类型文档中的表格数据在各领域普遍存在。这些表格,我们称之为以人为中心的表格(简称HCTs),信息密集但通常呈现复杂的结构和语义布局。为查询这些HCTs,现有的一些解决方案侧重于将其转换为关系型格式。然而,它们无法处理HCTs多样且复杂的布局,使得基于SQL的方法难以进行便捷查询。另一种新兴方案是使用大型语言模型(LLMs)和视觉语言模型(VLMs)。但目前缺乏标准评估基准来衡量和比较模型使用自然语言查询HCTs的性能。为填补这一空白,我们提出了HumanCentric Tables Question-Answering大规模基准(HCT-QA),包含数千个HCTs及数万个带对应答案的自然语言问题。具体而言,HCT-QA包含1,880个真实世界HCTs(附带9,835个问答对)以及4,679个合成HCTs(附带67.7K个问答对)。此外,我们通过大量实验展示了25种不同LLMs和9种不同VLMs在回答HCT-QA问题上的性能。同时,我们证明了在HCT-QA上微调LLM相比现成模型可将F1分数提升高达25个百分点。与现有基准相比,HCT-QA的突出优势在于:所涵盖HCTs及其生成问题的广泛复杂性与多样性、支持深入洞察分析的全面元数据,以及其创新的合成数据与问答生成器。

0
下载
关闭预览

相关内容

自动问答(Question Answering, QA)是指利用计算机自动回答用户所提出的问题以满足用户知识需求的任务。不同于现有搜索引擎,问答系统是信息服务的一种高级形式,系统返回用户的不再是基于关键词匹配排序的文档列表,而是精准的自然语言答案。近年来,随着人工智能的飞速发展,自动问答已经成为倍受关注且发展前景广泛的研究方向。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
表格数据表示学习综述
专知会员服务
18+阅读 · 2025年4月27日
《深度表格学习综述》
专知会员服务
44+阅读 · 2024年10月18日
表格数据的语言建模:基础、技术与演变综述
专知会员服务
39+阅读 · 2024年8月23日
表格问答研究综述
专知会员服务
24+阅读 · 2024年5月16日
医疗健康领域的短文本解析探索----文本纠错
深度学习自然语言处理
10+阅读 · 2020年8月5日
【数据中台】什么是数据中台?
产业智能官
18+阅读 · 2019年7月30日
AmpliGraph:知识图谱表示学习工具包
专知
40+阅读 · 2019年4月6日
网络表示学习介绍
人工智能前沿讲习班
18+阅读 · 2018年11月26日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
最新内容
美国当前高超音速导弹发展概述
专知会员服务
1+阅读 · 今天15:03
《高超音速武器:一项再度兴起的技术》120页slides
无人机蜂群建模与仿真方法
专知会员服务
1+阅读 · 今天14:08
澳大利亚发布《国防战略(2026年)》
专知会员服务
0+阅读 · 今天13:42
【CMU博士论文】迈向基于基础先验的 4D 感知研究
专知会员服务
0+阅读 · 今天13:46
全球高超音速武器最新发展趋势
专知会员服务
1+阅读 · 今天13:17
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员