In this paper, we study the problem of numerical multi-table question answering (MTQA) over large-scale table collections (e.g., online data repositories). This task is essential in many analytical applications. Existing MTQA solutions, such as text-to-SQL or open-domain MTQA methods, are designed for databases and struggle when applied to large-scale table collections. The key limitations include: (1) Limited support for complex table relationships; (2) Ineffective retrieval of relevant tables at scale; (3) Inaccurate answer generation. To overcome these limitations, we propose DMRAL, a Decomposition-driven Multi-table Retrieval and Answering framework for MTQA over large-scale table collections, which consists of: (1) constructing a table relationship graph to capture complex relationships among tables; (2) Table-Aligned Question Decomposer and Coverage-Aware Retriever, which jointly enable the effective identification of relevant tables from large-scale corpora by enhancing the question decomposition quality and maximizing the question coverage of retrieved tables; and (3) Sub-question Guided Reasoner, which produces correct answers by progressively generating and refining the reasoning program based on sub-questions. Experiments on two MTQA datasets demonstrate that DMRAL significantly outperforms existing state-of-the-art MTQA methods, with an average improvement of 24% in table retrieval and 55% in answer accuracy.


翻译:本文研究面向大规模表格集合(如在线数据仓库)的数值多表问答问题。该任务在许多分析应用中至关重要。现有的多表问答解决方案,如文本到SQL或开放域多表问答方法,专为数据库设计,在应用于大规模表格集合时面临困难。主要局限性包括:(1)对复杂表格关系的支持有限;(2)大规模相关表格检索效率低下;(3)答案生成不准确。为克服这些局限,我们提出DMRAL——一种面向大规模表格集合的分解驱动多表检索与回答框架,其包含:(1)构建表格关系图以捕获表格间的复杂关系;(2)表格对齐问题分解器与覆盖感知检索器,通过提升问题分解质量并最大化检索表格对问题的覆盖度,共同实现从大规模语料库中有效识别相关表格;(3)子问题引导推理器,基于子问题逐步生成并优化推理程序以产生正确答案。在两个多表问答数据集上的实验表明,DMRAL显著优于现有最先进的多表问答方法,在表格检索和答案准确率上分别平均提升24%和55%。

0
下载
关闭预览

相关内容

表格问答研究综述
专知会员服务
24+阅读 · 2024年5月16日
大型语言模型在表格推理中的应用综述
专知会员服务
47+阅读 · 2024年2月14日
专知会员服务
90+阅读 · 2021年6月13日
Query 理解和语义召回在知乎搜索中的应用
DataFunTalk
25+阅读 · 2020年1月2日
论文浅尝 | 一种用于多关系问答的可解释推理网络
开放知识图谱
18+阅读 · 2019年5月21日
使用 Canal 实现数据异构
性能与架构
20+阅读 · 2019年3月4日
论文浅尝 | 常识用于回答生成式多跳问题
开放知识图谱
16+阅读 · 2018年11月24日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
最新内容
大语言模型溯因推理的统一分类学与综述
专知会员服务
0+阅读 · 今天12:07
美/以-伊战争:停火与后续情景与影响分析
专知会员服务
3+阅读 · 4月11日
美国-以色列-伊朗战争:是否会动用地面部队?
美国协同作战飞机项目新型无人机发动机
专知会员服务
2+阅读 · 4月11日
相关VIP内容
表格问答研究综述
专知会员服务
24+阅读 · 2024年5月16日
大型语言模型在表格推理中的应用综述
专知会员服务
47+阅读 · 2024年2月14日
专知会员服务
90+阅读 · 2021年6月13日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员