In this paper, we study the problem of numerical multi-table question answering (MTQA) over large-scale table collections (e.g., online data repositories). This task is essential in many analytical applications. Existing MTQA solutions, such as text-to-SQL or open-domain MTQA methods, are designed for databases and struggle when applied to large-scale table collections. The key limitations include: (1) Limited support for complex table relationships; (2) Ineffective retrieval of relevant tables at scale; (3) Inaccurate answer generation. To overcome these limitations, we propose DMRAL, a Decomposition-driven Multi-table Retrieval and Answering framework for MTQA over large-scale table collections, which consists of: (1) constructing a table relationship graph to capture complex relationships among tables; (2) Table-Aligned Question Decomposer and Coverage-Aware Retriever, which jointly enable the effective identification of relevant tables from large-scale corpora by enhancing the question decomposition quality and maximizing the question coverage of retrieved tables; and (3) Sub-question Guided Reasoner, which produces correct answers by progressively generating and refining the reasoning program based on sub-questions. Experiments on two MTQA datasets demonstrate that DMRAL significantly outperforms existing state-of-the-art MTQA methods, with an average improvement of 24% in table retrieval and 55% in answer accuracy.


翻译:本文研究面向大规模表格集合(如在线数据仓库)的数值多表问答问题。该任务在许多分析应用中至关重要。现有的多表问答解决方案,如文本到SQL或开放域多表问答方法,专为数据库设计,在应用于大规模表格集合时面临困难。主要局限性包括:(1)对复杂表格关系的支持有限;(2)大规模相关表格检索效率低下;(3)答案生成不准确。为克服这些局限,我们提出DMRAL——一种面向大规模表格集合的分解驱动多表检索与回答框架,其包含:(1)构建表格关系图以捕获表格间的复杂关系;(2)表格对齐问题分解器与覆盖感知检索器,通过提升问题分解质量并最大化检索表格对问题的覆盖度,共同实现从大规模语料库中有效识别相关表格;(3)子问题引导推理器,基于子问题逐步生成并优化推理程序以产生正确答案。在两个多表问答数据集上的实验表明,DMRAL显著优于现有最先进的多表问答方法,在表格检索和答案准确率上分别平均提升24%和55%。

0
下载
关闭预览

相关内容

表格问答研究综述
专知会员服务
24+阅读 · 2024年5月16日
大型语言模型在表格推理中的应用综述
专知会员服务
47+阅读 · 2024年2月14日
专知会员服务
90+阅读 · 2021年6月13日
Query 理解和语义召回在知乎搜索中的应用
DataFunTalk
25+阅读 · 2020年1月2日
论文浅尝 | 一种用于多关系问答的可解释推理网络
开放知识图谱
18+阅读 · 2019年5月21日
使用 Canal 实现数据异构
性能与架构
20+阅读 · 2019年3月4日
论文浅尝 | 常识用于回答生成式多跳问题
开放知识图谱
16+阅读 · 2018年11月24日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
最新内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
2+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
4+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
9+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
6+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
战略前沿人工智能的再思考(中文)
专知会员服务
8+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
6+阅读 · 5月29日
相关VIP内容
表格问答研究综述
专知会员服务
24+阅读 · 2024年5月16日
大型语言模型在表格推理中的应用综述
专知会员服务
47+阅读 · 2024年2月14日
专知会员服务
90+阅读 · 2021年6月13日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员