Decomposition-Driven Multi-Table Retrieval and Reasoning for Numerical Question Answering - 专知论文

会员服务 ·

0

问答 · 分解 · 覆盖 · 在线 · 数据仓库 ·

Decomposition-Driven Multi-Table Retrieval and Reasoning for Numerical Question Answering

翻译：分解驱动的多表检索与推理在数值问答中的应用

Feng Luo,Hai Lan,Hui Luo,Zhifeng Bao,Xiaoli Wang,J. Shane Culpepper,Shazia Sadiq

from arxiv, This is the technical report for the ICDE 2026 paper

In this paper, we study the problem of numerical multi-table question answering (MTQA) over large-scale table collections (e.g., online data repositories). This task is essential in many analytical applications. Existing MTQA solutions, such as text-to-SQL or open-domain MTQA methods, are designed for databases and struggle when applied to large-scale table collections. The key limitations include: (1) Limited support for complex table relationships; (2) Ineffective retrieval of relevant tables at scale; (3) Inaccurate answer generation. To overcome these limitations, we propose DMRAL, a Decomposition-driven Multi-table Retrieval and Answering framework for MTQA over large-scale table collections, which consists of: (1) constructing a table relationship graph to capture complex relationships among tables; (2) Table-Aligned Question Decomposer and Coverage-Aware Retriever, which jointly enable the effective identification of relevant tables from large-scale corpora by enhancing the question decomposition quality and maximizing the question coverage of retrieved tables; and (3) Sub-question Guided Reasoner, which produces correct answers by progressively generating and refining the reasoning program based on sub-questions. Experiments on two MTQA datasets demonstrate that DMRAL significantly outperforms existing state-of-the-art MTQA methods, with an average improvement of 24% in table retrieval and 55% in answer accuracy.

翻译：本文研究面向大规模表格集合（如在线数据仓库）的数值多表问答问题。该任务在许多分析应用中至关重要。现有的多表问答解决方案，如文本到SQL或开放域多表问答方法，专为数据库设计，在应用于大规模表格集合时面临困难。主要局限性包括：（1）对复杂表格关系的支持有限；（2）大规模相关表格检索效率低下；（3）答案生成不准确。为克服这些局限，我们提出DMRAL——一种面向大规模表格集合的分解驱动多表检索与回答框架，其包含：（1）构建表格关系图以捕获表格间的复杂关系；（2）表格对齐问题分解器与覆盖感知检索器，通过提升问题分解质量并最大化检索表格对问题的覆盖度，共同实现从大规模语料库中有效识别相关表格；（3）子问题引导推理器，基于子问题逐步生成并优化推理程序以产生正确答案。在两个多表问答数据集上的实验表明，DMRAL显著优于现有最先进的多表问答方法，在表格检索和答案准确率上分别平均提升24%和55%。

0

相关内容

表格问答研究综述

表格问答研究综述

专知会员服务

24+阅读 · 2024年5月16日

大型语言模型在表格推理中的应用综述

大型语言模型在表格推理中的应用综述

专知会员服务

48+阅读 · 2024年2月14日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知会员服务

147+阅读 · 2022年11月14日

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

专知会员服务

27+阅读 · 2022年3月22日

知识图谱多跳问答推理研究进展、挑战与展望

专知会员服务

90+阅读 · 2021年6月13日

Query2box: 使用盒嵌入对向量空间中的知识图谱进行推理，Query2box: Reasoning over Knowledge Graphs in Vector Space Using Box Embeddings

专知会员服务

46+阅读 · 2020年5月11日

【ACL2020-浙大-微软】多轮对话推理数据集，MuTual: A Dataset for Multi-Turn Dialogue Reasoning

【ACL2020-浙大-微软】多轮对话推理数据集，MuTual: A Dataset for Multi-Turn Dialogue Reasoning

专知会员服务

38+阅读 · 2020年4月10日

【深度学习表格检测、信息提取和结构化】《Table Detection, Information Extraction and Structuring using Deep Learning》by Vihar Kurama

专知会员服务

38+阅读 · 2020年1月23日

【清华大学】利用知识增强的图神经网络进行多段推理，Multi-Paragraph Reasoning with Knowledge-enhanced Graph Neural Network

【清华大学】利用知识增强的图神经网络进行多段推理，Multi-Paragraph Reasoning with Knowledge-enhanced Graph Neural Network

专知会员服务

95+阅读 · 2019年11月8日

【VLDB2019 tutorial】TextCube：自动构建和多维探索，TextCube: Automated Construction and Multidimensional Exploration，韩家炜，Jingbo Shang

【VLDB2019 tutorial】TextCube：自动构建和多维探索，TextCube: Automated Construction and Multidimensional Exploration，韩家炜，Jingbo Shang

专知会员服务

27+阅读 · 2019年8月29日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

Query 理解和语义召回在知乎搜索中的应用

Query 理解和语义召回在知乎搜索中的应用

DataFunTalk

25+阅读 · 2020年1月2日

论文浅尝 | 一种用于多关系问答的可解释推理网络

论文浅尝 | 一种用于多关系问答的可解释推理网络

开放知识图谱

18+阅读 · 2019年5月21日

使用 Canal 实现数据异构

使用 Canal 实现数据异构

性能与架构

20+阅读 · 2019年3月4日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

论文浅尝 | 常识用于回答生成式多跳问题

论文浅尝 | 常识用于回答生成式多跳问题

开放知识图谱

16+阅读 · 2018年11月24日

论文浅尝 | 用增强学习进行推理：问答与知识库完善（KBC）

论文浅尝 | 用增强学习进行推理：问答与知识库完善（KBC）

开放知识图谱

21+阅读 · 2018年5月24日

【读书笔记】基于知识库的问答：生成查询图进行语义分析

【读书笔记】基于知识库的问答：生成查询图进行语义分析

专知

16+阅读 · 2018年3月25日

【论文推荐】最新六篇自动问答（QA）相关论文—复杂序列问答、注意力机制、长短时记忆、文本推理、多因素注意力、主动的问答智能体

【论文推荐】最新六篇自动问答（QA）相关论文—复杂序列问答、注意力机制、长短时记忆、文本推理、多因素注意力、主动的问答智能体

专知

18+阅读 · 2018年2月22日

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

专知

23+阅读 · 2018年1月17日

基于多源异构不确定数据的高效用信息挖掘的研究

国家自然科学基金

4+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

三类多尺度问题的多尺度算法

国家自然科学基金

1+阅读 · 2015年12月31日

基于概率语义分析的多关系图多类标分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

多租户数据管理关键技术研究

国家自然科学基金

7+阅读 · 2015年12月31日

多层设施选址问题的理论与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

多源基因表达数据横向整合的统计方法比较

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

大数据环境下融合多源信息的推荐系统关键问题研究

国家自然科学基金

6+阅读 · 2014年12月31日

TopBench: A Benchmark for Implicit Prediction and Reasoning over Tabular Question Answering

Arxiv

0+阅读 · 4月30日

SEARCH-R: Structured Entity-Aware Retrieval with Chain-of-Reasoning Navigator for Multi-hop Question Answering

Arxiv

0+阅读 · 4月27日

Replacing Multi-Step Assembly of Data Preparation Pipelines with One-Step LLM Pipeline Generation for Table QA

Arxiv

0+阅读 · 4月1日

SentGraph: Hierarchical Sentence Graph for Multi-hop Retrieval-Augmented Question Answering

Arxiv

0+阅读 · 3月17日

FGTR: Fine-Grained Multi-Table Retrieval via Hierarchical LLM Reasoning

Arxiv

0+阅读 · 3月13日

Weighted Set Multi-Cover on Bounded Universe and Applications in Package Recommendation

Arxiv

0+阅读 · 3月13日

DataFactory: Collaborative Multi-Agent Framework for Advanced Table Question Answering

Arxiv

0+阅读 · 3月10日

Beyond Rows to Reasoning: Agentic Retrieval for Multimodal Spreadsheet Understanding and Editing

Arxiv

0+阅读 · 3月6日

Replacing Multi-Step Assembly of Data Preparation Pipelines with One-Step LLM Pipeline Generation for Table QA

Arxiv

0+阅读 · 2月26日

Learning to Reason for Multi-Step Retrieval of Personal Context in Personalized Question Answering

Arxiv

0+阅读 · 2月22日

VIP会员

文章信息

相关主题

最新内容

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

0+阅读 · 今天8:28

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

4+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

6+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

6+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

4+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

7+阅读 · 7月20日

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

6+阅读 · 7月20日

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

14+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

7+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

9+阅读 · 7月19日

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

11+阅读 · 7月19日

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

16+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

8+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

17+阅读 · 7月18日

相关VIP内容

表格问答研究综述

表格问答研究综述

专知会员服务

24+阅读 · 2024年5月16日

大型语言模型在表格推理中的应用综述

大型语言模型在表格推理中的应用综述

专知会员服务

48+阅读 · 2024年2月14日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知会员服务

147+阅读 · 2022年11月14日

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

专知会员服务

27+阅读 · 2022年3月22日

知识图谱多跳问答推理研究进展、挑战与展望

专知会员服务

90+阅读 · 2021年6月13日

Query2box: 使用盒嵌入对向量空间中的知识图谱进行推理，Query2box: Reasoning over Knowledge Graphs in Vector Space Using Box Embeddings

专知会员服务

46+阅读 · 2020年5月11日

【ACL2020-浙大-微软】多轮对话推理数据集，MuTual: A Dataset for Multi-Turn Dialogue Reasoning

【ACL2020-浙大-微软】多轮对话推理数据集，MuTual: A Dataset for Multi-Turn Dialogue Reasoning

专知会员服务

38+阅读 · 2020年4月10日

【深度学习表格检测、信息提取和结构化】《Table Detection, Information Extraction and Structuring using Deep Learning》by Vihar Kurama

专知会员服务

38+阅读 · 2020年1月23日

【清华大学】利用知识增强的图神经网络进行多段推理，Multi-Paragraph Reasoning with Knowledge-enhanced Graph Neural Network

【清华大学】利用知识增强的图神经网络进行多段推理，Multi-Paragraph Reasoning with Knowledge-enhanced Graph Neural Network

专知会员服务

95+阅读 · 2019年11月8日

【VLDB2019 tutorial】TextCube：自动构建和多维探索，TextCube: Automated Construction and Multidimensional Exploration，韩家炜，Jingbo Shang

【VLDB2019 tutorial】TextCube：自动构建和多维探索，TextCube: Automated Construction and Multidimensional Exploration，韩家炜，Jingbo Shang

专知会员服务

27+阅读 · 2019年8月29日

热门VIP内容

开通专知VIP会员享更多权益服务

印度精确打击与指挥架构的断层

美空军AI完成F-16战斗机自主空战历史性试飞

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

相关资讯

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

Query 理解和语义召回在知乎搜索中的应用

Query 理解和语义召回在知乎搜索中的应用

DataFunTalk

25+阅读 · 2020年1月2日

论文浅尝 | 一种用于多关系问答的可解释推理网络

论文浅尝 | 一种用于多关系问答的可解释推理网络

开放知识图谱

18+阅读 · 2019年5月21日

使用 Canal 实现数据异构

使用 Canal 实现数据异构

性能与架构

20+阅读 · 2019年3月4日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

论文浅尝 | 常识用于回答生成式多跳问题

论文浅尝 | 常识用于回答生成式多跳问题

开放知识图谱

16+阅读 · 2018年11月24日

论文浅尝 | 用增强学习进行推理：问答与知识库完善（KBC）

论文浅尝 | 用增强学习进行推理：问答与知识库完善（KBC）

开放知识图谱

21+阅读 · 2018年5月24日

【读书笔记】基于知识库的问答：生成查询图进行语义分析

【读书笔记】基于知识库的问答：生成查询图进行语义分析

专知

16+阅读 · 2018年3月25日

【论文推荐】最新六篇自动问答（QA）相关论文—复杂序列问答、注意力机制、长短时记忆、文本推理、多因素注意力、主动的问答智能体

【论文推荐】最新六篇自动问答（QA）相关论文—复杂序列问答、注意力机制、长短时记忆、文本推理、多因素注意力、主动的问答智能体

专知

18+阅读 · 2018年2月22日

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

专知

23+阅读 · 2018年1月17日

相关论文

TopBench: A Benchmark for Implicit Prediction and Reasoning over Tabular Question Answering

Arxiv

0+阅读 · 4月30日

SEARCH-R: Structured Entity-Aware Retrieval with Chain-of-Reasoning Navigator for Multi-hop Question Answering

Arxiv

0+阅读 · 4月27日

Replacing Multi-Step Assembly of Data Preparation Pipelines with One-Step LLM Pipeline Generation for Table QA

Arxiv

0+阅读 · 4月1日

SentGraph: Hierarchical Sentence Graph for Multi-hop Retrieval-Augmented Question Answering

Arxiv

0+阅读 · 3月17日

FGTR: Fine-Grained Multi-Table Retrieval via Hierarchical LLM Reasoning

Arxiv

0+阅读 · 3月13日

Weighted Set Multi-Cover on Bounded Universe and Applications in Package Recommendation

Arxiv

0+阅读 · 3月13日

DataFactory: Collaborative Multi-Agent Framework for Advanced Table Question Answering

Arxiv

0+阅读 · 3月10日

Beyond Rows to Reasoning: Agentic Retrieval for Multimodal Spreadsheet Understanding and Editing

Arxiv

0+阅读 · 3月6日

Replacing Multi-Step Assembly of Data Preparation Pipelines with One-Step LLM Pipeline Generation for Table QA

Arxiv

0+阅读 · 2月26日

Learning to Reason for Multi-Step Retrieval of Personal Context in Personalized Question Answering

Arxiv

0+阅读 · 2月22日

相关基金

基于多源异构不确定数据的高效用信息挖掘的研究

国家自然科学基金

4+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

三类多尺度问题的多尺度算法

国家自然科学基金

1+阅读 · 2015年12月31日

基于概率语义分析的多关系图多类标分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

多租户数据管理关键技术研究

国家自然科学基金

7+阅读 · 2015年12月31日

多层设施选址问题的理论与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

多源基因表达数据横向整合的统计方法比较

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

大数据环境下融合多源信息的推荐系统关键问题研究

国家自然科学基金

6+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员