The Mighty ToRR: A Benchmark for Table Reasoning and Robustness - 专知论文

会员服务 ·

0

鲁棒 · 基准 · 表格数据 · 表格推理 · 基准测试 ·

The Mighty ToRR: A Benchmark for Table Reasoning and Robustness

翻译：强大的ToRR：表格推理与鲁棒性基准测试

Shir Ashury-Tahan,Yifan Mai,Rajmohan C,Ariel Gera,Yotam Perlitz,Asaf Yehudai,Elron Bandel,Leshem Choshen,Eyal Shnarch,Percy Liang,Michal Shmueli-Scheuer

Despite its real-world significance, model performance on tabular data remains underexplored, leaving uncertainty about which model to rely on and which prompt configuration to adopt. To address this gap, we create ToRR, a benchmark for Table Reasoning and Robustness, measuring model performance and robustness on table-related tasks. The benchmark includes 10 datasets that cover different types of table reasoning capabilities across varied domains. ToRR goes beyond model performance rankings, and is designed to reflect whether models can handle tabular data consistently and robustly, across a variety of common table representation formats. We present a leaderboard as well as comprehensive analyses of the results of leading models over ToRR. Our results reveal a striking pattern of brittle model behavior, where even strong models are unable to perform robustly on tabular data tasks. Although no specific table format leads to consistently better performance, we show that testing over multiple formats is crucial for reliably estimating model capabilities. Moreover, we show that the reliability boost from testing multiple prompts can be equivalent to adding more test examples. Overall, our findings show that table understanding and reasoning tasks remain a significant challenge.

翻译：尽管表格数据在现实世界中具有重要意义，但模型在表格数据上的性能仍未得到充分探索，导致在选择依赖何种模型以及采用何种提示配置方面存在不确定性。为填补这一空白，我们创建了ToRR（Table Reasoning and Robustness）基准测试，用于衡量模型在表格相关任务上的性能与鲁棒性。该基准包含10个数据集，涵盖不同领域内多种类型的表格推理能力。ToRR不仅提供模型性能排名，更旨在反映模型能否在各种常见表格表示格式中保持处理表格数据的一致性与鲁棒性。我们发布了排行榜，并对主流模型在ToRR上的结果进行了全面分析。研究结果揭示了模型行为存在显著的脆弱性模式：即使强模型也无法在表格数据任务中稳定发挥性能。尽管没有特定表格格式能持续带来更优性能，但我们证明通过多种格式进行测试对于可靠评估模型能力至关重要。此外，我们发现测试多种提示带来的可靠性提升效果，可与增加测试样本数量等效。总体而言，我们的研究结果表明表格理解与推理任务仍是重大挑战。

0

相关内容

《军事场景上下文推理：大语言模型长上下文地理空间推理与规划能力基准测试》最新资料

《军事场景上下文推理：大语言模型长上下文地理空间推理与规划能力基准测试》最新资料

专知会员服务

32+阅读 · 3月14日

【CVPR2024教程】推理的鲁棒性：走向可解释性、不确定性和可干预性，169页ppt

【CVPR2024教程】推理的鲁棒性：走向可解释性、不确定性和可干预性，169页ppt

专知会员服务

36+阅读 · 2024年6月20日

大型语言模型在表格推理中的应用综述

大型语言模型在表格推理中的应用综述

专知会员服务

47+阅读 · 2024年2月14日

面向表格数据的大模型推理综述

面向表格数据的大模型推理综述

专知会员服务

67+阅读 · 2023年12月26日

一文说尽「大模型推理」！12家高校机构联合发布150页报告，综述750篇论文

一文说尽「大模型推理」！12家高校机构联合发布150页报告，综述750篇论文

专知会员服务

77+阅读 · 2023年12月23日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

《综述：强化学习在航空中的应用》第一份调查航空领域RL方法的研究论文，2022最新论文

《综述：强化学习在航空中的应用》第一份调查航空领域RL方法的研究论文，2022最新论文

专知会员服务

49+阅读 · 2022年11月15日

英国国防科技实验室最新论文《知识表示与推理在国防中的应用》，Knowledge Representation and Reasoning for Defence

英国国防科技实验室最新论文《知识表示与推理在国防中的应用》，Knowledge Representation and Reasoning for Defence

专知会员服务

77+阅读 · 2022年4月5日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知会员服务

61+阅读 · 2020年3月14日

【WSDM2020 Tutorial】图学习与推理的推荐系统，130页ppt，Learning and Reasoning on Graph for Recommendation，新加坡国立大学

【WSDM2020 Tutorial】图学习与推理的推荐系统，130页ppt，Learning and Reasoning on Graph for Recommendation，新加坡国立大学

专知会员服务

98+阅读 · 2020年2月7日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【SIGIR2020-清华】知识图谱上的增强推荐推理

【SIGIR2020-清华】知识图谱上的增强推荐推理

专知

15+阅读 · 2020年5月30日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

55页图深度学习导论《A Gentle Introduction to Deep Learning for Graphs》

55页图深度学习导论《A Gentle Introduction to Deep Learning for Graphs》

专知

16+阅读 · 2020年1月3日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

图神经网络最近这么火，不妨看看我们精选的这七篇

图神经网络最近这么火，不妨看看我们精选的这七篇

人工智能前沿讲习班

37+阅读 · 2018年12月10日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂数据下带有形状约束的半参数模型统计推断

国家自然科学基金

3+阅读 · 2014年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

L-函数、大值特征和及相关问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

复杂数据下含指标项半参数模型结构的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

TopoBench: Benchmarking LLMs on Hard Topological Reasoning

TopoBench: Benchmarking LLMs on Hard Topological Reasoning

Arxiv

0+阅读 · 3月12日

FinRule-Bench: A Benchmark for Joint Reasoning over Financial Tables and Principles

Arxiv

0+阅读 · 3月11日

Beyond Rows to Reasoning: Agentic Retrieval for Multimodal Spreadsheet Understanding and Editing

Arxiv

0+阅读 · 3月6日

DARE-bench: Evaluating Modeling and Instruction Fidelity of LLMs in Data Science

Arxiv

0+阅读 · 2月27日

SPARTA: Scalable and Principled Benchmark of Tree-Structured Multi-hop QA over Text and Tables

Arxiv

0+阅读 · 2月26日

QUIETT: Query-Independent Table Transformation for Robust Reasoning

Arxiv

0+阅读 · 2月23日

Beyond a Million Tokens: Benchmarking and Enhancing Long-Term Memory in LLMs

Arxiv

0+阅读 · 2月21日

WavBench: Benchmarking Reasoning, Colloquialism, and Paralinguistics for End-to-End Spoken Dialogue Models

Arxiv

0+阅读 · 2月13日

RankLLM: Weighted Ranking of LLMs by Quantifying Question Difficulty

Arxiv

0+阅读 · 2月12日

TABLET: A Large-Scale Dataset for Robust Visual Table Understanding

Arxiv

0+阅读 · 2月12日

VIP会员

文章信息

相关主题

最新内容

2026“人工智能+”行业发展蓝皮书（附下载）

2026“人工智能+”行业发展蓝皮书（附下载）

专知会员服务

7+阅读 · 今天12:11

《强化学习数学基础》

《强化学习数学基础》

专知会员服务

4+阅读 · 今天12:07

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

专知会员服务

6+阅读 · 今天10:06

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

专知会员服务

3+阅读 · 今天9:11

深入Maven智能系统：Palantir基于Claude打造的军事大脑

深入Maven智能系统：Palantir基于Claude打造的军事大脑

专知会员服务

10+阅读 · 今天8:18

“Maven计划”的发展演变之“Maven智能系统”应用

“Maven计划”的发展演变之“Maven智能系统”应用

专知会员服务

9+阅读 · 今天8:03

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

专知会员服务

6+阅读 · 今天7:39

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

专知会员服务

5+阅读 · 今天6:58

加拿大国防部发布项目需求：用于高级态势决策的多模态人工智能

加拿大国防部发布项目需求：用于高级态势决策的多模态人工智能

专知会员服务

5+阅读 · 今天6:54

《无人机革命：来自俄乌战场的启示》（报告）

《无人机革命：来自俄乌战场的启示》（报告）

专知会员服务

9+阅读 · 今天6:48

《实现联合作战能力所需的技术》58页报告

《实现联合作战能力所需的技术》58页报告

专知会员服务

5+阅读 · 今天6:30

《算法化目标定位：人工智能在以色列加沙打击行动中的作用及其伦理影响》（中文版）

《算法化目标定位：人工智能在以色列加沙打击行动中的作用及其伦理影响》（中文版）

专知会员服务

7+阅读 · 今天6:22

以色列运用人工智能优化空袭警报系统

以色列运用人工智能优化空袭警报系统

专知会员服务

5+阅读 · 今天6:20

以色列在多条战线部署AI智能体

以色列在多条战线部署AI智能体

专知会员服务

7+阅读 · 今天6:12

《将形式化方法工具应用于电子战代码库（经验报告）》

《将形式化方法工具应用于电子战代码库（经验报告）》

专知会员服务

6+阅读 · 今天6:09

相关VIP内容

《军事场景上下文推理：大语言模型长上下文地理空间推理与规划能力基准测试》最新资料

《军事场景上下文推理：大语言模型长上下文地理空间推理与规划能力基准测试》最新资料

专知会员服务

32+阅读 · 3月14日

【CVPR2024教程】推理的鲁棒性：走向可解释性、不确定性和可干预性，169页ppt

【CVPR2024教程】推理的鲁棒性：走向可解释性、不确定性和可干预性，169页ppt

专知会员服务

36+阅读 · 2024年6月20日

大型语言模型在表格推理中的应用综述

大型语言模型在表格推理中的应用综述

专知会员服务

47+阅读 · 2024年2月14日

面向表格数据的大模型推理综述

面向表格数据的大模型推理综述

专知会员服务

67+阅读 · 2023年12月26日

一文说尽「大模型推理」！12家高校机构联合发布150页报告，综述750篇论文

一文说尽「大模型推理」！12家高校机构联合发布150页报告，综述750篇论文

专知会员服务

77+阅读 · 2023年12月23日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

《综述：强化学习在航空中的应用》第一份调查航空领域RL方法的研究论文，2022最新论文

《综述：强化学习在航空中的应用》第一份调查航空领域RL方法的研究论文，2022最新论文

专知会员服务

49+阅读 · 2022年11月15日

英国国防科技实验室最新论文《知识表示与推理在国防中的应用》，Knowledge Representation and Reasoning for Defence

英国国防科技实验室最新论文《知识表示与推理在国防中的应用》，Knowledge Representation and Reasoning for Defence

专知会员服务

77+阅读 · 2022年4月5日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知会员服务

61+阅读 · 2020年3月14日

【WSDM2020 Tutorial】图学习与推理的推荐系统，130页ppt，Learning and Reasoning on Graph for Recommendation，新加坡国立大学

【WSDM2020 Tutorial】图学习与推理的推荐系统，130页ppt，Learning and Reasoning on Graph for Recommendation，新加坡国立大学

专知会员服务

98+阅读 · 2020年2月7日

热门VIP内容

开通专知VIP会员享更多权益服务

《强化学习数学基础》

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

2026“人工智能+”行业发展蓝皮书（附下载）

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

相关资讯

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【SIGIR2020-清华】知识图谱上的增强推荐推理

【SIGIR2020-清华】知识图谱上的增强推荐推理

专知

15+阅读 · 2020年5月30日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

55页图深度学习导论《A Gentle Introduction to Deep Learning for Graphs》

55页图深度学习导论《A Gentle Introduction to Deep Learning for Graphs》

专知

16+阅读 · 2020年1月3日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

图神经网络最近这么火，不妨看看我们精选的这七篇

图神经网络最近这么火，不妨看看我们精选的这七篇

人工智能前沿讲习班

37+阅读 · 2018年12月10日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

相关论文

TopoBench: Benchmarking LLMs on Hard Topological Reasoning

TopoBench: Benchmarking LLMs on Hard Topological Reasoning

Arxiv

0+阅读 · 3月12日

FinRule-Bench: A Benchmark for Joint Reasoning over Financial Tables and Principles

Arxiv

0+阅读 · 3月11日

Beyond Rows to Reasoning: Agentic Retrieval for Multimodal Spreadsheet Understanding and Editing

Arxiv

0+阅读 · 3月6日

DARE-bench: Evaluating Modeling and Instruction Fidelity of LLMs in Data Science

Arxiv

0+阅读 · 2月27日

SPARTA: Scalable and Principled Benchmark of Tree-Structured Multi-hop QA over Text and Tables

Arxiv

0+阅读 · 2月26日

QUIETT: Query-Independent Table Transformation for Robust Reasoning

Arxiv

0+阅读 · 2月23日

Beyond a Million Tokens: Benchmarking and Enhancing Long-Term Memory in LLMs

Arxiv

0+阅读 · 2月21日

WavBench: Benchmarking Reasoning, Colloquialism, and Paralinguistics for End-to-End Spoken Dialogue Models

Arxiv

0+阅读 · 2月13日

RankLLM: Weighted Ranking of LLMs by Quantifying Question Difficulty

Arxiv

0+阅读 · 2月12日

TABLET: A Large-Scale Dataset for Robust Visual Table Understanding

Arxiv

0+阅读 · 2月12日

相关基金

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂数据下带有形状约束的半参数模型统计推断

国家自然科学基金

3+阅读 · 2014年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

L-函数、大值特征和及相关问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

复杂数据下含指标项半参数模型结构的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员