Tables and table-based use cases play a crucial role in many important real-world applications, such as spreadsheets, databases, and computational notebooks, which traditionally require expert-level users like data engineers, data analysts, and database administrators to operate. Although LLMs have shown remarkable progress in working with tables (e.g., in spreadsheet and database copilot scenarios), comprehensive benchmarking of such capabilities remains limited. In contrast to an extensive and growing list of NLP benchmarks, evaluations of table-related tasks are scarce, and narrowly focus on tasks like NL-to-SQL and Table-QA, overlooking the broader spectrum of real-world tasks that professional users face. This gap limits our understanding and model progress in this important area. In this work, we introduce MMTU, a large-scale benchmark with over 28K questions across 25 real-world table tasks, designed to comprehensively evaluate models ability to understand, reason, and manipulate real tables at the expert-level. These tasks are drawn from decades' worth of computer science research on tabular data, with a focus on complex table tasks faced by professional users. We show that MMTU require a combination of skills -- including table understanding, reasoning, and coding -- that remain challenging for today's frontier models, where even frontier reasoning models like OpenAI GPT-5 and DeepSeek R1 score only around 69\% and 57\% respectively, suggesting significant room for improvement. We highlight key findings in our evaluation using MMTU and hope that this benchmark drives further advances in understanding and developing foundation models for structured data processing and analysis. Our code and data are available at https://github.com/MMTU-Benchmark/MMTU and https://huggingface.co/datasets/MMTU-benchmark/MMTU.


翻译:表格及基于表格的应用场景在许多重要的现实应用中扮演着关键角色,例如电子表格、数据库和计算笔记本,这些传统上需要数据工程师、数据分析师和数据库管理员等专家级用户来操作。尽管大型语言模型在处理表格方面已展现出显著进展(例如在电子表格和数据库助手场景中),对此类能力的全面基准测试仍然有限。与日益增多的自然语言处理基准相比,表格相关任务的评估非常稀少,且狭隘地聚焦于自然语言到SQL和表格问答等任务,忽视了专业用户所面临的更广泛的实际任务谱系。这一差距限制了我们在此重要领域的理解和模型进展。在本工作中,我们提出了MMTU,这是一个包含超过2.8万个问题、覆盖25个现实世界表格任务的大规模基准,旨在全面评估模型在专家级别上理解、推理和操作真实表格的能力。这些任务源自数十年来的计算机科学表格数据研究,重点关注专业用户面临的复杂表格任务。我们表明,MMTU需要结合表格理解、推理和编码等多种技能,这对当前的前沿模型仍具挑战性,即使是像OpenAI GPT-5和DeepSeek R1这样的前沿推理模型,其得分也分别仅为约69%和57%,表明存在显著的改进空间。我们重点介绍了使用MMTU进行评估的关键发现,并希望该基准能推动在理解和开发用于结构化数据处理与分析的基础模型方面取得进一步进展。我们的代码和数据可在 https://github.com/MMTU-Benchmark/MMTU 和 https://huggingface.co/datasets/MMTU-benchmark/MMTU 获取。

0
下载
关闭预览

相关内容

表格数据表示学习综述
专知会员服务
18+阅读 · 2025年4月27日
【CIKM2024教程】大语言模型在表格任务中的应用
专知会员服务
24+阅读 · 2024年10月30日
《深度表格学习综述》
专知会员服务
44+阅读 · 2024年10月18日
表格数据的语言建模:基础、技术与演变综述
专知会员服务
39+阅读 · 2024年8月23日
大型语言模型在表格推理中的应用综述
专知会员服务
47+阅读 · 2024年2月14日
表格识别技术研究进展
专知会员服务
38+阅读 · 2022年7月4日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
深度学习时代的图模型,清华发文综述图网络
GAN生成式对抗网络
13+阅读 · 2018年12月23日
【知识图谱】大规模知识图谱的构建、推理及应用
产业智能官
38+阅读 · 2017年9月12日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
VIP会员
最新内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
1+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
3+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
8+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
5+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
战略前沿人工智能的再思考(中文)
专知会员服务
7+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
5+阅读 · 5月29日
相关VIP内容
表格数据表示学习综述
专知会员服务
18+阅读 · 2025年4月27日
【CIKM2024教程】大语言模型在表格任务中的应用
专知会员服务
24+阅读 · 2024年10月30日
《深度表格学习综述》
专知会员服务
44+阅读 · 2024年10月18日
表格数据的语言建模:基础、技术与演变综述
专知会员服务
39+阅读 · 2024年8月23日
大型语言模型在表格推理中的应用综述
专知会员服务
47+阅读 · 2024年2月14日
表格识别技术研究进展
专知会员服务
38+阅读 · 2022年7月4日
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员