What Really Matters for Table LLMs? A Meta-Evaluation of Model and Data Effects - 专知论文

会员服务 ·

0

表格建模 · 训练数据 · 大模型 · 指令微调 · 微调 ·

What Really Matters for Table LLMs? A Meta-Evaluation of Model and Data Effects

翻译：表格LLM真正重要的是什么？模型与数据影响的元评估

Naihao Deng,Sheng Zhang,Henghui Zhu,Shuaichen Chang,Jiani Zhang,Alexander Hanbo Li,Chung-Wei Hang,Hideo Kobayashi,Yiqun Hu,Patrick Ng

from arxiv, EACL 2026 Findings

Table modeling has progressed for decades. In this work, we revisit this trajectory and highlight emerging challenges in the LLM era, particularly the paradox of choice: the difficulty of attributing performance gains amid diverse base models and training sets in the context of table instruction tuning. We replicate four table LLMs by instruction-tuning three foundation models on four existing datasets, yielding 12 models. We then evaluate these models across 16 table benchmarks. Our study is the first to quantitatively disentangle the effects of training data and base model selection, revealing that base model choice plays a more dominant role than the training data itself. Generalization and reasoning remain challenging, inviting future effort on table modeling. Based on our findings, we share our thoughts on the future directions for table modeling.

翻译：表格建模研究已发展数十年。本文重新审视这一历程，并重点论述大语言模型时代涌现的新挑战，特别是选择悖论：在表格指令微调背景下，面对多样化基础模型与训练集时难以归因性能提升。我们通过对四个现有数据集上的三个基础模型进行指令微调，复现了四个表格大语言模型，共计产生12个模型，并在16个表格基准上对其进行评估。本研究首次定量分离训练数据与基础模型选择的影响效应，揭示基础模型的选择对性能的主导作用远超训练数据本身。泛化能力与推理能力仍是挑战，亟待未来在表格建模领域的探索。基于研究发现，我们提出对表格建模未来方向的思考。

0

相关内容

表格建模

LLM 时代小模型的应用潜力与挑战 ,50页pdf

LLM 时代小模型的应用潜力与挑战 ,50页pdf

专知会员服务

37+阅读 · 2025年2月25日

LLM4SR：关于大规模语言模型在科学研究中的应用综述

LLM4SR：关于大规模语言模型在科学研究中的应用综述

专知会员服务

42+阅读 · 2025年1月9日

《LLM 时代小模型的作用》综述

《LLM 时代小模型的作用》综述

专知会员服务

49+阅读 · 2024年9月12日

表格数据的语言建模：基础、技术与演变综述

表格数据的语言建模：基础、技术与演变综述

专知会员服务

39+阅读 · 2024年8月23日

基于大语言模型（LLM）的合成数据生成、策展和评估的综述

基于大语言模型（LLM）的合成数据生成、策展和评估的综述

专知会员服务

62+阅读 · 2024年7月5日

【COLING教程】导航现代评估领域：大语言模型 (LLMs) 基准和框架的考量，181页ppt

【COLING教程】导航现代评估领域：大语言模型 (LLMs) 基准和框架的考量，181页ppt

专知会员服务

28+阅读 · 2024年5月31日

面向表格数据的大模型推理综述

面向表格数据的大模型推理综述

专知会员服务

67+阅读 · 2023年12月26日

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

专知会员服务

47+阅读 · 2023年10月12日

大模型如何重塑推荐？香港理工大学等《大型语言模型（LLMs）时代的推荐系统》综述论文，全面阐述LLM+RS技术体系

大模型如何重塑推荐？香港理工大学等《大型语言模型（LLMs）时代的推荐系统》综述论文，全面阐述LLM+RS技术体系

专知会员服务

74+阅读 · 2023年9月3日

LLM in Medical Domain: 大语言模型在医学领域的应用

LLM in Medical Domain: 大语言模型在医学领域的应用

专知会员服务

103+阅读 · 2023年6月17日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

推荐系统召回四模型之二：沉重的FFM模型

推荐系统召回四模型之二：沉重的FFM模型

AINLP

23+阅读 · 2019年3月22日

机器学习模型的“可解释性”到底有多重要？

机器学习模型的“可解释性”到底有多重要？

中国科学院自动化研究所

20+阅读 · 2018年3月1日

推荐｜机器学习中的模型评价、模型选择和算法选择！

推荐｜机器学习中的模型评价、模型选择和算法选择！

全球人工智能

10+阅读 · 2018年2月5日

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

数据派THU

59+阅读 · 2017年11月6日

删失数据超高维共线性模型的变量选择

国家自然科学基金

0+阅读 · 2017年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

大规模格结构数据管理关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于相关性的大数据分类理论与方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

流程监控与评估中多元数据整合研究

国家自然科学基金

1+阅读 · 2014年12月31日

广义线性模型的组变量选择及其在信用评分中的应用

国家自然科学基金

2+阅读 · 2014年12月31日

面向大数据的粒计算理论与方法

国家自然科学基金

4+阅读 · 2014年12月31日

概率图模型学习及其在数据分析中的应用研究

国家自然科学基金

16+阅读 · 2013年12月31日

LLMs Contain Multitudes: How Deployment Context Reshapes Model-Level Preferences and Values

Arxiv

0+阅读 · 6月11日

From Benchmarks to Skills: Low-Rank Factors for LLM Evaluation

Arxiv

0+阅读 · 6月11日

LLM-Based User Personas for Recommendations at Scale

Arxiv

0+阅读 · 6月10日

TQA-Bench: Evaluating LLMs for Multi-Table Question Answering

Arxiv

0+阅读 · 6月5日

LLM as a Meta-Judge: Synthetic Data for NLP Evaluation Metric Validation

Arxiv

0+阅读 · 6月5日

A Study of LLMs' Preferences for Libraries and Programming Languages

Arxiv

0+阅读 · 6月4日

Correcting Prompt Dependence in LLM Benchmarks: A Bayesian Hierarchical Model with Embedding-Space Clustering

Arxiv

0+阅读 · 6月4日

Effects of Varying LLM Access on Essay Writing Behavior

Arxiv

0+阅读 · 5月29日

Mind Your Tone: Does Tone Alter LLM Performance?

Arxiv

0+阅读 · 5月27日

GRACE: A Dynamic Coreset Selection Framework for Large Language Model Optimization

Arxiv

0+阅读 · 4月9日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

3+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

LLM 时代小模型的应用潜力与挑战 ,50页pdf

LLM 时代小模型的应用潜力与挑战 ,50页pdf

专知会员服务

37+阅读 · 2025年2月25日

LLM4SR：关于大规模语言模型在科学研究中的应用综述

LLM4SR：关于大规模语言模型在科学研究中的应用综述

专知会员服务

42+阅读 · 2025年1月9日

《LLM 时代小模型的作用》综述

《LLM 时代小模型的作用》综述

专知会员服务

49+阅读 · 2024年9月12日

表格数据的语言建模：基础、技术与演变综述

表格数据的语言建模：基础、技术与演变综述

专知会员服务

39+阅读 · 2024年8月23日

基于大语言模型（LLM）的合成数据生成、策展和评估的综述

基于大语言模型（LLM）的合成数据生成、策展和评估的综述

专知会员服务

62+阅读 · 2024年7月5日

【COLING教程】导航现代评估领域：大语言模型 (LLMs) 基准和框架的考量，181页ppt

【COLING教程】导航现代评估领域：大语言模型 (LLMs) 基准和框架的考量，181页ppt

专知会员服务

28+阅读 · 2024年5月31日

面向表格数据的大模型推理综述

面向表格数据的大模型推理综述

专知会员服务

67+阅读 · 2023年12月26日

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

专知会员服务

47+阅读 · 2023年10月12日

大模型如何重塑推荐？香港理工大学等《大型语言模型（LLMs）时代的推荐系统》综述论文，全面阐述LLM+RS技术体系

大模型如何重塑推荐？香港理工大学等《大型语言模型（LLMs）时代的推荐系统》综述论文，全面阐述LLM+RS技术体系

专知会员服务

74+阅读 · 2023年9月3日

LLM in Medical Domain: 大语言模型在医学领域的应用

LLM in Medical Domain: 大语言模型在医学领域的应用

专知会员服务

103+阅读 · 2023年6月17日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

推荐系统召回四模型之二：沉重的FFM模型

推荐系统召回四模型之二：沉重的FFM模型

AINLP

23+阅读 · 2019年3月22日

机器学习模型的“可解释性”到底有多重要？

机器学习模型的“可解释性”到底有多重要？

中国科学院自动化研究所

20+阅读 · 2018年3月1日

推荐｜机器学习中的模型评价、模型选择和算法选择！

推荐｜机器学习中的模型评价、模型选择和算法选择！

全球人工智能

10+阅读 · 2018年2月5日

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

数据派THU

59+阅读 · 2017年11月6日

相关论文

LLMs Contain Multitudes: How Deployment Context Reshapes Model-Level Preferences and Values

Arxiv

0+阅读 · 6月11日

From Benchmarks to Skills: Low-Rank Factors for LLM Evaluation

Arxiv

0+阅读 · 6月11日

LLM-Based User Personas for Recommendations at Scale

Arxiv

0+阅读 · 6月10日

TQA-Bench: Evaluating LLMs for Multi-Table Question Answering

Arxiv

0+阅读 · 6月5日

LLM as a Meta-Judge: Synthetic Data for NLP Evaluation Metric Validation

Arxiv

0+阅读 · 6月5日

A Study of LLMs' Preferences for Libraries and Programming Languages

Arxiv

0+阅读 · 6月4日

Correcting Prompt Dependence in LLM Benchmarks: A Bayesian Hierarchical Model with Embedding-Space Clustering

Arxiv

0+阅读 · 6月4日

Effects of Varying LLM Access on Essay Writing Behavior

Arxiv

0+阅读 · 5月29日

Mind Your Tone: Does Tone Alter LLM Performance?

Arxiv

0+阅读 · 5月27日

GRACE: A Dynamic Coreset Selection Framework for Large Language Model Optimization

Arxiv

0+阅读 · 4月9日

相关基金

删失数据超高维共线性模型的变量选择

国家自然科学基金

0+阅读 · 2017年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

大规模格结构数据管理关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于相关性的大数据分类理论与方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

流程监控与评估中多元数据整合研究

国家自然科学基金

1+阅读 · 2014年12月31日

广义线性模型的组变量选择及其在信用评分中的应用

国家自然科学基金

2+阅读 · 2014年12月31日

面向大数据的粒计算理论与方法

国家自然科学基金

4+阅读 · 2014年12月31日

概率图模型学习及其在数据分析中的应用研究

国家自然科学基金

16+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员