Table Question Answering (Table QA) in real-world settings must operate over both structured databases and semi-structured tables containing textual fields. However, existing benchmarks are tied to fixed data formats and have not systematically examined how representation itself affects model performance. We present the first controlled study that isolates the role of table representation by holding content constant while varying structure. Using a verbalization pipeline, we generate paired structured and semi-structured tables, enabling direct comparisons across modeling paradigms. To support detailed analysis, we introduce RePairTQA, a diagnostic benchmark with splits along table size, join requirements, query complexity, and schema quality. Our experiments reveal consistent trade-offs: SQL-based methods achieve high accuracy on structured inputs but degrade on semi-structured data, LLMs exhibit flexibility but reduced precision, and hybrid approaches strike a balance, particularly under noisy schemas. These effects intensify with larger tables and more complex queries. Ultimately, no single method excels across all conditions, and we highlight the central role of representation in shaping Table QA performance. Our findings provide actionable insights for model selection and design, paving the way for more robust hybrid approaches suited for diverse real-world data formats.


翻译:现实场景中的表格问答任务必须同时处理结构化数据库和包含文本字段的半结构化表格。然而,现有基准测试受限于固定数据格式,未能系统性地考察表征形式本身对模型性能的影响。我们提出了首个对照研究,通过保持内容不变而改变结构来分离表格表征的作用。利用言语化流水线,我们生成配对的结枃化与半结构化表格,从而实现对不同建模范式的直接比较。为支持细粒度分析,我们引入了RePairTQA诊断基准,该基准按表格尺寸、连接需求、查询复杂度及模式质量进行划分。实验结果表明存在一致的权衡关系:基于SQL的方法在结构化输入上准确率高,但在半结构化数据上性能下降;大语言模型展现灵活性但精度降低;混合方法则能取得平衡,尤其在噪声模式条件下。这些效应随表格规模扩大和查询复杂度增加而加剧。最终,没有任何单一方法能在所有条件下表现优异,我们强调了表征形式在决定表格问答性能中的核心作用。本研究为模型选择与设计提供了可操作的见解,并为开发适应多样化现实数据格式的鲁棒混合方法铺平了道路。

0
下载
关闭预览

相关内容

表格数据表示学习综述
专知会员服务
18+阅读 · 2025年4月27日
表格数据的语言建模:基础、技术与演变综述
专知会员服务
39+阅读 · 2024年8月23日
表格问答研究综述
专知会员服务
24+阅读 · 2024年5月16日
【国防科大】复杂异构数据的表征学习综述
专知会员服务
85+阅读 · 2020年4月23日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
使用 Canal 实现数据异构
性能与架构
20+阅读 · 2019年3月4日
文本识别 OCR 浅析:特征篇
开源中国
16+阅读 · 2018年1月6日
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员