Complex tables with multi-level headers, merged cells and heterogeneous layouts pose persistent challenges for LLMs in both understanding and reasoning. Existing approaches typically rely on table linearization or normalized grid modeling. However, these representations struggle to explicitly capture hierarchical structures and cross-dimensional dependencies, which can lead to misalignment between structural semantics and textual representations for non-standard tables. To address this issue, we propose an Orthogonal Hierarchical Decomposition (OHD) framework that constructs structure-preserving input representations of complex tables for LLMs. OHD introduces an Orthogonal Tree Induction (OTI) method based on spatial--semantic co-constraints, which decomposes irregular tables into a column tree and a row tree to capture vertical and horizontal hierarchical dependencies, respectively. Building on this representation, we design a dual-pathway association protocol to symmetrically reconstruct semantic lineage of each cell, and incorporate an LLM as a semantic arbitrator to align multi-level semantic information. We evaluate OHD framework on two complex table question answering benchmarks, AITQA and HiTab. Experimental results show that OHD consistently outperforms existing representation paradigms across multiple evaluation metrics.


翻译:具有多级表头、合并单元格及异构布局的复杂表格对大语言模型的理解与推理能力提出了持续挑战。现有方法通常依赖于表格线性化或规范化网格建模。然而,这些表征方式难以显式捕捉层次化结构与跨维度依赖关系,可能导致非标准表格的结构语义与文本表征之间的错位。为解决该问题,我们提出正交层次分解框架,该框架可为大语言模型构建保持结构信息的复杂表格输入表征。OHD基于空间-语义双重约束提出正交树归纳方法,将不规则表格分解为列树与行树,分别捕获垂直与水平方向的层次依赖关系。基于此表征,我们设计了双路径关联协议以对称重构每个单元格的语义谱系,并引入大语言模型作为语义仲裁器以对齐多层级语义信息。我们在两个复杂表格问答基准数据集AITQA与HiTab上评估OHD框架。实验结果表明,OHD在多项评估指标上均持续优于现有表征范式。

0
下载
关闭预览

相关内容

大语言模型基准综述
专知会员服务
25+阅读 · 2025年8月22日
连续表示方法、理论与应用:综述与前瞻
专知会员服务
23+阅读 · 2025年5月28日
融合知识图谱的大语言模型研究综述
专知会员服务
37+阅读 · 2025年4月18日
图表大数据解析方法综述
专知会员服务
19+阅读 · 2025年1月31日
表格数据的语言建模:基础、技术与演变综述
专知会员服务
39+阅读 · 2024年8月23日
【WWW2023】面向结构化知识的预训练语言大模型
专知会员服务
60+阅读 · 2023年8月4日
【国防科大】复杂异构数据的表征学习综述
专知会员服务
85+阅读 · 2020年4月23日
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
【深度语义匹配模型】原理篇二:交互篇
AINLP
16+阅读 · 2020年5月18日
超详细干货 | 三维语义分割概述及总结
计算机视觉life
33+阅读 · 2019年3月19日
自然语言处理(NLP)知识结构总结
AI100
51+阅读 · 2018年8月17日
【NLP】十分钟快览自然语言处理学习总结
专知
17+阅读 · 2017年11月21日
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关VIP内容
大语言模型基准综述
专知会员服务
25+阅读 · 2025年8月22日
连续表示方法、理论与应用:综述与前瞻
专知会员服务
23+阅读 · 2025年5月28日
融合知识图谱的大语言模型研究综述
专知会员服务
37+阅读 · 2025年4月18日
图表大数据解析方法综述
专知会员服务
19+阅读 · 2025年1月31日
表格数据的语言建模:基础、技术与演变综述
专知会员服务
39+阅读 · 2024年8月23日
【WWW2023】面向结构化知识的预训练语言大模型
专知会员服务
60+阅读 · 2023年8月4日
【国防科大】复杂异构数据的表征学习综述
专知会员服务
85+阅读 · 2020年4月23日
相关资讯
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
【深度语义匹配模型】原理篇二:交互篇
AINLP
16+阅读 · 2020年5月18日
超详细干货 | 三维语义分割概述及总结
计算机视觉life
33+阅读 · 2019年3月19日
自然语言处理(NLP)知识结构总结
AI100
51+阅读 · 2018年8月17日
【NLP】十分钟快览自然语言处理学习总结
专知
17+阅读 · 2017年11月21日
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
相关基金
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员