Transformer-based table retrieval systems flatten structured tables into token sequences, making retrieval sensitive to the choice of serialization even when table semantics remain unchanged. We show that semantically equivalent serializations, such as $\texttt{csv}$, $\texttt{tsv}$, $\texttt{html}$, $\texttt{markdown}$, and $\texttt{ddl}$, can produce substantially different embeddings and retrieval results across multiple benchmarks and retriever families. To address this instability, we treat serialization embedding as noisy views of a shared semantic signal and use its centroid as a canonical target representation. We show that centroid averaging suppresses format-specific variation and can recover the semantic content common to different serializations when format-induced shifts differ across tables. Empirically, centroid representations outrank individual formats in aggregate pairwise comparisons across $\texttt{MPNet}$, $\texttt{BGE-M3}$, $\texttt{ReasonIR}$, and $\texttt{SPLADE}$. We further introduce a lightweight residual bottleneck adapter on top of a frozen encoder that maps single-serialization embeddings towards centroid targets while preserving variance and enforcing covariance regularization. The adapter improves robustness for several dense retrievers, though gains are model-dependent and weaker for sparse lexical retrieval. These results identify serialization sensitivity as a major source of retrieval variance and show the promise of post hoc geometric correction for serialization-invariant table retrieval. Our code, datasets, and models are available at $\href{https://github.com/KBhandari11/Centroid-Aligned-Table-Retrieval}{https://github.com/KBhandari11/Centroid-Aligned-Table-Retrieval}$.


翻译:基于Transformer的表格检索系统将结构化表格展平为令牌序列,这使得检索结果对序列化方式的选择高度敏感,即使表格语义保持不变。我们证明,语义等价的序列化方式(如$\texttt{csv}$、$\texttt{tsv}$、$\texttt{html}$、$\texttt{markdown}$和$\texttt{ddl}$)在多个基准测试和检索器家族中会产生显著不同的嵌入表示和检索结果。为解决这种不稳定性,我们将序列化嵌入视为共享语义信号的有噪视图,并以其质心作为规范的目标表示。我们证明,当格式引发的偏移在不同表格间存在差异时,质心平均能抑制格式特有的变异,并恢复不同序列化方式间共同的语义内容。实验表明,在$\texttt{MPNet}$、$\texttt{BGE-M3}$、$\texttt{ReasonIR}$和$\texttt{SPLADE}$等模型的成对综合比较中,质心表示的性能优于单个格式。我们进一步在冻结编码器之上引入轻量级残差瓶颈适配器,将单序列化嵌入映射至质心目标,同时保留方差并施加协方差正则化。该适配器提升了多种稠密检索器的鲁棒性,但其改进效果依赖模型类型,且对稀疏词项检索的效果较弱。这些结果确定了序列化敏感性是检索方差的主要来源,并展示了后验几何校正实现序列化不变表格检索的潜力。我们的代码、数据集和模型已开源在$\href{https://github.com/KBhandari11/Centroid-Aligned-Table-Retrieval}{https://github.com/KBhandari11/Centroid-Aligned-Table-Retrieval}$。

0
下载
关闭预览

相关内容

数学上,序列是被排成一列的对象(或事件);这样每个元素不是在其他元素之前,就是在其他元素之后。这里,元素之间的顺序非常重要。
大模型上下文长度扩展中的检索增强技术简述
专知会员服务
26+阅读 · 2024年6月29日
【Google】高效Transformer综述,Efficient Transformers: A Survey
专知会员服务
66+阅读 · 2022年3月17日
命名实体识别新SOTA:改进Transformer模型
AI科技评论
17+阅读 · 2019年11月26日
长文本表示学习概述
云栖社区
15+阅读 · 2019年5月9日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
鲍捷 | 知识表示——面向实战的介绍
开放知识图谱
11+阅读 · 2017年10月23日
【论文】图上的表示学习综述
机器学习研究会
15+阅读 · 2017年9月24日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
最新内容
认知战与交战性质的改变:神经战略视角
专知会员服务
5+阅读 · 5月8日
相关VIP内容
相关资讯
命名实体识别新SOTA:改进Transformer模型
AI科技评论
17+阅读 · 2019年11月26日
长文本表示学习概述
云栖社区
15+阅读 · 2019年5月9日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
鲍捷 | 知识表示——面向实战的介绍
开放知识图谱
11+阅读 · 2017年10月23日
【论文】图上的表示学习综述
机器学习研究会
15+阅读 · 2017年9月24日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员