Transformer-based table retrieval systems flatten structured tables into token sequences, making retrieval sensitive to the choice of serialization even when table semantics remain unchanged. We show that semantically equivalent serializations, such as $\texttt{csv}$, $\texttt{tsv}$, $\texttt{html}$, $\texttt{markdown}$, and $\texttt{ddl}$, can produce substantially different embeddings and retrieval results across multiple benchmarks and retriever families. To address this instability, we treat serialization embedding as noisy views of a shared semantic signal and use its centroid as a canonical target representation. We show that centroid averaging suppresses format-specific variation and can recover the semantic content common to different serializations when format-induced shifts differ across tables. Empirically, centroid representations outrank individual formats in aggregate pairwise comparisons across $\texttt{MPNet}$, $\texttt{BGE-M3}$, $\texttt{ReasonIR}$, and $\texttt{SPLADE}$. We further introduce a lightweight residual bottleneck adapter on top of a frozen encoder that maps single-serialization embeddings towards centroid targets while preserving variance and enforcing covariance regularization. The adapter improves robustness for several dense retrievers, though gains are model-dependent and weaker for sparse lexical retrieval. These results identify serialization sensitivity as a major source of retrieval variance and show the promise of post hoc geometric correction for serialization-invariant table retrieval.


翻译:基于Transformer的表格检索系统将结构化表格展平为token序列,这使得检索结果对序列化方式的选择高度敏感,即使表格语义保持不变。本研究表明,语义等价的序列化方式(如$\texttt{csv}$、$\texttt{tsv}$、$\texttt{html}$、$\texttt{markdown}$和$\texttt{ddl}$)在多个基准测试和检索器家族中会产生显著不同的嵌入表征和检索结果。为解决这一不稳定性问题,我们将序列化嵌入视为共享语义信号的带噪视图,并以其质心作为规范化的目标表征。我们证明,质心平均能够抑制格式特异性变异,且在格式诱导的偏移因表格而异时,可恢复不同序列化方式共有的语义内容。实验表明,在$\texttt{MPNet}$、$\texttt{BGE-M3}$、$\texttt{ReasonIR}$和$\texttt{SPLADE}$检索器上的成对聚合比较中,质心表征的整体表现优于单一格式。我们进一步引入一种轻量级残差瓶颈适配器,该适配器置于冻结编码器之上,可将单序列化嵌入映射至质心目标,同时保留方差并施加协方差正则化。该适配器提升了多个密集检索器的鲁棒性,但增益具有模型依赖性,且对稀疏词汇检索的效果较弱。这些结果揭示了序列化敏感性是检索差异的重要来源,并展示了基于后验几何校正方法实现序列化无关表格检索的潜力。

0
下载
关闭预览

相关内容

数学上,序列是被排成一列的对象(或事件);这样每个元素不是在其他元素之前,就是在其他元素之后。这里,元素之间的顺序非常重要。
表格数据表示学习综述
专知会员服务
18+阅读 · 2025年4月27日
大模型上下文长度扩展中的检索增强技术简述
专知会员服务
26+阅读 · 2024年6月29日
【Google】高效Transformer综述,Efficient Transformers: A Survey
专知会员服务
66+阅读 · 2022年3月17日
知识图谱嵌入的Translate模型汇总(TransE,TransH,TransR,TransD)
深度学习自然语言处理
31+阅读 · 2020年6月12日
命名实体识别新SOTA:改进Transformer模型
AI科技评论
17+阅读 · 2019年11月26日
长文本表示学习概述
云栖社区
15+阅读 · 2019年5月9日
百闻不如一码!手把手教你用Python搭一个Transformer
大数据文摘
18+阅读 · 2019年4月22日
【论文】图上的表示学习综述
机器学习研究会
15+阅读 · 2017年9月24日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
6+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员