General-purpose embedding models have demonstrated strong performance in text retrieval but remain suboptimal for table retrieval, where highly structured content leads to semantic compression and query-table mismatch. Recent LLM-based retrieval augmentation methods mitigate this issue by generating synthetic queries, yet they often rely on heuristic partial-table selection and seldom leverage these synthetic queries as supervision to improve the embedding model. We introduce CGPT, a training framework that enhances table retrieval through LLM-generated supervision. CGPT constructs semantically diverse partial tables by clustering table instances using K-means and sampling across clusters to broaden semantic coverage. An LLM then generates synthetic queries for these partial tables, which are used in hard-negative contrastive fine-tuning to refine the embedding model. Experiments across four public benchmarks (MimoTable, OTTQA, FetaQA, and E2E-WTQ) show that CGPT consistently outperforms retrieval baselines, including QGpT, with an average R@1 improvement of 16.54 percent. In a unified multi-domain corpus setting, CGPT further demonstrates strong cross-domain generalization and remains effective even when using smaller LLMs for synthetic query generation. These results indicate that semantically guided partial-table construction, combined with contrastive training from LLM-generated supervision, provides an effective and scalable paradigm for large-scale table retrieval. Our code is available at https://github.com/yumeow0122/CGPT.


翻译:通用嵌入模型在文本检索中表现出色,但在表格检索中仍欠佳,这是因为高度结构化的内容会导致语义压缩和查询-表格不匹配。近期基于大语言模型的检索增强方法通过生成合成查询缓解了这一问题,但它们通常依赖于启发式的部分表格选择,且很少利用这些合成查询作为监督来改进嵌入模型。我们提出了CGPT,一种通过大语言模型生成监督来增强表格检索的训练框架。CGPT通过使用K-means对表格实例进行聚类并跨簇采样来构建语义多样化的部分表格,从而拓宽语义覆盖范围。随后,大语言模型为这些部分表格生成合成查询,这些查询被用于困难负样本对比微调,以优化嵌入模型。在四个公开基准(MimoTable、OTTQA、FetaQA和E2E-WTQ)上的实验表明,CGPT始终优于包括QGpT在内的检索基线,平均R@1提升了16.54%。在统一的多领域语料库设置中,CGPT进一步展现出强大的跨领域泛化能力,即使使用较小的大语言模型进行合成查询生成,其效果依然显著。这些结果表明,语义引导的部分表格构建,结合基于大语言模型生成监督的对比训练,为大规模表格检索提供了一种有效且可扩展的范式。我们的代码可在https://github.com/yumeow0122/CGPT获取。

0
下载
关闭预览

相关内容

【NeurIPS2024】TableRAG:基于语言模型的百万标记表格理解
专知会员服务
37+阅读 · 2024年10月8日
如何检测LLM内容?UCSB等最新首篇《LLM生成内容检测》综述
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
高效的文本生成方法 — LaserTagger 现已开源
TensorFlow
30+阅读 · 2020年2月27日
文本生成公开数据集/开源工具/经典论文详细列表分享
深度学习与NLP
30+阅读 · 2019年9月22日
深度学习文本分类方法综述(代码)
中国人工智能学会
28+阅读 · 2018年6月16日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员