Learned Sparse Retrieval (LSR) methods construct sparse lexical representations of queries and documents that can be efficiently searched using inverted indexes. Existing LSR approaches have relied almost exclusively on uncased backbone models, whose vocabularies exclude case-sensitive distinctions, thereby reducing vocabulary mismatch. However, the most recent state-of-the-art language models are only available in cased versions. Despite this shift, the impact of backbone model casing on LSR has not been studied, potentially posing a risk to the viability of the method going forward. To fill this gap, we systematically evaluate paired cased and uncased versions of the same backbone models across multiple datasets to assess their suitability for LSR. Our findings show that LSR models with cased backbone models by default perform substantially worse than their uncased counterparts; however, this gap can be eliminated by pre-processing the text to lowercase. Moreover, our token-level analysis reveals that, under lowercasing, cased models almost entirely suppress cased vocabulary items and behave effectively as uncased models, explaining their restored performance. This result broadens the applicability of recent cased models to the LSR setting and facilitates the integration of stronger backbone architectures into sparse retrieval. The complete code and implementation for this project are available at: https://github.com/lionisakis/Uncased-vs-cased-models-in-LSR


翻译:学习式稀疏检索(LSR)方法通过构建查询与文档的稀疏词汇表示,使其能够利用倒排索引进行高效检索。现有的LSR方法几乎完全依赖不区分大小写的骨干模型,其词汇表忽略大小写差异,从而减少了词汇失配问题。然而,当前最先进的语言模型仅提供区分大小写的版本。尽管这一趋势已经转变,骨干模型的大小写特性对LSR的影响尚未得到研究,这可能对方法未来的可行性构成潜在风险。为填补这一空白,我们在多个数据集上系统评估了同一骨干模型的大小写敏感版本与不敏感版本,以评判它们对LSR的适用性。研究发现,默认使用区分大小写骨干模型的LSR模型性能显著低于其不区分大小写的对应版本;但通过对文本进行小写预处理,这一性能差距可被完全消除。此外,我们的词元级分析表明,在小写化处理下,区分大小写模型几乎完全抑制了大小写敏感词汇项,其行为实质上等效于不区分大小写模型,这解释了其性能恢复的原因。该结果扩展了近期区分大小写模型在LSR场景中的适用性,并促进了更强骨干架构与稀疏检索的集成。本项目的完整代码与实现已发布于:https://github.com/lionisakis/Uncased-vs-cased-models-in-LSR

0
下载
关闭预览

相关内容

《大型语言模型中基于检索的文本生成》综述
专知会员服务
59+阅读 · 2024年4月18日
【SIGIR2020】学习词项区分性,Learning Term Discrimination
专知会员服务
16+阅读 · 2020年4月28日
医疗健康领域的短文本解析探索----文本纠错
深度学习自然语言处理
10+阅读 · 2020年8月5日
小样本学习(Few-shot Learning)综述
机器之心
18+阅读 · 2019年4月1日
深度学习文本分类方法综述(代码)
中国人工智能学会
28+阅读 · 2018年6月16日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员