Dense retrieval in multilingual settings often searches over mixed-language collections, yet multilingual embeddings encode language identity alongside semantics. This language signal can inflate similarity for same-language pairs and crowd out relevant evidence written in other languages. We propose LANGSAE EDITING, a post-hoc sparse autoencoder trained on pooled embeddings that enables controllable removal of language-identity signal directly in vector space. The method identifies language-associated latent units using cross-language activation statistics, suppresses these units at inference time, and reconstructs embeddings in the original dimensionality, making it compatible with existing vector databases without retraining the base encoder or re-encoding raw text. Experiments across multiple languages show consistent improvements in ranking quality and cross-language coverage, with especially strong gains for script-distinct languages.


翻译:在多语言环境下进行密集检索时,通常需要在混合语言文档集中进行搜索,然而多语言嵌入模型会将语言身份信息与语义信息一同编码。这种语言信号会人为提高相同语言对之间的相似度,并抑制其他语言书写的相关证据。我们提出LANGSAE EDITING方法,这是一种基于池化嵌入训练的后验稀疏自编码器,能够在向量空间中直接可控地移除语言身份信号。该方法通过跨语言激活统计识别语言关联的潜在单元,在推理阶段抑制这些单元,并在原始维度中重构嵌入向量,从而无需重新训练基础编码器或重新编码原始文本即可与现有向量数据库兼容。跨多语言的实验结果表明,该方法在排序质量和跨语言覆盖度方面均取得持续改进,尤其在文字体系差异较大的语言对上获得了显著提升。

0
下载
关闭预览

相关内容

【NeurIPS2019】图变换网络:Graph Transformer Network
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员