Multilingual Information Retrieval is increasingly important in real-world search settings, where users issue queries over mixed-language corpora. Existing evaluations mainly reward language-agnostic semantic relevance, treating relevant passages equally regardless of language. Yet retrieval utility also depends on the language of the retrieved passages: users may prefer results they can read and verify in the query language, and query--passage language mismatch can complicate downstream grounding and answer verification in Retrieval-Augmented Generation systems. To evaluate this language-aware dimension, we introduce MLAIRE, a Multilingual Language-Aware Information Retrieval Evaluation protocol that disentangles cross-lingual semantic retrieval from query-language preference. MLAIRE constructs controlled pools with parallel passages across languages, enabling measurement of semantic retrieval accuracy and query-language preference when equivalent translations are available. We propose language-aware metrics, including Language Preference Rate (LPR) and Lang-nDCG, together with a 4-way decomposition separating semantic and query-language preference failures. Evaluating 31 dense, sparse, and late-interaction retrievers, we show that standard metrics obscure distinct behaviors: semantically strong retrievers may return correct content in a non-query language, while retrievers with stronger query-language preference may retrieve less semantically relevant passages.


翻译:多语言信息检索在现实搜索场景中日益重要,用户经常需要跨混合语言语料库进行查询。现有评估主要奖励语言无关的语义相关性,同等对待不同语言的相关段落。然而,检索效用还取决于检索段落的语言:用户可能更偏好能够用查询语言阅读和验证的结果,而查询-段落语言不匹配会复杂化检索增强生成系统中的下游接地与答案验证。为评估这种语言感知维度,我们提出MLAIRE——一种多语言语言感知信息检索评估协议,该协议将跨语言语义检索与查询语言偏好解耦。MLAIRE构建了包含跨语言平行段落的受控池,当存在等效翻译时,能够测量语义检索准确性和查询语言偏好。我们提出了语言感知指标,包括语言偏好率(LPR)和Lang-nDCG,以及将语义与查询语言偏好失败分离的四维分解机制。通过评估31种密集、稀疏和后期交互检索器,我们发现标准指标掩盖了不同行为:语义强大的检索器可能以非查询语言返回正确内容,而查询语言偏好更强的检索器可能检索到语义相关性较差的段落。

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
【SIGIR2024教程】基于大语言模型的信息检索代理
专知会员服务
39+阅读 · 2024年7月17日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
深度 | 推荐系统评估
AI100
24+阅读 · 2019年3月16日
Jiagu:中文深度学习自然语言处理工具
AINLP
90+阅读 · 2019年2月20日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月21日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员