Aligning multilingual assistants with culturally grounded user preferences is essential for serving India's linguistically diverse population of over one billion speakers across multiple scripts. However, existing benchmarks either focus on a single language or conflate retrieval with generation, leaving open the question of whether current embedding models can encode persona-instruction compatibility without relying on response synthesis. We present a unified benchmark spanning 12 Indian languages and four evaluation tasks: monolingual and cross-lingual persona-to-instruction retrieval, reverse retrieval from instruction to persona, and binary compatibility classification. Eight multilingual embedding models are evaluated in a frozen-encoder setting with a thin logistic regression head for classification. E5-Large-Instruct achieves the highest Recall@1 of 27.4\% on monolingual retrieval and 20.7\% on cross-lingual transfer, while BGE-M3 leads reverse retrieval at 32.1\% Recall@1. For classification, LaBSE attains 75.3\% AUROC with strong calibration. These findings offer practical guidance for model selection in Indic multilingual retrieval and establish reproducible baselines for future work\footnote{Code, datasets, and models are publicly available at https://github.com/aryashah2k/PI-Indic-Align.


翻译:使多语言助手与基于文化的用户偏好对齐,对于服务印度超过十亿使用者、跨越多种文字的语言多样性人口至关重要。然而,现有基准要么专注于单一语言,要么将检索与生成混为一谈,从而遗留了一个开放问题:当前的嵌入模型是否能够在无需依赖响应合成的情况下编码人物角色-指令兼容性。我们提出了一个统一的基准,涵盖12种印度语言和四项评估任务:单语言与跨语言的人物角色到指令检索、从指令到人物角色的反向检索,以及二元兼容性分类。在冻结编码器设置下,使用一个轻量逻辑回归头进行分类,评估了八个多语言嵌入模型。E5-Large-Instruct在单语言检索上取得了最高的27.4% Recall@1,在跨语言迁移上取得了20.7% Recall@1,而BGE-M3在反向检索中以32.1% Recall@1领先。在分类任务中,LaBSE获得了75.3%的AUROC,并展现出良好的校准性。这些发现为印度多语言检索中的模型选择提供了实用指导,并为未来工作建立了可复现的基线\footnote{代码、数据集和模型已在 https://github.com/aryashah2k/PI-Indic-Align 公开提供。

0
下载
关闭预览

相关内容

大型语言模型对齐技术综述:RLHF、RLAIF、PPO、DPO 等
专知会员服务
55+阅读 · 2024年7月24日
【博士论文】语言模型与人类偏好对齐,148页pdf
专知会员服务
32+阅读 · 2024年4月21日
【斯坦福博士论文】在语言模型融合多模态知识,225页pdf
【CMU博士论文】多语言视觉-语言模型研究,190页pdf
专知会员服务
36+阅读 · 2023年2月15日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员