Existing multilingual embedding models often encounter challenges in cross-lingual scenarios due to imbalanced linguistic resources and less consideration of cross-lingual alignment during training. Although standardized contrastive learning approaches for cross-lingual adaptation are widely adopted, they may struggle to capture fundamental alignment between languages and degrade performance in well-aligned languages such as English. To address these challenges, we propose Cross-Lingual Enhancement in Retrieval via Reverse-training (CLEAR), a novel loss function utilizing a reverse training scheme to improve retrieval performance across diverse cross-lingual retrieval scenarios. CLEAR leverages an English passage as a bridge to strengthen alignments between the target language and English, ensuring robust performance in the cross-lingual retrieval task. Our extensive experiments demonstrate that CLEAR achieves notable improvements in cross-lingual scenarios, with gains up to 15%, particularly in low-resource languages, while minimizing performance degradation in English. Furthermore, our findings highlight that CLEAR offers promising effectiveness even in multilingual training, suggesting its potential for broad application and scalability. We release the code at https://github.com/dltmddbs100/CLEAR.


翻译:现有多种语言嵌入模型在跨语言场景中常面临挑战,这是由于语言资源分布不均衡以及训练过程中对跨语言对齐的考虑不足所致。尽管基于标准化对比学习的跨语言适配方法被广泛应用,但其在捕捉语言间基础对齐关系方面仍存在局限,且会损害英语等对齐良好语言的性能。为解决这些问题,我们提出基于反向训练的跨语言检索增强方法(CLEAR)——一种利用反向训练策略的新型损失函数,旨在提升多种跨语言检索场景下的检索性能。CLEAR以英文段落为桥梁,强化目标语言与英语之间的对齐关系,确保跨语言检索任务的稳健性能。大量实验表明,CLEAR在跨语言场景中实现了显著性能提升(最高达15%),尤其对低资源语言效果显著,同时将英语性能损失降至最低。此外,研究发现CLEAR即使在多语言训练中仍展现出优异效果,预示着其在大规模应用与可扩展性方面的潜力。我们在https://github.com/dltmddbs100/CLEAR 开源了相关代码。

0
下载
关闭预览

相关内容

什么是后训练?大语言模型训练后优化方法综述,87页pdf
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
VIP会员
最新内容
认知战与交战性质的改变:神经战略视角
专知会员服务
5+阅读 · 5月8日
相关VIP内容
什么是后训练?大语言模型训练后优化方法综述,87页pdf
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员