Improving Semantic Proximity in Information Retrieval through Cross-Lingual Alignment - 专知论文

会员服务 ·

0

跨语言 · 对齐 · 信息检索 · 查询语言 · 分析 ·

Improving Semantic Proximity in Information Retrieval through Cross-Lingual Alignment

翻译：通过跨语言对齐提升信息检索中的语义接近度

Seongtae Hong,Youngjoon Jang,Jungseob Lee,Hyeonseok Moon,Heuiseok Lim

from arxiv, ICLR 2026

With the increasing accessibility and utilization of multilingual documents, Cross-Lingual Information Retrieval (CLIR) has emerged as an important research area. Conventionally, CLIR tasks have been conducted under settings where the language of documents differs from that of queries, and typically, the documents are composed in a single coherent language. In this paper, we highlight that in such a setting, the cross-lingual alignment capability may not be evaluated adequately. Specifically, we observe that, in a document pool where English documents coexist with another language, most multilingual retrievers tend to prioritize unrelated English documents over the related document written in the same language as the query. To rigorously analyze and quantify this phenomenon, we introduce various scenarios and metrics designed to evaluate the cross-lingual alignment performance of multilingual retrieval models. Furthermore, to improve cross-lingual performance under these challenging conditions, we propose a novel training strategy aimed at enhancing cross-lingual alignment. Using only a small dataset consisting of 2.8k samples, our method significantly improves the cross-lingual retrieval performance while simultaneously mitigating the English inclination problem. Extensive analyses demonstrate that the proposed method substantially enhances the cross-lingual alignment capabilities of most multilingual embedding models.

翻译：随着多语言文档的可访问性和利用率不断提高，跨语言信息检索（CLIR）已成为一个重要的研究领域。传统上，CLIR任务是在文档语言与查询语言不同的设置下进行的，且文档通常由一种连贯的语言撰写。本文指出，在这种设置下，跨语言对齐能力可能无法得到充分评估。具体而言，我们观察到，在英文文档与另一种语言共存的文档池中，大多数多语言检索器倾向于优先选择不相关的英文文档，而非与查询语言相同的相关文档。为了严格分析和量化这一现象，我们引入了多种场景和指标，用于评估多语言检索模型的跨语言对齐性能。此外，为在这些具有挑战性的条件下提升跨语言性能，我们提出了一种新颖的训练策略，旨在增强跨语言对齐。仅使用包含2.8k样本的小型数据集，我们的方法显著提升了跨语言检索性能，同时缓解了英文倾向问题。广泛的分析表明，所提出的方法有效增强了大多数多语言嵌入模型的跨语言对齐能力。

0

相关内容

跨语言

语言模型如何重塑实体对齐？语言模型驱动实体对齐的进展、基准与未来

语言模型如何重塑实体对齐？语言模型驱动实体对齐的进展、基准与未来

专知会员服务

8+阅读 · 2025年11月2日

如何对齐？北大最新271页ICML2025教程《语言模型的对齐方法：一种机器学习视角》

如何对齐？北大最新271页ICML2025教程《语言模型的对齐方法：一种机器学习视角》

专知会员服务

47+阅读 · 2025年7月16日

【CVPR2025】用于视觉-语言基础模型模态对齐的后预训练方法

【CVPR2025】用于视觉-语言基础模型模态对齐的后预训练方法

专知会员服务

15+阅读 · 2025年4月18日

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

专知会员服务

55+阅读 · 2024年7月24日

Transformer如何提升信息检索？橡树岭实验室最新SIGIR2022《Transformer信息检索效率和鲁棒性》教程

Transformer如何提升信息检索？橡树岭实验室最新SIGIR2022《Transformer信息检索效率和鲁棒性》教程

专知会员服务

23+阅读 · 2022年7月14日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

【ACL2021】利用自标注的词对齐提升预训练跨语言语言模型

专知会员服务

17+阅读 · 2021年8月13日

【知乎】超越Lexical:用于文本搜索引擎的语义检索框架

【知乎】超越Lexical:用于文本搜索引擎的语义检索框架

专知会员服务

22+阅读 · 2020年8月28日

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

专知会员服务

27+阅读 · 2020年4月5日

【CMU-TACL2020】低资源跨语言实体链接，Low-resource Crosslingual EntityLinking

专知会员服务

17+阅读 · 2020年3月29日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

对话管理的综述论文:最近的进展和挑战，A Survey on Dialog Management

对话管理的综述论文:最近的进展和挑战，A Survey on Dialog Management

专知

12+阅读 · 2020年5月14日

论文浅尝 | 基于图匹配神经网络的跨语言知识图对齐 (ACL 2019)

论文浅尝 | 基于图匹配神经网络的跨语言知识图对齐 (ACL 2019)

开放知识图谱

15+阅读 · 2019年11月30日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

跨多个异构数据源的实体对齐

跨多个异构数据源的实体对齐

FCS

15+阅读 · 2019年3月13日

论文浅尝 | 面向跨语言实体对齐的知识图谱与实体描述协同嵌入方法

论文浅尝 | 面向跨语言实体对齐的知识图谱与实体描述协同嵌入方法

开放知识图谱

11+阅读 · 2018年10月4日

知识在检索式对话系统的应用

知识在检索式对话系统的应用

微信AI

32+阅读 · 2018年9月20日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

汉英篇章衔接对齐资源构建与分析研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于神经网络的跨语言实体链指研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

基于潜在语义对偶空间的新词翻译自动识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Improving Korean-English Cross-Lingual Retrieval: A Data-Centric Study of Language Composition and Model Merging

Arxiv

0+阅读 · 5月19日

CLEAR: Cross-Lingual Enhancement in Alignment via Reverse-training

Arxiv

0+阅读 · 4月14日

CLEAR: Cross-Lingual Enhancement in Alignment via Reverse-training

Arxiv

0+阅读 · 4月7日

Formalized Information Needs Improve Large-Language-Model Relevance Judgments

Arxiv

0+阅读 · 4月5日

Language Scent: Exploring Cross-Language Information Navigation

Arxiv

0+阅读 · 4月4日

Improving Conversational Recommendation with Contextual Adaptation of External Recommenders and LLM-based Reranking

Arxiv

0+阅读 · 3月30日

Graph Fusion Across Languages using Large Language Models

Arxiv

0+阅读 · 3月22日

Milco: Learned Sparse Retrieval Across Languages via a Multilingual Connector

Arxiv

0+阅读 · 3月19日

Why Better Cross-Lingual Alignment Fails for Better Cross-Lingual Transfer: Case of Encoders

Arxiv

0+阅读 · 3月19日

Cross-Modal Retrieval: A Systematic Review of Methods and Future Directions

Arxiv

15+阅读 · 2023年8月28日

VIP会员

文章信息

相关主题

最新内容

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

8+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

4+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

6+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

7+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

11+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

11+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

8+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

19+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

10+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

相关VIP内容

语言模型如何重塑实体对齐？语言模型驱动实体对齐的进展、基准与未来

语言模型如何重塑实体对齐？语言模型驱动实体对齐的进展、基准与未来

专知会员服务

8+阅读 · 2025年11月2日

如何对齐？北大最新271页ICML2025教程《语言模型的对齐方法：一种机器学习视角》

如何对齐？北大最新271页ICML2025教程《语言模型的对齐方法：一种机器学习视角》

专知会员服务

47+阅读 · 2025年7月16日

【CVPR2025】用于视觉-语言基础模型模态对齐的后预训练方法

【CVPR2025】用于视觉-语言基础模型模态对齐的后预训练方法

专知会员服务

15+阅读 · 2025年4月18日

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

专知会员服务

55+阅读 · 2024年7月24日

Transformer如何提升信息检索？橡树岭实验室最新SIGIR2022《Transformer信息检索效率和鲁棒性》教程

Transformer如何提升信息检索？橡树岭实验室最新SIGIR2022《Transformer信息检索效率和鲁棒性》教程

专知会员服务

23+阅读 · 2022年7月14日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

【ACL2021】利用自标注的词对齐提升预训练跨语言语言模型

专知会员服务

17+阅读 · 2021年8月13日

【知乎】超越Lexical:用于文本搜索引擎的语义检索框架

【知乎】超越Lexical:用于文本搜索引擎的语义检索框架

专知会员服务

22+阅读 · 2020年8月28日

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

专知会员服务

27+阅读 · 2020年4月5日

【CMU-TACL2020】低资源跨语言实体链接，Low-resource Crosslingual EntityLinking

专知会员服务

17+阅读 · 2020年3月29日

热门VIP内容

开通专知VIP会员享更多权益服务

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

相关资讯

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

对话管理的综述论文:最近的进展和挑战，A Survey on Dialog Management

对话管理的综述论文:最近的进展和挑战，A Survey on Dialog Management

专知

12+阅读 · 2020年5月14日

论文浅尝 | 基于图匹配神经网络的跨语言知识图对齐 (ACL 2019)

论文浅尝 | 基于图匹配神经网络的跨语言知识图对齐 (ACL 2019)

开放知识图谱

15+阅读 · 2019年11月30日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

跨多个异构数据源的实体对齐

跨多个异构数据源的实体对齐

FCS

15+阅读 · 2019年3月13日

论文浅尝 | 面向跨语言实体对齐的知识图谱与实体描述协同嵌入方法

论文浅尝 | 面向跨语言实体对齐的知识图谱与实体描述协同嵌入方法

开放知识图谱

11+阅读 · 2018年10月4日

知识在检索式对话系统的应用

知识在检索式对话系统的应用

微信AI

32+阅读 · 2018年9月20日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

相关论文

Improving Korean-English Cross-Lingual Retrieval: A Data-Centric Study of Language Composition and Model Merging

Arxiv

0+阅读 · 5月19日

CLEAR: Cross-Lingual Enhancement in Alignment via Reverse-training

Arxiv

0+阅读 · 4月14日

CLEAR: Cross-Lingual Enhancement in Alignment via Reverse-training

Arxiv

0+阅读 · 4月7日

Formalized Information Needs Improve Large-Language-Model Relevance Judgments

Arxiv

0+阅读 · 4月5日

Language Scent: Exploring Cross-Language Information Navigation

Arxiv

0+阅读 · 4月4日

Improving Conversational Recommendation with Contextual Adaptation of External Recommenders and LLM-based Reranking

Arxiv

0+阅读 · 3月30日

Graph Fusion Across Languages using Large Language Models

Arxiv

0+阅读 · 3月22日

Milco: Learned Sparse Retrieval Across Languages via a Multilingual Connector

Arxiv

0+阅读 · 3月19日

Why Better Cross-Lingual Alignment Fails for Better Cross-Lingual Transfer: Case of Encoders

Arxiv

0+阅读 · 3月19日

Cross-Modal Retrieval: A Systematic Review of Methods and Future Directions

Arxiv

15+阅读 · 2023年8月28日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

汉英篇章衔接对齐资源构建与分析研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于神经网络的跨语言实体链指研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

基于潜在语义对偶空间的新词翻译自动识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员