Naver Labs Europe @ WSDM CUP | 多语言检索 (Naver Labs Europe @ WSDM CUP | Multilingual Retrieval) - 专知论文

会员服务 ·

0

WSDM · 稀疏 · 泛化 · 检索模型 · Qwen3 ·

Naver Labs Europe @ WSDM CUP | Multilingual Retrieval

翻译：Naver Labs Europe @ WSDM CUP | 多语言检索

Thibault Formal,Maxime Louis,Hervé Déjean,Stéphane Clinchant

from arxiv, Report paper of our submission to the WSDM Cup 2026

This report presents our participation to the WSDM Cup 2026 shared task on multilingual document retrieval from English queries. The task provides a challenging benchmark for cross-lingual generalization. It also provides a natural testbed for evaluating SPLARE, our recently proposed learned sparse retrieval model, which produces generalizable sparse latent representations and is particularly well suited to multilingual retrieval settings. We evaluate five progressively enhanced runs, starting from a SPLARE-7B model and incorporating lightweight improvements, including reranking with Qwen3-Reranker-4B and simple score fusion strategies. Our results demonstrate the strength of SPLARE compared to state-of-the-art dense baselines such as Qwen3-8B-Embed. More broadly, our submission highlights the continued relevance and competitiveness of learned sparse retrieval models beyond English-centric scenarios.

翻译：本报告介绍了我们参与WSDM Cup 2026中“基于英文查询的多语言文档检索”共享任务的情况。该任务为跨语言泛化提供了一个具有挑战性的基准。它也为评估我们最近提出的学习型稀疏检索模型SPLARE提供了一个天然的测试平台，该模型能生成可泛化的稀疏潜在表示，尤其适用于多语言检索场景。我们评估了五个逐步增强的提交结果，从SPLARE-7B模型开始，并整合了轻量级改进，包括使用Qwen3-Reranker-4B进行重排序以及简单的分数融合策略。我们的结果表明，与Qwen3-8B-Embed等最先进的稠密基线模型相比，SPLARE具有优势。更广泛地说，我们的提交结果突显了学习型稀疏检索模型在超越以英语为中心的场景下，依然具有持续的相关性和竞争力。

0

相关内容

WSDM

网络搜索和数据挖掘国际会议（WSDM）是关于Web上的搜索和数据挖掘研究的主要会议之一。WSDM在Web和社会Web上发布与搜索和数据挖掘相关的原始的、高质量的论文，着重于搜索和数据挖掘实用而有原则的新模型、算法设计和分析、经济影响，以及对准确性和性能的深入实验分析。官网地址：http://dblp.uni-trier.de/db/conf/wsdm/

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

专知会员服务

55+阅读 · 2024年7月24日

[ICML2024] Spotlight|DAT：通过交互式注意力实现统一的多粒度文本检测

[ICML2024] Spotlight|DAT：通过交互式注意力实现统一的多粒度文本检测

专知会员服务

19+阅读 · 2024年6月26日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

最新！WSDM2023最佳论文出炉！牛津Meta等机构学者斩获

最新！WSDM2023最佳论文出炉！牛津Meta等机构学者斩获

专知会员服务

20+阅读 · 2023年3月6日

ICML2022奖项公布：15篇杰出论文，复旦、厦大、上交大研究入选

ICML2022奖项公布：15篇杰出论文，复旦、厦大、上交大研究入选

专知会员服务

21+阅读 · 2022年7月20日

清华、人大等机构学者获唯一最佳论文奖，数据挖掘顶会WSDM'22线上召开

清华、人大等机构学者获唯一最佳论文奖，数据挖掘顶会WSDM'22线上召开

专知会员服务

22+阅读 · 2022年2月23日

【WSDM2021-Tutorial】偏见感知推荐系统的进展，134页ppt

【WSDM2021-Tutorial】偏见感知推荐系统的进展，134页ppt

专知会员服务

50+阅读 · 2021年3月9日

人工智能顶会WSDM2021优秀论文奖(Best Paper Award Runner-Up)出炉

人工智能顶会WSDM2021优秀论文奖(Best Paper Award Runner-Up)出炉

专知会员服务

19+阅读 · 2021年2月19日

最新！人工智能顶会WSDM2020最佳论文出炉！UCSC斩获-主轴的幂用于精确团计数

最新！人工智能顶会WSDM2020最佳论文出炉！UCSC斩获-主轴的幂用于精确团计数

专知会员服务

26+阅读 · 2020年2月6日

【VLDB2019 tutorial】TextCube：自动构建和多维探索，TextCube: Automated Construction and Multidimensional Exploration，韩家炜，Jingbo Shang

【VLDB2019 tutorial】TextCube：自动构建和多维探索，TextCube: Automated Construction and Multidimensional Exploration，韩家炜，Jingbo Shang

专知会员服务

27+阅读 · 2019年8月29日

NLP领域最近比较火的Prompt，能否借鉴到多模态领域？一文跟进最新进展

NLP领域最近比较火的Prompt，能否借鉴到多模态领域？一文跟进最新进展

PaperWeekly

17+阅读 · 2022年3月8日

【WSDM2021-Tutorial】偏见感知推荐系统的进展，134页ppt

【WSDM2021-Tutorial】偏见感知推荐系统的进展，134页ppt

专知

11+阅读 · 2021年3月9日

ICML 2020 | 小样本学习首次引入领域迁移技术，屡获新SOTA结果！

ICML 2020 | 小样本学习首次引入领域迁移技术，屡获新SOTA结果！

AI科技评论

19+阅读 · 2020年6月21日

资源分享 | WSDM2020推荐系统论文打包下载

资源分享 | WSDM2020推荐系统论文打包下载

机器学习与推荐算法

12+阅读 · 2020年6月16日

近期必读的5篇 WSDM 2020【图神经网络（GNN）】相关论文

近期必读的5篇 WSDM 2020【图神经网络（GNN）】相关论文

专知

67+阅读 · 2019年11月19日

计算所网络数据实验室3篇论文被WSDM2020录用

计算所网络数据实验室3篇论文被WSDM2020录用

中国科学院网络数据重点实验室

26+阅读 · 2019年10月11日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

刷新中文阅读理解水平，哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

刷新中文阅读理解水平，哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

AI100

14+阅读 · 2019年6月21日

100+中文词向量，总有一款适合你

100+中文词向量，总有一款适合你

专知

12+阅读 · 2018年5月13日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于深度学习的海量截获卫星数据分析技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

废液中铀酰类化合物超灵敏检测用SERS基底纳米结构的设计与构建

国家自然科学基金

0+阅读 · 2015年12月31日

在线检测工件表面质量的“透明窗”方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

高维数据下多样本均值检验问题的研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

弱辛Banach空间上的Maslov指标的研究

国家自然科学基金

0+阅读 · 2014年12月31日

柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

SommBench: Assessing Sommelier Expertise of Language Models

Arxiv

0+阅读 · 3月12日

Agri-Query: A Case Study on RAG vs. Long-Context LLMs for Cross-Lingual Technical Question Answering

Arxiv

0+阅读 · 3月6日

FewMMBench: A Benchmark for Multimodal Few-Shot Learning

Arxiv

0+阅读 · 2月25日

WSDM Cup 2026 Multilingual Retrieval: A Low-Cost Multi-Stage Retrieval Pipeline

Arxiv

0+阅读 · 2月19日

Vikhr: The Family of Open-Source Instruction-Tuned Large Language Models for Russian

Arxiv

0+阅读 · 2月15日

RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding

Arxiv

0+阅读 · 2月14日

CUHK-EE Systems for the vTAD Challenge at NCMMSC 2025

Arxiv

0+阅读 · 2月13日

WavBench: Benchmarking Reasoning, Colloquialism, and Paralinguistics for End-to-End Spoken Dialogue Models

Arxiv

0+阅读 · 2月12日

The CLEF-2026 FinMMEval Lab: Multilingual and Multimodal Evaluation of Financial AI Systems

Arxiv

0+阅读 · 2月11日

Multi-Field Tool Retrieval

Arxiv

0+阅读 · 2月5日

VIP会员

文章信息

相关主题

最新内容

《自主集群系统的战略架构：多域集成、韧性及海上作战框架（2025-2035）》（2026报告）

《自主集群系统的战略架构：多域集成、韧性及海上作战框架（2025-2035）》（2026报告）

专知会员服务

0+阅读 · 27分钟前

前沿军事人工智能系统的理解与控制（报告1.8万字）

前沿军事人工智能系统的理解与控制（报告1.8万字）

专知会员服务

0+阅读 · 41分钟前

《机器学习赋能情报工作：国家安全的机遇与风险》（报告）

《机器学习赋能情报工作：国家安全的机遇与风险》（报告）

专知会员服务

0+阅读 · 44分钟前

《人工智能赋能电磁战》（报告）

《人工智能赋能电磁战》（报告）

专知会员服务

0+阅读 · 48分钟前

《海基核巡航导弹（SLCM-N）部署后的威慑动态与操作要求》（报告）

《海基核巡航导弹（SLCM-N）部署后的威慑动态与操作要求》（报告）

专知会员服务

0+阅读 · 今天14:34

超越卫星通信：战术无线电与网络防御如何锻造联盟韧性（美军报告）

超越卫星通信：战术无线电与网络防御如何锻造联盟韧性（美军报告）

专知会员服务

0+阅读 · 今天14:22

【CMU博士论文】迈向可扩展的开放世界三维感知

【CMU博士论文】迈向可扩展的开放世界三维感知

专知会员服务

0+阅读 · 今天14:06

前馈式三维场景建模

前馈式三维场景建模

专知会员服务

0+阅读 · 今天14:03

《反小型无人机系统的雷达高度估计相干干扰研究》60页

《反小型无人机系统的雷达高度估计相干干扰研究》60页

专知会员服务

2+阅读 · 今天9:52

人工智能战争迷雾：洞悉乌克兰、加沙和伊朗三战区

人工智能战争迷雾：洞悉乌克兰、加沙和伊朗三战区

专知会员服务

5+阅读 · 今天9:28

（中文）以机器速度作战：来自Maven特遣队主任的见解

（中文）以机器速度作战：来自Maven特遣队主任的见解

专知会员服务

8+阅读 · 今天3:42

（中文）AUKUS第二支柱中的人工智能与自主性方案

（中文）AUKUS第二支柱中的人工智能与自主性方案

专知会员服务

3+阅读 · 今天3:24

（译文）认知战：以士兵为目标，塑造战略

（译文）认知战：以士兵为目标，塑造战略

专知会员服务

2+阅读 · 今天3:12

（中文）认知战的本体论基础（2026报告）

（中文）认知战的本体论基础（2026报告）

专知会员服务

18+阅读 · 今天1:45

美空军条令（2026）：外国对内防御

美空军条令（2026）：外国对内防御

专知会员服务

3+阅读 · 今天1:32

相关VIP内容

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

专知会员服务

55+阅读 · 2024年7月24日

[ICML2024] Spotlight|DAT：通过交互式注意力实现统一的多粒度文本检测

[ICML2024] Spotlight|DAT：通过交互式注意力实现统一的多粒度文本检测

专知会员服务

19+阅读 · 2024年6月26日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

最新！WSDM2023最佳论文出炉！牛津Meta等机构学者斩获

最新！WSDM2023最佳论文出炉！牛津Meta等机构学者斩获

专知会员服务

20+阅读 · 2023年3月6日

ICML2022奖项公布：15篇杰出论文，复旦、厦大、上交大研究入选

ICML2022奖项公布：15篇杰出论文，复旦、厦大、上交大研究入选

专知会员服务

21+阅读 · 2022年7月20日

清华、人大等机构学者获唯一最佳论文奖，数据挖掘顶会WSDM'22线上召开

清华、人大等机构学者获唯一最佳论文奖，数据挖掘顶会WSDM'22线上召开

专知会员服务

22+阅读 · 2022年2月23日

【WSDM2021-Tutorial】偏见感知推荐系统的进展，134页ppt

【WSDM2021-Tutorial】偏见感知推荐系统的进展，134页ppt

专知会员服务

50+阅读 · 2021年3月9日

人工智能顶会WSDM2021优秀论文奖(Best Paper Award Runner-Up)出炉

人工智能顶会WSDM2021优秀论文奖(Best Paper Award Runner-Up)出炉

专知会员服务

19+阅读 · 2021年2月19日

最新！人工智能顶会WSDM2020最佳论文出炉！UCSC斩获-主轴的幂用于精确团计数

最新！人工智能顶会WSDM2020最佳论文出炉！UCSC斩获-主轴的幂用于精确团计数

专知会员服务

26+阅读 · 2020年2月6日

【VLDB2019 tutorial】TextCube：自动构建和多维探索，TextCube: Automated Construction and Multidimensional Exploration，韩家炜，Jingbo Shang

【VLDB2019 tutorial】TextCube：自动构建和多维探索，TextCube: Automated Construction and Multidimensional Exploration，韩家炜，Jingbo Shang

专知会员服务

27+阅读 · 2019年8月29日

热门VIP内容

开通专知VIP会员享更多权益服务

前沿军事人工智能系统的理解与控制（报告1.8万字）

《人工智能赋能电磁战》（报告）

《自主集群系统的战略架构：多域集成、韧性及海上作战框架（2025-2035）》（2026报告）

《机器学习赋能情报工作：国家安全的机遇与风险》（报告）

相关资讯

NLP领域最近比较火的Prompt，能否借鉴到多模态领域？一文跟进最新进展

NLP领域最近比较火的Prompt，能否借鉴到多模态领域？一文跟进最新进展

PaperWeekly

17+阅读 · 2022年3月8日

【WSDM2021-Tutorial】偏见感知推荐系统的进展，134页ppt

【WSDM2021-Tutorial】偏见感知推荐系统的进展，134页ppt

专知

11+阅读 · 2021年3月9日

ICML 2020 | 小样本学习首次引入领域迁移技术，屡获新SOTA结果！

ICML 2020 | 小样本学习首次引入领域迁移技术，屡获新SOTA结果！

AI科技评论

19+阅读 · 2020年6月21日

资源分享 | WSDM2020推荐系统论文打包下载

资源分享 | WSDM2020推荐系统论文打包下载

机器学习与推荐算法

12+阅读 · 2020年6月16日

近期必读的5篇 WSDM 2020【图神经网络（GNN）】相关论文

近期必读的5篇 WSDM 2020【图神经网络（GNN）】相关论文

专知

67+阅读 · 2019年11月19日

计算所网络数据实验室3篇论文被WSDM2020录用

计算所网络数据实验室3篇论文被WSDM2020录用

中国科学院网络数据重点实验室

26+阅读 · 2019年10月11日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

刷新中文阅读理解水平，哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

刷新中文阅读理解水平，哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

AI100

14+阅读 · 2019年6月21日

100+中文词向量，总有一款适合你

100+中文词向量，总有一款适合你

专知

12+阅读 · 2018年5月13日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

相关论文

SommBench: Assessing Sommelier Expertise of Language Models

Arxiv

0+阅读 · 3月12日

Agri-Query: A Case Study on RAG vs. Long-Context LLMs for Cross-Lingual Technical Question Answering

Arxiv

0+阅读 · 3月6日

FewMMBench: A Benchmark for Multimodal Few-Shot Learning

Arxiv

0+阅读 · 2月25日

WSDM Cup 2026 Multilingual Retrieval: A Low-Cost Multi-Stage Retrieval Pipeline

Arxiv

0+阅读 · 2月19日

Vikhr: The Family of Open-Source Instruction-Tuned Large Language Models for Russian

Arxiv

0+阅读 · 2月15日

RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding

Arxiv

0+阅读 · 2月14日

CUHK-EE Systems for the vTAD Challenge at NCMMSC 2025

Arxiv

0+阅读 · 2月13日

WavBench: Benchmarking Reasoning, Colloquialism, and Paralinguistics for End-to-End Spoken Dialogue Models

Arxiv

0+阅读 · 2月12日

The CLEF-2026 FinMMEval Lab: Multilingual and Multimodal Evaluation of Financial AI Systems

Arxiv

0+阅读 · 2月11日

Multi-Field Tool Retrieval

Arxiv

0+阅读 · 2月5日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于深度学习的海量截获卫星数据分析技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

废液中铀酰类化合物超灵敏检测用SERS基底纳米结构的设计与构建

国家自然科学基金

0+阅读 · 2015年12月31日

在线检测工件表面质量的“透明窗”方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

高维数据下多样本均值检验问题的研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

弱辛Banach空间上的Maslov指标的研究

国家自然科学基金

0+阅读 · 2014年12月31日

柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员