WSDM Cup 2026 Multilingual Retrieval: A Low-Cost Multi-Stage Retrieval Pipeline - 专知论文

会员服务 ·

0

排序 · WSDM · 多阶 · 系统 · 查询扩展 ·

WSDM Cup 2026 Multilingual Retrieval: A Low-Cost Multi-Stage Retrieval Pipeline

翻译：WSDM Cup 2026多语言检索：一种低成本多阶段检索流水线

Chentong Hao,Minmao Wang

We present a low-cost retrieval system for the WSDM Cup 2026 multilingual retrieval task, where English queries are used to retrieve relevant documents from a collection of approximately ten million news articles in Chinese, Persian, and Russian, and to output the top-1000 ranked results for each query. We follow a four-stage pipeline that combines LLM-based GRF-style query expansion with BM25 candidate retrieval, dense ranking using long-text representations from jina-embeddings-v4, and pointwise re-ranking of the top-20 candidates using Qwen3-Reranker-4B while preserving the dense order for the remaining results. On the official evaluation, the system achieves nDCG@20 of 0.403 and Judged@20 of 0.95. We further conduct extensive ablation experiments to quantify the contribution of each stage and to analyze the effectiveness of query expansion, dense ranking, and top-$k$ reranking under limited compute budgets.

翻译：我们为WSDM Cup 2026多语言检索任务提出了一种低成本检索系统。该任务要求使用英文查询，从包含约一千万篇中文、波斯语和俄语新闻文章的语料库中检索相关文档，并为每个查询输出排名前1000的结果。我们采用了一个四阶段流水线：首先结合基于LLM的GRF式查询扩展与BM25候选检索；其次使用jina-embeddings-v4的长文本表示进行稠密排序；然后对前20个候选结果使用Qwen3-Reranker-4B进行逐点重排序，同时保持其余结果的稠密排序顺序。在官方评估中，该系统取得了nDCG@20为0.403、Judged@20为0.95的成绩。我们进一步进行了广泛的消融实验，以量化每个阶段的贡献，并分析了在有限计算预算下查询扩展、稠密排序和前$k$重排序的有效性。

0

相关内容

排序是计算机内经常进行的一种操作，其目的是将一组“无序”的记录序列调整为“有序”的记录序列。分内部排序和外部排序。若整个排序过程不需要访问外存便能完成，则称此类排序问题为内部排序。反之，若参加排序的记录数量很大，整个序列的排序过程不可能在内存中完成，则称此类排序问题为外部排序。内部排序的过程是一个逐步扩大记录的有序序列长度的过程。

【ICML2025】大语言模型是自我示范预选择器

【ICML2025】大语言模型是自我示范预选择器

专知会员服务

13+阅读 · 2025年6月9日

[ICML2024] Spotlight|DAT：通过交互式注意力实现统一的多粒度文本检测

[ICML2024] Spotlight|DAT：通过交互式注意力实现统一的多粒度文本检测

专知会员服务

19+阅读 · 2024年6月26日

清华、人大等机构学者获唯一最佳论文奖，数据挖掘顶会WSDM'22线上召开

清华、人大等机构学者获唯一最佳论文奖，数据挖掘顶会WSDM'22线上召开

专知会员服务

22+阅读 · 2022年2月23日

【WSDM2021-Tutorial】偏见感知推荐系统的进展，134页ppt

【WSDM2021-Tutorial】偏见感知推荐系统的进展，134页ppt

专知会员服务

50+阅读 · 2021年3月9日

人工智能顶会WSDM2021优秀论文奖(Best Paper Award Runner-Up)出炉

人工智能顶会WSDM2021优秀论文奖(Best Paper Award Runner-Up)出炉

专知会员服务

20+阅读 · 2021年2月19日

【WSDM 2021】面向信息检索的预训练语言模型

专知会员服务

36+阅读 · 2020年11月29日

【CIKM2020】【CIKM2020-Tutorial】多模型数据查询语言与处理范式，96页ppt

【CIKM2020】【CIKM2020-Tutorial】多模型数据查询语言与处理范式，96页ppt

专知会员服务

11+阅读 · 2020年10月27日

【WSDM2020】小数据学习，124页ppt，Learning with Small Data，宾夕法尼亚州立大学

【WSDM2020】小数据学习，124页ppt，Learning with Small Data，宾夕法尼亚州立大学

专知会员服务

137+阅读 · 2020年2月6日

最新！人工智能顶会WSDM2020最佳论文出炉！UCSC斩获-主轴的幂用于精确团计数

最新！人工智能顶会WSDM2020最佳论文出炉！UCSC斩获-主轴的幂用于精确团计数

专知会员服务

27+阅读 · 2020年2月6日

近期必读的5篇 WSDM 2020【图神经网络（GNN）】相关论文

近期必读的5篇 WSDM 2020【图神经网络（GNN）】相关论文

专知会员服务

57+阅读 · 2020年1月10日

【WSDM2021-Tutorial】偏见感知推荐系统的进展，134页ppt

【WSDM2021-Tutorial】偏见感知推荐系统的进展，134页ppt

专知

11+阅读 · 2021年3月9日

淘宝 at KDD 2020，提出M2GRL优化大规模推荐中的多任务多视角图表示学习

淘宝 at KDD 2020，提出M2GRL优化大规模推荐中的多任务多视角图表示学习

AINLP

23+阅读 · 2020年6月16日

资源分享 | WSDM2020推荐系统论文打包下载

资源分享 | WSDM2020推荐系统论文打包下载

机器学习与推荐算法

12+阅读 · 2020年6月16日

近期必读的5篇 WSDM 2020【图神经网络（GNN）】相关论文

近期必读的5篇 WSDM 2020【图神经网络（GNN）】相关论文

专知

67+阅读 · 2019年11月19日

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

专知

41+阅读 · 2019年11月2日

计算所网络数据实验室3篇论文被WSDM2020录用

计算所网络数据实验室3篇论文被WSDM2020录用

中国科学院网络数据重点实验室

26+阅读 · 2019年10月11日

推荐系统顶会 RecSys2019 最佳论文奖出炉！可复现性成为焦点—18篇顶级会议只有7篇可以合理复现

推荐系统顶会 RecSys2019 最佳论文奖出炉！可复现性成为焦点—18篇顶级会议只有7篇可以合理复现

专知

17+阅读 · 2019年9月17日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

WSDM论文精读 | 看谷歌团队如何做位置偏差估计

WSDM论文精读 | 看谷歌团队如何做位置偏差估计

AI前线

10+阅读 · 2018年3月4日

基于关键词的大规模链接数据搜索技术研究

国家自然科学基金

7+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于比特置信度的低复杂度多进制LDPC码译码算法

国家自然科学基金

0+阅读 · 2015年12月31日

高维数据下多样本均值检验问题的研究

国家自然科学基金

0+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向汉语-泰语跨语言新闻事件检索方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

Dripper: Token-Efficient Main HTML Extraction with a Lightweight LM

Arxiv

0+阅读 · 3月4日

MultiWikiQA: A Reading Comprehension Benchmark in 300+ Languages

Arxiv

0+阅读 · 3月4日

FewMMBench: A Benchmark for Multimodal Few-Shot Learning

Arxiv

0+阅读 · 2月25日

Naver Labs Europe @ WSDM CUP | Multilingual Retrieval

Arxiv

0+阅读 · 2月24日

BrowseComp-$V^3$: A Visual, Vertical, and Verifiable Benchmark for Multimodal Browsing Agents

Arxiv

0+阅读 · 2月24日

MultiCW: A Large-Scale Balanced Benchmark Dataset for Training Robust Check-Worthiness Detection Models

Arxiv

0+阅读 · 2月18日

BrowseComp-$V^3$: A Visual, Vertical, and Verifiable Benchmark for Multimodal Browsing Agents

Arxiv

0+阅读 · 2月13日

CUHK-EE Systems for the vTAD Challenge at NCMMSC 2025

Arxiv

0+阅读 · 2月13日

Multi-Field Tool Retrieval

Arxiv

0+阅读 · 2月5日

CUBO: Self-Contained Retrieval-Augmented Generation on Consumer Laptops 10 GB Corpora, 16 GB RAM, Single-Device Deployment

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

最新内容

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

0+阅读 · 20分钟前

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

1+阅读 · 40分钟前

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

1+阅读 · 48分钟前

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

0+阅读 · 57分钟前

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

1+阅读 · 今天15:11

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

0+阅读 · 今天14:43

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

0+阅读 · 今天14:40

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

专知会员服务

11+阅读 · 7月16日

《无人地面战车（UGV）的崛起》报告

《无人地面战车（UGV）的崛起》报告

专知会员服务

7+阅读 · 7月16日

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

专知会员服务

6+阅读 · 7月16日

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

专知会员服务

12+阅读 · 7月16日

美陆军任务式指挥人工智能解决方案

美陆军任务式指挥人工智能解决方案

专知会员服务

11+阅读 · 7月16日

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

专知会员服务

8+阅读 · 7月16日

综述 | 现代智能体自我改进，从模型更新到脚手架演化

综述 | 现代智能体自我改进，从模型更新到脚手架演化

专知会员服务

14+阅读 · 7月16日

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

专知会员服务

13+阅读 · 7月15日

相关VIP内容

【ICML2025】大语言模型是自我示范预选择器

【ICML2025】大语言模型是自我示范预选择器

专知会员服务

13+阅读 · 2025年6月9日

[ICML2024] Spotlight|DAT：通过交互式注意力实现统一的多粒度文本检测

[ICML2024] Spotlight|DAT：通过交互式注意力实现统一的多粒度文本检测

专知会员服务

19+阅读 · 2024年6月26日

清华、人大等机构学者获唯一最佳论文奖，数据挖掘顶会WSDM'22线上召开

清华、人大等机构学者获唯一最佳论文奖，数据挖掘顶会WSDM'22线上召开

专知会员服务

22+阅读 · 2022年2月23日

【WSDM2021-Tutorial】偏见感知推荐系统的进展，134页ppt

【WSDM2021-Tutorial】偏见感知推荐系统的进展，134页ppt

专知会员服务

50+阅读 · 2021年3月9日

人工智能顶会WSDM2021优秀论文奖(Best Paper Award Runner-Up)出炉

人工智能顶会WSDM2021优秀论文奖(Best Paper Award Runner-Up)出炉

专知会员服务

20+阅读 · 2021年2月19日

【WSDM 2021】面向信息检索的预训练语言模型

专知会员服务

36+阅读 · 2020年11月29日

【CIKM2020】【CIKM2020-Tutorial】多模型数据查询语言与处理范式，96页ppt

【CIKM2020】【CIKM2020-Tutorial】多模型数据查询语言与处理范式，96页ppt

专知会员服务

11+阅读 · 2020年10月27日

【WSDM2020】小数据学习，124页ppt，Learning with Small Data，宾夕法尼亚州立大学

【WSDM2020】小数据学习，124页ppt，Learning with Small Data，宾夕法尼亚州立大学

专知会员服务

137+阅读 · 2020年2月6日

最新！人工智能顶会WSDM2020最佳论文出炉！UCSC斩获-主轴的幂用于精确团计数

最新！人工智能顶会WSDM2020最佳论文出炉！UCSC斩获-主轴的幂用于精确团计数

专知会员服务

27+阅读 · 2020年2月6日

近期必读的5篇 WSDM 2020【图神经网络（GNN）】相关论文

近期必读的5篇 WSDM 2020【图神经网络（GNN）】相关论文

专知会员服务

57+阅读 · 2020年1月10日

热门VIP内容

开通专知VIP会员享更多权益服务

《边缘端实时无线感知赋能现场多机器人部署》200页

人工智能赋能战场情报：提速决策进程

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

战力倍增器：自主武器系统与乌克兰及加沙冲突

相关资讯

【WSDM2021-Tutorial】偏见感知推荐系统的进展，134页ppt

【WSDM2021-Tutorial】偏见感知推荐系统的进展，134页ppt

专知

11+阅读 · 2021年3月9日

淘宝 at KDD 2020，提出M2GRL优化大规模推荐中的多任务多视角图表示学习

淘宝 at KDD 2020，提出M2GRL优化大规模推荐中的多任务多视角图表示学习

AINLP

23+阅读 · 2020年6月16日

资源分享 | WSDM2020推荐系统论文打包下载

资源分享 | WSDM2020推荐系统论文打包下载

机器学习与推荐算法

12+阅读 · 2020年6月16日

近期必读的5篇 WSDM 2020【图神经网络（GNN）】相关论文

近期必读的5篇 WSDM 2020【图神经网络（GNN）】相关论文

专知

67+阅读 · 2019年11月19日

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

专知

41+阅读 · 2019年11月2日

计算所网络数据实验室3篇论文被WSDM2020录用

计算所网络数据实验室3篇论文被WSDM2020录用

中国科学院网络数据重点实验室

26+阅读 · 2019年10月11日

推荐系统顶会 RecSys2019 最佳论文奖出炉！可复现性成为焦点—18篇顶级会议只有7篇可以合理复现

推荐系统顶会 RecSys2019 最佳论文奖出炉！可复现性成为焦点—18篇顶级会议只有7篇可以合理复现

专知

17+阅读 · 2019年9月17日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

WSDM论文精读 | 看谷歌团队如何做位置偏差估计

WSDM论文精读 | 看谷歌团队如何做位置偏差估计

AI前线

10+阅读 · 2018年3月4日

相关论文

Dripper: Token-Efficient Main HTML Extraction with a Lightweight LM

Arxiv

0+阅读 · 3月4日

MultiWikiQA: A Reading Comprehension Benchmark in 300+ Languages

Arxiv

0+阅读 · 3月4日

FewMMBench: A Benchmark for Multimodal Few-Shot Learning

Arxiv

0+阅读 · 2月25日

Naver Labs Europe @ WSDM CUP | Multilingual Retrieval

Arxiv

0+阅读 · 2月24日

BrowseComp-$V^3$: A Visual, Vertical, and Verifiable Benchmark for Multimodal Browsing Agents

Arxiv

0+阅读 · 2月24日

MultiCW: A Large-Scale Balanced Benchmark Dataset for Training Robust Check-Worthiness Detection Models

Arxiv

0+阅读 · 2月18日

BrowseComp-$V^3$: A Visual, Vertical, and Verifiable Benchmark for Multimodal Browsing Agents

Arxiv

0+阅读 · 2月13日

CUHK-EE Systems for the vTAD Challenge at NCMMSC 2025

Arxiv

0+阅读 · 2月13日

Multi-Field Tool Retrieval

Arxiv

0+阅读 · 2月5日

CUBO: Self-Contained Retrieval-Augmented Generation on Consumer Laptops 10 GB Corpora, 16 GB RAM, Single-Device Deployment

Arxiv

0+阅读 · 2月3日

相关基金

基于关键词的大规模链接数据搜索技术研究

国家自然科学基金

7+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于比特置信度的低复杂度多进制LDPC码译码算法

国家自然科学基金

0+阅读 · 2015年12月31日

高维数据下多样本均值检验问题的研究

国家自然科学基金

0+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向汉语-泰语跨语言新闻事件检索方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员