We present a low-cost retrieval system for the WSDM Cup 2026 multilingual retrieval task, where English queries are used to retrieve relevant documents from a collection of approximately ten million news articles in Chinese, Persian, and Russian, and to output the top-1000 ranked results for each query. We follow a four-stage pipeline that combines LLM-based GRF-style query expansion with BM25 candidate retrieval, dense ranking using long-text representations from jina-embeddings-v4, and pointwise re-ranking of the top-20 candidates using Qwen3-Reranker-4B while preserving the dense order for the remaining results. On the official evaluation, the system achieves nDCG@20 of 0.403 and Judged@20 of 0.95. We further conduct extensive ablation experiments to quantify the contribution of each stage and to analyze the effectiveness of query expansion, dense ranking, and top-$k$ reranking under limited compute budgets.


翻译:我们为WSDM Cup 2026多语言检索任务提出了一种低成本检索系统。该任务要求使用英文查询,从包含约一千万篇中文、波斯语和俄语新闻文章的语料库中检索相关文档,并为每个查询输出排名前1000的结果。我们采用了一个四阶段流水线:首先结合基于LLM的GRF式查询扩展与BM25候选检索;其次使用jina-embeddings-v4的长文本表示进行稠密排序;然后对前20个候选结果使用Qwen3-Reranker-4B进行逐点重排序,同时保持其余结果的稠密排序顺序。在官方评估中,该系统取得了nDCG@20为0.403、Judged@20为0.95的成绩。我们进一步进行了广泛的消融实验,以量化每个阶段的贡献,并分析了在有限计算预算下查询扩展、稠密排序和前$k$重排序的有效性。

0
下载
关闭预览

相关内容

排序是计算机内经常进行的一种操作,其目的是将一组“无序”的记录序列调整为“有序”的记录序列。分内部排序和外部排序。若整个排序过程不需要访问外存便能完成,则称此类排序问题为内部排序。反之,若参加排序的记录数量很大,整个序列的排序过程不可能在内存中完成,则称此类排序问题为外部排序。内部排序的过程是一个逐步扩大记录的有序序列长度的过程。
【ICML2025】大语言模型是自我示范预选择器
专知会员服务
12+阅读 · 2025年6月9日
【WSDM2021-Tutorial】偏见感知推荐系统的进展,134页ppt
专知会员服务
50+阅读 · 2021年3月9日
人工智能顶会WSDM2021优秀论文奖(Best Paper Award Runner-Up)出炉
专知会员服务
36+阅读 · 2020年11月29日
近期必读的5篇 WSDM 2020【图神经网络(GNN)】相关论文
专知会员服务
57+阅读 · 2020年1月10日
资源分享 | WSDM2020推荐系统论文打包下载
机器学习与推荐算法
12+阅读 · 2020年6月16日
计算所网络数据实验室3篇论文被WSDM2020录用
中国科学院网络数据重点实验室
26+阅读 · 2019年10月11日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月5日
VIP会员
相关基金
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员