This report presents our participation to the WSDM Cup 2026 shared task on multilingual document retrieval from English queries. The task provides a challenging benchmark for cross-lingual generalization. It also provides a natural testbed for evaluating SPLARE, our recently proposed learned sparse retrieval model, which produces generalizable sparse latent representations and is particularly well suited to multilingual retrieval settings. We evaluate five progressively enhanced runs, starting from a SPLARE-7B model and incorporating lightweight improvements, including reranking with Qwen3-Reranker-4B and simple score fusion strategies. Our results demonstrate the strength of SPLARE compared to state-of-the-art dense baselines such as Qwen3-8B-Embed. More broadly, our submission highlights the continued relevance and competitiveness of learned sparse retrieval models beyond English-centric scenarios.


翻译:本报告介绍了我们参与WSDM Cup 2026中“基于英文查询的多语言文档检索”共享任务的情况。该任务为跨语言泛化提供了一个具有挑战性的基准。它也为评估我们最近提出的学习型稀疏检索模型SPLARE提供了一个天然的测试平台,该模型能生成可泛化的稀疏潜在表示,尤其适用于多语言检索场景。我们评估了五个逐步增强的提交结果,从SPLARE-7B模型开始,并整合了轻量级改进,包括使用Qwen3-Reranker-4B进行重排序以及简单的分数融合策略。我们的结果表明,与Qwen3-8B-Embed等最先进的稠密基线模型相比,SPLARE具有优势。更广泛地说,我们的提交结果突显了学习型稀疏检索模型在超越以英语为中心的场景下,依然具有持续的相关性和竞争力。

0
下载
关闭预览

相关内容

网络搜索和数据挖掘国际会议(WSDM)是关于Web上的搜索和数据挖掘研究的主要会议之一。WSDM在Web和社会Web上发布与搜索和数据挖掘相关的原始的、高质量的论文,着重于搜索和数据挖掘实用而有原则的新模型、算法设计和分析、经济影响,以及对准确性和性能的深入实验分析。 官网地址:http://dblp.uni-trier.de/db/conf/wsdm/
大型语言模型对齐技术综述:RLHF、RLAIF、PPO、DPO 等
专知会员服务
55+阅读 · 2024年7月24日
最新!WSDM2023最佳论文出炉!牛津Meta等机构学者斩获
专知会员服务
20+阅读 · 2023年3月6日
【WSDM2021-Tutorial】偏见感知推荐系统的进展,134页ppt
专知会员服务
50+阅读 · 2021年3月9日
人工智能顶会WSDM2021优秀论文奖(Best Paper Award Runner-Up)出炉
资源分享 | WSDM2020推荐系统论文打包下载
机器学习与推荐算法
12+阅读 · 2020年6月16日
计算所网络数据实验室3篇论文被WSDM2020录用
中国科学院网络数据重点实验室
26+阅读 · 2019年10月11日
100+中文词向量,总有一款适合你
专知
12+阅读 · 2018年5月13日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月13日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
4+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员