We present a hybrid retrieval system for COVID-19 scientific literature, evaluated on the TREC-COVID benchmark (171,332 papers, 50 expert queries). The system implements six retrieval configurations spanning sparse (SPLADE), dense (BGE), rank-level fusion (RRF), and a projection-based vector fusion (B5) approach. RRF fusion achieves the best relevance (nDCG@10 = 0.828), outperforming dense-only by 6.1% and sparse-only by 14.9%. Our projection fusion variant reaches nDCG@10 = 0.678 on expert queries while being 33% faster (847 ms vs. 1271 ms) and producing 2.2x higher ILD@10 than RRF. Evaluation across 400 queries -- including expert, machine-generated, and three paraphrase styles -- shows that B5 delivers the largest relative gain on keyword-heavy reformulations (+8.8%), although RRF remains best in absolute nDCG@10. On expert queries, MMR reranking increases intra-list diversity by 23.8-24.5% at a 20.4-25.4% nDCG@10 cost. Both fusion pipelines evaluated for latency remain below the sub-2 s target across all query sets. The system is deployed as a Streamlit web application backed by Pinecone serverless indices.


翻译:我们提出了一个面向COVID-19科学文献的混合检索系统,并在TREC-COVID基准(171,332篇论文、50个专家查询)上进行了评估。该系统实现了六种检索配置,涵盖稀疏检索(SPLADE)、稠密检索(BGE)、排序级融合(RRF)以及一种基于投影的向量融合方法(B5)。RRF融合取得了最佳相关性(nDCG@10=0.828),分别比纯稠密检索和纯稀疏检索高6.1%和14.9%。我们的投影融合变体在专家查询上达到nDCG@10=0.678,同时速度比RRF快33%(847毫秒 vs. 1271毫秒),且ILD@10高出2.2倍。在包含专家查询、机器生成查询及三种改写风格的400个查询上的评估表明,尽管RRF在绝对nDCG@10上仍为最优,但B5在关键词密集的改写查询上取得了最大的相对增益(+8.8%)。在专家查询上,MMR重排序以20.4%-25.4%的nDCG@10代价提升了23.8%-24.5%的列表内多样性。两种融合管道的延迟评估均在所有查询集上保持在2秒以下。该系统已部署为由Pinecone无服务器索引支持的Streamlit网络应用。

0
下载
关闭预览

相关内容

多模态复合编辑与检索综述
专知会员服务
25+阅读 · 2024年9月14日
推荐系统融合排序的多目标寻优技术
专知会员服务
19+阅读 · 2024年8月17日
COVID-19文献知识图谱构建,UIUC-哥伦比亚大学
专知会员服务
43+阅读 · 2020年7月2日
[CVPR 2021] 序列到序列对比学习的文本识别
专知
10+阅读 · 2021年4月14日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
多模态复合编辑与检索综述
专知会员服务
25+阅读 · 2024年9月14日
推荐系统融合排序的多目标寻优技术
专知会员服务
19+阅读 · 2024年8月17日
COVID-19文献知识图谱构建,UIUC-哥伦比亚大学
专知会员服务
43+阅读 · 2020年7月2日
相关资讯
[CVPR 2021] 序列到序列对比学习的文本识别
专知
10+阅读 · 2021年4月14日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员