Identifying relevant research concepts is crucial for effective scientific search. However, primary sparse retrieval methods often lack concept-aware representations. To address this, we propose CASPER, a sparse retrieval model for scientific search that utilizes both tokens and keyphrases as representation units (i.e., dimensions in the sparse embedding space). This enables CASPER to represent queries and documents via research concepts and match them at both granular and conceptual levels. Furthermore, we construct training data by leveraging abundant scholarly references (including titles, citation contexts, author-assigned keyphrases, and co-citations), which capture how research concepts are expressed in diverse settings. Empirically, CASPER outperforms strong dense and sparse retrieval baselines across eight scientific retrieval benchmarks. We also explore the effectiveness-efficiency trade-off via representation pruning and demonstrate CASPER's interpretability by showing that it can serve as an effective and efficient keyphrase generation model.


翻译:识别相关研究概念对于有效的科学检索至关重要。然而,主流的稀疏检索方法通常缺乏概念感知的表示能力。为解决这一问题,我们提出了CASPER,一种面向科学检索的稀疏检索模型,该模型同时使用词元(tokens)和关键短语(keyphrases)作为表示单元(即稀疏嵌入空间中的维度)。这使得CASPER能够通过研究概念来表示查询和文档,并在细粒度和概念层面进行匹配。此外,我们通过利用丰富的学术引用信息(包括标题、引文上下文、作者指定的关键短语以及共被引关系)来构建训练数据,这些数据捕捉了研究概念在不同情境下的表达方式。实验表明,CASPER在八个科学检索基准测试中均优于强力的稠密检索和稀疏检索基线方法。我们还通过表示剪枝探索了效果与效率的权衡,并通过展示CASPER可作为一个高效且有效的关键短语生成模型,论证了其可解释性。

0
下载
关闭预览

相关内容

【博士论文】利用图结构加速稀疏计算
专知会员服务
18+阅读 · 2025年3月6日
【干货书】系统与控制的稀疏性方法,214页pdf
专知会员服务
40+阅读 · 2023年5月19日
【MIT博士论文】机器学习中的稀疏性:理论与应用,122页pdf
【综述】关键词生成,附10页pdf论文下载
专知会员服务
54+阅读 · 2019年11月20日
稀疏大模型简述:从MoE、Sparse Attention到GLaM
夕小瑶的卖萌屋
14+阅读 · 2022年3月22日
网络表示学习介绍
人工智能前沿讲习班
18+阅读 · 2018年11月26日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
稀疏性的3个优势 -《稀疏统计学习及其应用》
遇见数学
15+阅读 · 2018年10月24日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【博士论文】利用图结构加速稀疏计算
专知会员服务
18+阅读 · 2025年3月6日
【干货书】系统与控制的稀疏性方法,214页pdf
专知会员服务
40+阅读 · 2023年5月19日
【MIT博士论文】机器学习中的稀疏性:理论与应用,122页pdf
【综述】关键词生成,附10页pdf论文下载
专知会员服务
54+阅读 · 2019年11月20日
相关资讯
稀疏大模型简述:从MoE、Sparse Attention到GLaM
夕小瑶的卖萌屋
14+阅读 · 2022年3月22日
网络表示学习介绍
人工智能前沿讲习班
18+阅读 · 2018年11月26日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
稀疏性的3个优势 -《稀疏统计学习及其应用》
遇见数学
15+阅读 · 2018年10月24日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员