The explosive growth of AI and machine learning literature -- with venues like NeurIPS and ICLR now accepting thousands of papers annually -- has made comprehensive citation coverage increasingly difficult for researchers. While citation recommendation has been studied for over a decade, existing systems primarily focus on broad relevance rather than identifying the critical set of ``must-cite'' papers: direct experimental baselines, foundational methods, and core dependencies whose omission would misrepresent a contribution's novelty or undermine reproducibility. We introduce MasterSet, a large-scale benchmark specifically designed to evaluate must-cite recommendation in the AI/ML domain. MasterSet incorporates over 150,000 papers collected from official conference proceedings/websites of 15 leading venues, serving as a comprehensive candidate pool for retrieval. We annotate citations with a three-tier labeling scheme: (I) experimental baseline status, (II) core relevance (1--5 scale), and (III) intra-paper mention frequency. Our annotation pipeline leverages an LLM-based judge, validated by human experts on a stratified sample. The benchmark task requires retrieving must-cite papers from the candidate pool given only a query paper's title and abstract, evaluated by Recall@$K$. We establish baselines using sparse retrieval, dense scientific embeddings, and graph-based methods, demonstrating that must-cite retrieval remains a challenging open problem.


翻译:人工智能与机器学习文献的爆炸式增长——以NeurIPS和ICLR为代表的学术会议每年收录数千篇论文——使得研究者全面覆盖引用文献日益困难。尽管引用推荐研究已开展十余年,现有系统主要关注广义相关性,而非识别关键的"必引"文献集:包括直接实验基线、基础性方法及核心依赖项,遗漏此类文献将导致研究贡献的独创性表述失准或削弱结果可复现性。我们提出MasterSet,这是一个专为评估AI/ML领域必引文献推荐设计的大规模基准测试。MasterSet整合了来自15个顶级学术会议官方论文集/网站的逾15万篇论文,构建了全面的候选文献池。我们采用三级标注体系对引用进行分类:(I)实验基线状态,(II)核心相关性(1-5级评分),(III)论文内提及频率。标注流程采用基于LLM的评审机制,并通过分层抽样由人类专家验证。基准任务要求仅依据查询论文的标题和摘要,从候选文献池中检索必引文献,以Recall@$K$为评估指标。我们采用稀疏检索、密集科学嵌入及图方法建立基线,结果表明必引文献检索仍是具有挑战性的开放问题。

0
下载
关闭预览

相关内容

北大获奖,清华、人大等提名,ICLR 2023杰出论文奖出炉
专知会员服务
20+阅读 · 2023年3月24日
ICML2019机器学习顶会接受论文列表!
专知
10+阅读 · 2019年5月12日
完备的 AI 学习路线,最详细的资源整理!
新智元
18+阅读 · 2019年5月4日
年度必读:2018最具突破性人工智能论文Top 10
机器学习算法与Python学习
11+阅读 · 2018年12月2日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月26日
Arxiv
0+阅读 · 3月2日
VIP会员
相关主题
最新内容
重新思考无人机时代的生存能力
专知会员服务
2+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
2+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
3+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
3+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
5+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关VIP内容
北大获奖,清华、人大等提名,ICLR 2023杰出论文奖出炉
专知会员服务
20+阅读 · 2023年3月24日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员