Large language model agents are becoming increasingly capable at web-centric tasks such as information retrieval, complex reasoning. These emerging capabilities have given rise to surge research interests in developing LLM agent for facilitating scientific quest. One key application in AI research is to automate experiment design through agentic dataset and baseline retrieval. However, prior efforts suffer from limited data coverage, as recommendation datasets primarily harvest candidates from public portals and omit many datasets actually used in published papers, and from an overreliance on content similarity that biases model toward superficial similarity and overlooks experimental suitability. Harnessing collective perception embedded in the baseline and dataset citation network, we present a comprehensive framework for baseline and dataset recommendation. First, we design an automated data-collection pipeline that links roughly one hundred thousand accepted papers to the baselines and datasets they actually used. Second, we propose a collective perception enhanced retriever. To represent the position of each dataset or baseline within the scholarly network, it concatenates self-descriptions with aggregated citation contexts. To achieve efficient candidate recall, we finetune an embedding model on these representations. Finally, we develop a reasoning-augmented reranker that exact interaction chains to construct explicit reasoning chains and finetunes a large language model to produce interpretable justifications and refined rankings. The dataset we curated covers 85\% of the datasets and baselines used at top AI conferences over the past five years. On our dataset, the proposed method outperforms the strongest prior baseline with average gains of +5.85\% in Recall@20, +8.30\% in HitRate@5. Taken together, our results advance reliable, interpretable automation of experimental design.


翻译:大语言模型智能体在信息检索、复杂推理等以网络为中心的任务中正展现出日益增强的能力。这些新兴能力激发了利用LLM智能体辅助科学研究的热潮。在人工智能研究中的一个关键应用是通过智能化的数据集与基线检索实现实验设计的自动化。然而,先前的研究存在数据覆盖范围有限的问题——推荐数据集主要从公共门户网站收集候选对象,遗漏了许多已发表论文实际使用的数据集;并且过度依赖内容相似性,导致模型偏向于表面相似性而忽视了实验适用性。我们利用嵌入在基线及数据集引用网络中的集体感知,提出了一个用于基线及数据集推荐的综合性框架。首先,我们设计了一个自动化数据收集流程,将约十万篇已录用论文与其实际使用的基线和数据集关联起来。其次,我们提出了一种集体感知增强的检索器。为了表征每个数据集或基点在学术网络中的位置,该检索器将自我描述与聚合的引用上下文进行拼接。为实现高效的候选对象召回,我们在这些表征上微调了一个嵌入模型。最后,我们开发了一个推理增强的重排序器,它通过精确的交互链构建显式推理链,并微调一个大语言模型以生成可解释的论证依据和优化后的排序结果。我们整理的数据集覆盖了过去五年顶级人工智能会议中使用的85%的数据集和基线。在我们的数据集上,所提出的方法优于先前最强的基线模型,在Recall@20指标上平均提升+5.85%,在HitRate@5指标上平均提升+8.30%。综上所述,我们的研究成果推动了实验设计可靠、可解释的自动化进程。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员