We construct a concept-object knowledge graph from the full astro-ph corpus through July 2025. Using an automated pipeline, we extract named astrophysical objects from OCR-processed papers, resolve them to SIMBAD identifiers, and link them to scientific concepts annotated in the source corpus. We then test whether historical graph structure can forecast new concept-object associations before they appear in print. Because the concepts are derived from clustering and therefore overlap semantically, we apply an inference-time concept-similarity smoothing step uniformly to all methods. Across four temporal cutoffs on a physically meaningful subset of concepts, an implicit-feedback matrix factorization model (alternating least squares, ALS) with smoothing outperforms the strongest neighborhood baseline (KNN using text-embedding concept similarity) by 16.8% on NDCG@100 (0.144 vs 0.123) and 19.8% on Recall@100 (0.175 vs 0.146), and exceeds the best recency heuristic by 96% and 88%, respectively. These results indicate that historical literature encodes predictive structure not captured by global heuristics or local neighborhood voting, suggesting a path toward tools that could help triage follow-up targets for scarce telescope time.


翻译:我们利用截至2025年7月的完整天体物理学文献库构建了一个概念-对象知识图谱。通过自动化流程,我们从经OCR处理的论文中提取已命名的天体物理对象,将其解析为SIMBAD标识符,并将其与源文献库中标注的科学概念进行关联。随后,我们检验历史图谱结构能否在印刷文献出现之前预测新的概念-对象关联。由于概念通过聚类生成且存在语义重叠,我们对所有方法统一应用推理阶段的概念相似性平滑步骤。在具有物理意义的概念子集上,基于四个时间截点的实验表明:采用平滑处理的隐式反馈矩阵分解模型(交替最小二乘法,ALS)在NDCG@100(0.144对比0.123)和Recall@100(0.175对比0.146)指标上分别优于最强的邻域基线方法(使用文本嵌入概念相似度的KNN)16.8%和19.8%,同时分别超越最佳时效性启发式方法96%和88%。这些结果表明,历史文献蕴含着全局启发式方法或局部邻域投票机制未能捕捉的预测性结构,为开发辅助稀缺望远镜观测时间后续目标筛选的工具提供了可行路径。

0
下载
关闭预览

相关内容

面向天域感知领域的知识图谱构建技术研究
专知会员服务
54+阅读 · 2023年10月15日
最新《知识图谱:构建到应用》2020大综述论文,261页pdf
专知会员服务
292+阅读 · 2020年10月6日
综述 | 知识图谱发展概述
PaperWeekly
76+阅读 · 2017年11月3日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
面向天域感知领域的知识图谱构建技术研究
专知会员服务
54+阅读 · 2023年10月15日
最新《知识图谱:构建到应用》2020大综述论文,261页pdf
专知会员服务
292+阅读 · 2020年10月6日
相关资讯
综述 | 知识图谱发展概述
PaperWeekly
76+阅读 · 2017年11月3日
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员