Scholarly data are largely fragmented across siloed databases with divergent metadata and missing linkages among them. We present the Science Data Lake, a locally-deployable infrastructure built on DuckDB and simple Parquet files that unifies eight open sources - Semantic Scholar, OpenAlex, SciSciNet, Papers with Code, Retraction Watch, Reliance on Science, a preprint-to-published mapping, and Crossref - via DOI normalization while preserving source-level schemas. The resource comprises approximately 960GB of Parquet files spanning ~293 million uniquely identifiable papers across ~22 schemas and ~153 SQL views. An embedding-based ontology alignment using BGE-large sentence embeddings maps 4,516 OpenAlex topics to 13 scientific ontologies (~1.3 million terms), yielding 16,150 mappings covering 99.8% of topics ($\geq 0.65$ threshold) with $F1 = 0.77$ at the recommended $\geq 0.85$ operating point, outperforming TF-IDF, BM25, and Jaro-Winkler baselines on a 300-pair gold-standard evaluation. We validate through 10 automated checks, cross-source citation agreement analysis (pairwise Pearson $r = 0.76$ - $0.87$), and stratified manual annotation. Four vignettes demonstrate cross-source analyses infeasible with any single database. The resource is open source, deployable on a single drive or queryable remotely via HuggingFace, and includes structured documentation suitable for large language model (LLM) based research agents.


翻译:学术数据长期以来分散在各自独立的数据库中,其元数据标准各异且缺乏相互关联。本文提出科学数据湖——一个基于DuckDB和简易Parquet文件构建、支持本地部署的基础设施。该系统通过DOI规范化整合了八个开放数据源(Semantic Scholar、OpenAlex、SciSciNet、Papers with Code、Retraction Watch、Reliance on Science、预印本-出版物映射库及Crossref),同时保留源级数据模式。该资源包含约960GB的Parquet文件,涵盖约2.93亿篇唯一可识别论文,涉及约22种数据模式和约153个SQL视图。基于BGE-large句子嵌入的本体对齐方法将4,516个OpenAlex主题映射至13个科学本体(约130万个术语),在推荐阈值$\geq 0.85$的操作点下获得16,150组映射(覆盖99.8%的主题),在300对黄金标准评估中F1分数达0.77,性能优于TF-IDF、BM25和Jaro-Winkler基线方法。我们通过10项自动化检查、跨源引用一致性分析(两两皮尔逊相关系数$r = 0.76$ - $0.87$)以及分层人工标注进行验证。四个应用案例展示了任何单一数据库均无法实现的跨源分析能力。该资源完全开源,可在单驱动器部署或通过HuggingFace远程查询,并提供适用于基于大语言模型(LLM)研究智能体的结构化文档。

0
下载
关闭预览

相关内容

数据湖核心能力解析
专知会员服务
33+阅读 · 2024年6月12日
《数据科学导论》教学资源案例入围优秀课程配套资源
专知会员服务
29+阅读 · 2022年5月9日
数据科学平台:特征、技术及趋势
专知会员服务
46+阅读 · 2022年4月17日
剑桥大学《数据科学: 原理与实践》课程,附PPT下载
专知会员服务
54+阅读 · 2021年1月20日
数据科学导论,54页ppt,Introduction to Data Science
专知会员服务
42+阅读 · 2020年7月27日
文本生成公开数据集/开源工具/经典论文详细列表分享
深度学习与NLP
30+阅读 · 2019年9月22日
技术动态 | TechKG:一个面向中文学术领域的大型知识图谱
开放知识图谱
25+阅读 · 2018年12月20日
最全数据科学学习资源:Python、线性代数、机器学习...
人工智能头条
12+阅读 · 2018年5月14日
【资源】史上最全数据集汇总
七月在线实验室
18+阅读 · 2018年4月24日
不要担心没数据!史上最全数据集网站汇总
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
人工智能在战场行动中的演进及伊朗案例
专知会员服务
2+阅读 · 今天13:08
美AI公司Anthropic推出网络安全模型“Mythos”
专知会员服务
2+阅读 · 今天12:58
【博士论文】面向城市环境的可解释计算机视觉
专知会员服务
0+阅读 · 今天12:57
大语言模型的自改进机制:技术综述与未来展望
专知会员服务
0+阅读 · 今天12:50
《第四代军事特种作战部队选拔与评估》
专知会员服务
1+阅读 · 今天6:23
相关VIP内容
数据湖核心能力解析
专知会员服务
33+阅读 · 2024年6月12日
《数据科学导论》教学资源案例入围优秀课程配套资源
专知会员服务
29+阅读 · 2022年5月9日
数据科学平台:特征、技术及趋势
专知会员服务
46+阅读 · 2022年4月17日
剑桥大学《数据科学: 原理与实践》课程,附PPT下载
专知会员服务
54+阅读 · 2021年1月20日
数据科学导论,54页ppt,Introduction to Data Science
专知会员服务
42+阅读 · 2020年7月27日
相关资讯
相关基金
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员