Funding acknowledgments in scholarly publications provide large-scale trace data on organizations that support scientific research. We present a dataset for linking global science funding organizations to research publications by systematically disambiguating unique funding acknowledgment strings extracted from publication metadata. Funder names are matched to standardized organizational identifiers using a multi-stage pipeline that combines lexical normalization, similarity-based clustering, rule-based matching, named entity recognition assistance, and manual validation. The resulting dataset links 1.9 million unique funder strings to canonical organization identifiers and records match types and unresolved cases to support transparency. Technical validation includes paper-level comparisons across bibliometric sources and manual verification against full-text acknowledgment sections, with reported recall and precision metrics. This dataset supports analyses of funding flows, institutional funding portfolios, regional representation, and concentration patterns in the global research system.


翻译:学术出版物中的资金致谢部分提供了支持科学研究机构的大规模追踪数据。我们提出了一种通过系统消歧从出版元数据中提取的唯一资金致谢字符串,将全球科学资助组织与研究出版物进行关联的方法。资助机构名称通过多阶段流水线匹配到标准化组织标识符,该流水线结合了词汇归一化、基于相似度的聚类、规则匹配、命名实体识别辅助及人工验证。最终数据集将190万个唯一资助字符串与规范组织标识符建立关联,并记录了匹配类型及未解决案例以支持透明度。技术验证包括跨文献计量源的论文级比较及对全文致谢章节的人工核查,并报告了召回率与精确度指标。该数据集支持对全球科研体系中的资金流向、机构资助组合、区域代表性及集中度模式进行分析。

0
下载
关闭预览

相关内容

彭博新书《知识图谱: 一种信息检索视角》,159页pdf
专知会员服务
153+阅读 · 2020年11月1日
专知会员服务
146+阅读 · 2020年8月21日
经济学中的数据科学,Data Science in Economics,附22页pdf
专知会员服务
36+阅读 · 2020年4月1日
【资源推荐】公开数据集收集汇总
专知
19+阅读 · 2019年6月5日
论文浅尝 | 基于多模态关联数据嵌入的知识库补全
开放知识图谱
12+阅读 · 2018年12月13日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
牛!中国版Sci-Hub,还能下载中文文献!
材料科学与工程
26+阅读 · 2018年8月26日
最全数据科学学习资源:Python、线性代数、机器学习...
人工智能头条
12+阅读 · 2018年5月14日
不要担心没数据!史上最全数据集网站汇总
资源:10份机器阅读理解数据集 | 论文集精选 #02
PaperWeekly
11+阅读 · 2017年9月16日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月31日
VIP会员
最新内容
综述 | 世界动作模型:少做梦,多行动
专知会员服务
4+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
7+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
彭博新书《知识图谱: 一种信息检索视角》,159页pdf
专知会员服务
153+阅读 · 2020年11月1日
专知会员服务
146+阅读 · 2020年8月21日
经济学中的数据科学,Data Science in Economics,附22页pdf
专知会员服务
36+阅读 · 2020年4月1日
相关资讯
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员