Open research information (ORI) play a central role in shaping how scientific knowledge is produced, disseminated, validated, and reused across the research lifecycle. While the visibility of such ORI infrastructures is often assessed through citation-based metrics, in this study, we present a full-text, natural language processing (NLP) driven scientometric framework to systematically quantify the impact of ORI infrastructures beyond citation counts, using the LXCat platform for low temperature plasma (LTP) research as a representative case study. The modeling of LTPs and interpretation of LTP experiments rely heavily on accurate data, much of which is hosted on LXCat, a community-driven, open-access platform central to the LTP research ecosystem. To investigate the scholarly impact of the LXCat platform over the past decade, we analyzed a curated corpus of full-text research articles citing three foundational LXCat publications. We present a comprehensive pipeline that integrates chemical entity recognition, dataset and solver mention extraction, affiliation based geographic mapping and topic modeling to extract fine-grained patterns of data usage that reflect implicit research priorities, data practices, differential reliance on specific databases, evolving modes of data reuse and coupling within scientific workflows, and thematic evolution. Importantly, our proposed methodology is domain-agnostic and transferable to other ORI contexts, and highlights the utility of NLP in quantifying the role of scientific data infrastructures and offers a data-driven reflection on how open-access platforms like LXCat contribute to shaping research directions. This work presents a scalable scientometric framework that has the potential to support evidence based evaluation of ORI platforms and to inform infrastructure design, governance, sustainability, and policy for future development.


翻译:开放研究信息(ORI)在塑造科学知识于研究生命周期中如何产生、传播、验证和重用方面发挥着核心作用。尽管此类ORI基础设施的可见性通常通过基于引用的指标进行评估,但本研究提出了一个全文、自然语言处理(NLP)驱动的科学计量框架,以系统量化ORI基础设施超越引用计数的影响,并以低温等离子体(LTP)研究的LXCat平台作为代表性案例进行研究。LTP的建模和LTP实验的解释严重依赖于准确的数据,其中大部分数据托管在LXCat上——这是一个对LTP研究生态系统至关重要的社区驱动、开放获取平台。为了调查过去十年中LXCat平台的学术影响,我们分析了一个精选的全文研究文章语料库,这些文章引用了三篇基础的LXCat出版物。我们提出了一个综合流程,该流程整合了化学实体识别、数据集与求解器提及提取、基于隶属机构的地理映射以及主题建模,以提取反映隐含研究优先级、数据实践、对特定数据库的差异化依赖、数据重用模式的演变以及科学工作流内耦合关系的细粒度数据使用模式。重要的是,我们提出的方法具有领域无关性,可迁移到其他ORI情境中,并凸显了NLP在量化科学数据基础设施作用方面的效用,为像LXCat这样的开放获取平台如何促进塑造研究方向提供了数据驱动的反思。这项工作提出了一个可扩展的科学计量框架,该框架有潜力支持对ORI平台进行基于证据的评估,并为未来的基础设施设计、治理、可持续性和政策制定提供信息。

0
下载
关闭预览

相关内容

【NTU博士论文】将上下文融入开放信息抽取
专知会员服务
21+阅读 · 2024年11月11日
【博士论文】开放环境下的度量学习研究
专知会员服务
49+阅读 · 2021年12月4日
专知会员服务
33+阅读 · 2021年9月27日
专知会员服务
94+阅读 · 2021年9月5日
专知会员服务
201+阅读 · 2020年3月6日
深度学习可解释性研究进展
专知
19+阅读 · 2020年6月26日
金融领域自然语言处理研究资源大列表
专知
13+阅读 · 2020年2月27日
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
清华发布《2018自然语言处理研究报告》
智能交通技术
17+阅读 · 2018年8月4日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
Arxiv
0+阅读 · 2月13日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员