Evaluation of researchers' output is vital for hiring committees and funding bodies, and it is usually measured via their scientific productivity, citations, or a combined metric such as h-index. Assessing young researchers is more critical because it takes a while to get citations and increment of h-index. Hence, predicting the h-index can help to discover the researchers' scientific impact. In addition, identifying the influential factors to predict the scientific impact is helpful for researchers seeking solutions to improve it. This study investigates the effect of author, paper and venue-specific features on the future h-index. For this purpose, we used machine learning methods to predict the h-index and feature analysis techniques to advance the understanding of feature impact. Utilizing the bibliometric data in Scopus, we defined and extracted two main groups of features. The first relates to prior scientific impact, and we name it 'prior impact-based features' and includes the number of publications, received citations, and h-index. The second group is 'non-impact-based features' and contains the features related to author, co-authorship, paper, and venue characteristics. We explored their importance in predicting h-index for researchers in three different career phases. Also, we examine the temporal dimension of predicting performance for different feature categories to find out which features are more reliable for long- and short-term prediction. We referred to the gender of the authors to examine the role of this author's characteristics in the prediction task. Our findings showed that gender has a very slight effect in predicting the h-index. We found that non-impact-based features are more robust predictors for younger scholars than seniors in the short term. Also, prior impact-based features lose their power to predict more than other features in the long-term.


翻译:研究人员成果的评估对于招聘委员会和资助机构至关重要,通常通过其科学产出、引用次数或h指数等综合指标来衡量。评估青年研究人员更为关键,因为获取引用和提升h指数需要一定时间。因此,预测h指数有助于发现研究人员的科学影响力。此外,识别预测科学影响力的关键因素,有助于研究人员寻求改进方法。本研究探讨了作者、论文及出版物特定特征对未来h指数的影响。为此,我们采用机器学习方法预测h指数,并运用特征分析技术深化对特征影响的理解。利用Scopus中的文献计量数据,我们定义并提取了两类主要特征。第一类与先前的科学影响力相关,命名为"基于先前影响力的特征",包括发文量、引用次数和h指数。第二类为"非基于影响力的特征",包含作者、合著者、论文及出版物相关的特征。我们探究了这些特征在预测研究人员三个不同职业阶段h指数时的相对重要性。同时,我们考察了不同特征类别预测性能的时间维度,以确定哪些特征在长期和短期预测中更为可靠。我们引入作者性别因素,检验该作者特征在预测任务中的作用。研究结果表明,性别对h指数预测的影响极为微弱。短期预测中,非基于影响力的特征对青年研究者的预测稳定性优于资深研究者。此外,在长期预测中,基于先前影响力的特征相比其他特征更易失去预测效力。

0
下载
关闭预览

相关内容

【ICDM 2022教程】图挖掘中的公平性:度量、算法和应用
专知会员服务
28+阅读 · 2022年12月26日
论文浅尝 | Language Models (Mostly) Know What They Know
开放知识图谱
2+阅读 · 2022年11月18日
实体关系的联合抽取总结
深度学习自然语言处理
18+阅读 · 2020年7月12日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
基于PyTorch/TorchText的自然语言处理库
专知
28+阅读 · 2019年4月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
自定义损失函数Gradient Boosting
AI研习社
14+阅读 · 2018年10月16日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月14日
Generalized Out-of-Distribution Detection: A Survey
Arxiv
15+阅读 · 2021年10月21日
Arxiv
38+阅读 · 2020年3月10日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
【ICDM 2022教程】图挖掘中的公平性:度量、算法和应用
专知会员服务
28+阅读 · 2022年12月26日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员