Researchers analyze coauthorship networks, but author name ambiguity in their network data remains a significant challenge as it can change the number of vertices, distorting network properties. Although many scholars use straightforward heuristics for author name disambiguation using author's forename initials, these techniques can skew our understanding of network properties by merging or splitting vertices, raising concerns about the reliability and validity of these methods. This study investigates how different levels of vertex merging and splitting errors that are induced by name ambiguity impact network measures, using three large coauthorship networks with highly accurate algorithmic author name disambiguation. As a counterfactual scenario, two initial-based disambiguation methods widely used in coauthorship network research were applied to these datasets. Nine coauthorship network metrics were computed while varying randomly the numbers of merged or split vertices. Results show that initial-based disambiguation generates coauthorship networks with specific network properties underestimated, leading to the discovery of coauthorship networks that are smaller and more closely connected than they genuinely are. In contrast, other network metric values increase, making authors appear more collaborative and embedded within less fragmented research communities than they are. The study emphasizes the importance of careful disambiguation of vertex names in analyzing coauthorship networks for rigorous and valid findings.


翻译:研究人员分析合著网络时,作者姓名的歧义性对网络数据构成的重大挑战在于,它可能改变顶点数量,从而扭曲网络属性。尽管许多学者使用基于作者名字首字母的简单启发式方法进行作者姓名消歧,但这些技术可能通过合并或分裂顶点,扭曲我们对网络属性的理解,引发对这些方法可靠性和有效性的担忧。本研究利用三个经过高精度算法消歧的大型合著网络,探讨由姓名歧义引发的不同程度顶点合并与分裂误差对网络度量的影响。作为反事实场景,本研究将合著网络研究中广泛使用的两种基于首字母的消歧方法应用于这些数据集,并在随机改变合并或分裂顶点数量的条件下,计算了九项合著网络度量指标。结果表明,基于首字母的消歧方法会生成低估特定网络属性的合著网络,从而发现比真实情况更小、连接更紧密的合著网络。相反,其他网络度量值则会增加,使得作者看起来比实际情况更具合作性,且嵌入在碎片化程度更低的研究社群中。本研究强调了在分析合著网络时,对顶点名称进行仔细消歧对于获得严谨有效发现的重要性。

0
下载
关闭预览

相关内容

《在线影响力行动的社交网络策略分析》203页
专知会员服务
27+阅读 · 2024年7月1日
异质信息网络分析与应用综述,软件学报-北京邮电大学
基于多头注意力胶囊网络的文本分类模型
专知会员服务
79+阅读 · 2020年5月24日
综述 | 异质信息网络分析与应用综述
专知
27+阅读 · 2020年8月8日
命名实体识别新SOTA:改进Transformer模型
AI科技评论
17+阅读 · 2019年11月26日
PointNet系列论文解读
人工智能前沿讲习班
17+阅读 · 2019年5月3日
跨多个异构数据源的实体对齐
FCS
15+阅读 · 2019年3月13日
Seq2seq强化,Pointer Network简介
机器学习算法与Python学习
15+阅读 · 2018年12月8日
相关性≠因果:概率图模型和do-calculus
论智
31+阅读 · 2018年10月29日
告别曲线拟合:因果推断和do-Calculus简介
论智
24+阅读 · 2018年5月26日
基于神经网络的实体识别和关系抽取联合学习 | PaperWeekly #54
黑龙江大学自然语言处理实验室
19+阅读 · 2017年12月14日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
《在线影响力行动的社交网络策略分析》203页
专知会员服务
27+阅读 · 2024年7月1日
异质信息网络分析与应用综述,软件学报-北京邮电大学
基于多头注意力胶囊网络的文本分类模型
专知会员服务
79+阅读 · 2020年5月24日
相关资讯
综述 | 异质信息网络分析与应用综述
专知
27+阅读 · 2020年8月8日
命名实体识别新SOTA:改进Transformer模型
AI科技评论
17+阅读 · 2019年11月26日
PointNet系列论文解读
人工智能前沿讲习班
17+阅读 · 2019年5月3日
跨多个异构数据源的实体对齐
FCS
15+阅读 · 2019年3月13日
Seq2seq强化,Pointer Network简介
机器学习算法与Python学习
15+阅读 · 2018年12月8日
相关性≠因果:概率图模型和do-calculus
论智
31+阅读 · 2018年10月29日
告别曲线拟合:因果推断和do-Calculus简介
论智
24+阅读 · 2018年5月26日
基于神经网络的实体识别和关系抽取联合学习 | PaperWeekly #54
黑龙江大学自然语言处理实验室
19+阅读 · 2017年12月14日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员