Community detection is a fundamental task in data analysis. Block models form a standard approach to partition nodes according to a graph model, facilitating the analysis and interpretation of the network structure. By grouping nodes with similar connection patterns, they enable the identification of a wide variety of underlying structures. The degree-corrected block model (DCBM) is an established model that accounts for the heterogeneity of node degrees. However, existing inference methods for the DCBM are heuristics that are highly sensitive to initialization, typically done randomly. In this work, we show that DCBM inference can be reformulated as a constrained nonnegative matrix factorization problem. Leveraging this insight, we propose a novel method for community detection and a theoretically well-grounded initialization strategy that provides an initial estimate of communities for inference algorithms. Our approach is agnostic to any specific network structure and applies to graphs with any structure representable by a DCBM, not only assortative ones. Experiments on synthetic and real benchmark networks show that our method detects communities comparable to those found by DCBM inference, while scaling linearly with the number of edges and communities; for instance, it processes a graph with 100,000 nodes and 2,000,000 edges in approximately 4 minutes. Moreover, the proposed initialization strategy significantly improves solution quality and reduces the number of iterations required by all tested inference algorithms. Overall, this work provides a scalable and robust framework for community detection and highlights the benefits of a matrix-factorization perspective for the DCBM.


翻译:社区检测是数据分析中的一项基础任务。块模型作为依据图模型划分节点的标准方法,有助于网络结构的分析与解释。通过将具有相似连接模式的节点分组,该方法能够识别多种潜在结构。度修正块模型(DCBM)是一种成熟的模型,能够解释节点度的异质性。然而,现有的DCBM推断方法多为启发式算法,对初始化(通常随机进行)高度敏感。本研究表明,DCBM推断可重新表述为约束非负矩阵分解问题。基于这一洞见,我们提出了一种新颖的社区检测方法,以及一种理论依据充分的初始化策略,该策略可为推断算法提供社区结构的初始估计。我们的方法不依赖于任何特定网络结构,适用于所有可由DCBM表示的图结构,而不仅限于同配性网络。在合成与真实基准网络上的实验表明,本方法检测到的社区与DCBM推断结果相当,同时计算复杂度随边数和社区数呈线性增长;例如,处理包含100,000个节点和2,000,000条边的图仅需约4分钟。此外,所提出的初始化策略显著提升了所有测试推断算法的解质量,并减少了所需迭代次数。总体而言,本研究为社区检测提供了可扩展且稳健的框架,并揭示了矩阵分解视角对DCBM分析的重要价值。

0
下载
关闭预览

相关内容

国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员