Community detection seeks to recover mesoscopic structure from network data that may be binary, count-valued, signed, directed, weighted, or multilayer. The stochastic block model (SBM) explains such structure by positing a latent partition of nodes and block-specific edge distributions. In Bayesian SBMs, standard MCMC alternates between updating the partition and sampling block parameters, which can hinder mixing and complicate principled comparison across different partitions and numbers of communities. We develop a collapsed Bayesian SBM framework in which block-specific nuisance parameters are analytically integrated out under conjugate priors, so the marginal likelihood p(Y|z) depends only on the partition z and blockwise sufficient statistics. This yields fast local Gibbs/Metropolis updates based on ratios of closed-form integrated likelihoods and provides evidence-based complexity control that discourages gratuitous over-partitioning. We derive exact collapsed marginals for the most common SBM edge types-Beta-Bernoulli (binary), Gamma-Poisson (counts), and Normal-Inverse-Gamma (Gaussian weights)-and we extend collapsing to gap-constrained SBMs via truncated conjugate priors that enforce explicit upper bounds on between-community connectivity. We further show that the same collapsed strategy supports directed SBMs that model reciprocity through dyad states, signed SBMs via categorical block models, and multiplex SBMs where multiple layers contribute additive evidence for a shared partition. Across synthetic benchmarks and real networks (including email communication, hospital contact counts, and citation graphs), collapsed inference produces accurate partitions and interpretable posterior block summaries of within- and between-community interaction strengths while remaining computationally simple and modular.


翻译:社区检测旨在从网络数据中恢复介观结构,这些数据可以是二元的、计数的、带符号的、有向的、加权的或多层的。随机块模型(SBM)通过假设节点的潜在划分和块特定的边分布来解释这种结构。在贝叶斯SBM中,标准的马尔可夫链蒙特卡罗方法交替更新节点划分和采样块参数,这可能会阻碍混合过程,并使在不同划分和社区数量之间进行原则性比较变得复杂。我们开发了一个坍缩贝叶斯SBM框架,其中块特定的冗余参数在共轭先验下被解析地积分掉,因此边际似然p(Y|z)仅依赖于划分z和块级充分统计量。这产生了基于闭式积分似然比率的快速局部吉布斯/梅特罗波利斯更新,并提供了基于证据的复杂度控制,从而抑制不必要的过度划分。我们推导了最常见SBM边类型的精确坍缩边际分布——Beta-Bernoulli(二元)、Gamma-Poisson(计数)和Normal-Inverse-Gamma(高斯权重)——并通过截断共轭先验将坍缩扩展到间隙约束SBM,该先验强制社区间连通性的明确上界。我们进一步表明,相同的坍缩策略支持通过二元组状态建模互惠性的有向SBM、通过分类块模型的带符号SBM,以及多层SBM,其中多个层为共享划分提供加性证据。在合成基准和真实网络(包括电子邮件通信、医院接触计数和引文图)上,坍缩推断产生了准确的划分和可解释的后验块摘要,总结了社区内和社区间的交互强度,同时保持了计算上的简单性和模块化。

0
下载
关闭预览

相关内容

【ICLR2022】GNN-LM基于全局信息的图神经网络语义理解模型
专知会员服务
36+阅读 · 2021年8月17日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员