This article develops limit laws for network sampling based estimates of subgraph counts and clustering coefficient of a large population network, and uses them for predictive inference. A model based approach is used, where the population network is assumed to be generated from a sparse Stochastic Block Model (SBM). To quantify the effects of node sampling under resource constraints, a sparse Bernoulli node sampling scheme is introduced, where the node selection probability decays to zero as the population size increases. Both induced and ego-centric network formation approaches are explored. Quantitative bounds on the speed of normal approximation for estimated subgraph counts are obtained in a joint model and design based asymptotic framework. These bounds show that inference accuracy depends on model sparsity, sampling sparsity, and features like edge density and minimum vertex cover size of the target subgraph. We find that the ego-centric approach can handle higher sparsity levels in both the model and sampling scheme, compared to the induced approach. We also show that if model sparsity remains below a threshold, inference quality is unaffected; beyond it, the quality degrades rapidly. The sufficient conditions for obtaining a Gaussian limit law also turn out to be necessary. For strictly balanced target subgraphs, we obtain sharp transitions from Gaussian to Poisson based limit laws, as sparsity levels increase. A complete description of limit laws for estimated subgraph counts is given for the induced case, with a near-complete one for the ego-centric case. These results also yield Gaussian and Poisson limit laws for the estimated clustering coefficient. Simulations support the theory across sparsity levels, and the proposed methodology is applied to a real data set.


翻译:本文建立了基于网络抽样的大规模总体网络子图计数与聚类系数估计量的极限分布理论,并用于预测性推断。采用基于模型的方法,假设总体网络由稀疏随机块模型生成。为量化资源约束下节点抽样的影响,引入稀疏伯努利节点抽样方案,其中节点选择概率随总体规模增大而衰减至零。探索了诱导式与自我中心式两种网络构建方法。在联合模型与设计的渐近框架下,获得到子图计数估计量的正态逼近速度的定量界。这些界表明推断精度取决于模型稀疏性、抽样稀疏性以及目标子图的边密度和最小顶点覆盖规模等特征。研究发现,与诱导式方法相比,自我中心式方法可处理更高的模型与抽样稀疏水平。此外,当模型稀疏性低于阈值时,推断质量不受影响;超过阈值后,质量急剧下降。高斯极限分布成立的充分条件同时被证明为必要条件。对于严格平衡的目标子图,随稀疏性增加,极限分布从高斯分布到泊松分布呈现剧烈转变。针对诱导式情形给出了子图计数估计量的极限分布的完整描述,而对自我中心式情形则给出了近乎完整的描述。这些结果也推导出聚类系数估计量的高斯与泊松极限分布。模拟实验验证了跨稀疏性水平的理论有效性,并将所提出的方法应用于实际数据集。

0
下载
关闭预览

相关内容

专知会员服务
52+阅读 · 2020年12月10日
和积网络综述论文,Sum-product networks: A survey,24页pdf
专知会员服务
24+阅读 · 2020年4月3日
基于图神经网络的推荐算法总结
机器学习与推荐算法
25+阅读 · 2021年9月30日
基于图神经网络的聚类研究与应用
THU数据派
10+阅读 · 2020年5月29日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
稀疏性的3个优势 -《稀疏统计学习及其应用》
遇见数学
15+阅读 · 2018年10月24日
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Arxiv
0+阅读 · 5月12日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
0+阅读 · 14分钟前
综述 | 世界动作模型:少做梦,多行动
专知会员服务
0+阅读 · 16分钟前
美以伊冲突:无人机与人工智能的运用
专知会员服务
1+阅读 · 28分钟前
《特种部队在透明战场中的生存力》最新报告
专知会员服务
1+阅读 · 48分钟前
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关资讯
基于图神经网络的推荐算法总结
机器学习与推荐算法
25+阅读 · 2021年9月30日
基于图神经网络的聚类研究与应用
THU数据派
10+阅读 · 2020年5月29日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
稀疏性的3个优势 -《稀疏统计学习及其应用》
遇见数学
15+阅读 · 2018年10月24日
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员