Triangle counting is a fundamental problem in graph mining, essential for analyzing graph streams with arbitrary edge orders. However, exact counting becomes impractical due to the massive size of real-world graph streams. To address this, approximate algorithms have been developed, but existing distributed streaming algorithms lack adaptability and struggle with edge deletions. In this article, we propose DTC, a novel family of single-pass distributed streaming algorithms for global and local triangle counting in fully dynamic graph streams. Our DTC-AR algorithm accurately estimates triangle counts without prior knowledge of graph size, leveraging multi-machine resources. Additionally, we introduce DTC-FD, an algorithm tailored for fully dynamic graph streams, incorporating edge insertions and deletions. Using Random Pairing and future edge insertion compensation, DTC-FD achieves unbiased and accurate approximations across multiple machines. Experimental results demonstrate significant improvements over baselines. DTC-AR achieves up to $2029.4\times$ and $27.1\times$ more accuracy, while maintaining the best trade-off between accuracy and storage space. DTC-FD reduces estimation errors by up to $32.5\times$ and $19.3\times$, scaling linearly with graph stream size. These findings highlight the effectiveness of our proposed algorithms in tackling triangle counting in real-world scenarios. The source code and datasets are released and available at \href{https://github.com/wayne4s/srds-dtc.git}{https://github.com/wayne4s/srds-dtc.git}.


翻译:三角形计数是图挖掘中的基础问题,对于分析具有任意边序的图流至关重要。然而,由于现实世界图流的规模巨大,精确计数变得不切实际。为解决这一问题,近似算法已被开发出来,但现有的分布式流式算法缺乏适应性,且难以处理边删除操作。本文提出DTC,一个用于全动态图流中全局与局部三角形计数的新型单遍分布式流式算法家族。我们的DTC-AR算法无需预知图规模,利用多机资源精确估计三角形数量。此外,我们提出了专为全动态图流设计的DTC-FD算法,该算法融合了边插入与删除操作。通过随机配对与未来边插入补偿技术,DTC-FD在多个机器上实现了无偏且精确的近似估计。实验结果表明,相较于基线方法,本算法取得显著改进:DTC-AR的精确度最高提升达$2029.4\times$和$27.1\times$,同时在精确度与存储空间之间保持最佳平衡;DTC-FD将估计误差降低达$32.5\times$和$19.3\times$,且其计算规模随图流大小线性扩展。这些发现凸显了所提算法在处理现实场景中三角形计数问题的有效性。源代码与数据集已发布于\href{https://github.com/wayne4s/srds-dtc.git}{https://github.com/wayne4s/srds-dtc.git}。

0
下载
关闭预览

相关内容

面向实时视频流分析的边缘计算技术
专知会员服务
79+阅读 · 2022年6月5日
面试题:请简要介绍下tensorflow的计算图
七月在线实验室
14+阅读 · 2019年6月10日
讲透RCNN, Fast-RCNN, Faster-RCNN,将CNN用于目标检测
数据挖掘入门与实战
18+阅读 · 2018年4月20日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月31日
VIP会员
相关VIP内容
面向实时视频流分析的边缘计算技术
专知会员服务
79+阅读 · 2022年6月5日
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员