Numerical interactions leading to users sharing textual content published by others are naturally represented by a network where the individuals are associated with the nodes and the exchanged texts with the edges. To understand those heterogeneous and complex data structures, clustering nodes into homogeneous groups as well as rendering a comprehensible visualisation of the data is mandatory. To address both issues, we introduce Deep-LPTM, a model-based clustering strategy relying on a variational graph auto-encoder approach as well as a probabilistic model to characterise the topics of discussion. Deep-LPTM allows to build a joint representation of the nodes and of the edges in two embeddings spaces. The parameters are inferred using a variational inference algorithm. We also introduce IC2L, a model selection criterion specifically designed to choose models with relevant clustering and visualisation properties. An extensive benchmark study on synthetic data is provided. In particular, we find that Deep-LPTM better recovers the partitions of the nodes than the state-of-the art ETSBM and STBM. Eventually, the emails of the Enron company are analysed and visualisations of the results are presented, with meaningful highlights of the graph structure.


翻译:数值交互导致用户分享他人发布的文本内容,这类交互自然地被表示为一个网络,其中个体对应节点,交换的文本对应边。为了理解这些异质且复杂的数据结构,将节点聚类为同质组以及生成数据可理解的直观可视化是必要的。为解决这两个问题,我们提出了Deep-LPTM,这是一种基于模型的聚类策略,它结合了变分图自编码器方法以及用于表征讨论主题的概率模型。Deep-LPTM能够在两个嵌入空间中对节点和边构建联合表示。其参数通过变分推断算法进行估计。我们还引入了IC2L,这是一种专门设计的模型选择准则,用于选取具有良好聚类和可视化性质的模型。基于合成数据进行了广泛的基准研究。特别地,我们发现Deep-LPTM在恢复节点划分方面优于现有最优的ETSBM和STBM。最后,分析了安然公司的电子邮件并展示了结果的可视化,其中突出了图结构的有意义特征。

0
下载
关闭预览

相关内容

主题模型,顾名思义,就是对文字中隐含主题的一种建模方法。“苹果”这个词的背后既包含是苹果公司这样一个主题,也包括了水果的主题。   在这里,我们先定义一下主题究竟是什么。主题就是一个概念、一个方面。它表现为一系列相关的词语。比如一个文章如果涉及到“百度”这个主题,那么“中文搜索”、“李彦宏”等词语就会以较高的频率出现,而如果涉及到“IBM”这个主题,那么“笔记本”等就会出现的很频繁。如果用数学来描述一下的话,主题就是词汇表上词语的条件概率分布 。与主题关系越密切的词语,它的条件概率越大,反之则越小。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
SIGIR2022|基于注意力超图网络的交互协同聚类
专知会员服务
25+阅读 · 2022年5月14日
专知会员服务
45+阅读 · 2020年12月18日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
最新10篇对比学习推荐前沿工作
机器学习与推荐算法
2+阅读 · 2022年9月14日
征稿 | International Joint Conference on Knowledge Graphs (IJCKG)
开放知识图谱
2+阅读 · 2022年5月20日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
4+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年6月1日
Arxiv
0+阅读 · 2023年6月1日
Arxiv
18+阅读 · 2022年11月21日
Arxiv
23+阅读 · 2022年2月24日
Arxiv
33+阅读 · 2021年3月8日
Arxiv
35+阅读 · 2020年1月2日
Arxiv
27+阅读 · 2018年4月12日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关论文
Arxiv
0+阅读 · 2023年6月1日
Arxiv
0+阅读 · 2023年6月1日
Arxiv
18+阅读 · 2022年11月21日
Arxiv
23+阅读 · 2022年2月24日
Arxiv
33+阅读 · 2021年3月8日
Arxiv
35+阅读 · 2020年1月2日
Arxiv
27+阅读 · 2018年4月12日
相关基金
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
4+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员