Incremental Graph Construction Enables Robust Spectral Clustering of Texts - 专知论文

会员服务 ·

0

构建 · 鲁棒 · 嵌入 · 连通性 · 数据集 ·

Incremental Graph Construction Enables Robust Spectral Clustering of Texts

翻译：增量图构建实现文本谱聚类的鲁棒性

Marko Pranjić,Boshko Koloski,Nada Lavrač,Senja Pollak,Marko Robnik-Šikonja

from arxiv, MP and BK contributed equally

Neighborhood graphs are a critical but often fragile step in spectral clustering of text embeddings. On realistic text datasets, standard $k$-NN graphs can contain many disconnected components at practical sparsity levels (small $k$), making spectral clustering degenerate and sensitive to hyperparameters. We introduce a simple incremental $k$-NN graph construction that preserves connectivity by design: each new node is linked to its $k$ nearest previously inserted nodes, which guarantees a connected graph for any $k$. We provide an inductive proof of connectedness and discuss implications for incremental updates when new documents arrive. We validate the approach on spectral clustering of SentenceTransformer embeddings using Laplacian eigenmaps across six clustering datasets from the Massive Text Embedding Benchmark.Compared to standard $k$-NN graphs, our method outperforms in the low-$k$ regime where disconnected components are prevalent, and matches standard $k$-NN at larger $k$.

翻译：邻域图是文本嵌入谱聚类中关键但往往脆弱的一步。在真实文本数据集上，标准的$k$-NN图在实际稀疏度水平（较小的$k$）下可能包含许多不连通分量，导致谱聚类退化并对超参数敏感。我们提出一种简单的增量$k$-NN图构建方法，该方法通过设计保持连通性：每个新节点会连接到其$k$个最近邻的已插入节点，这保证了任意$k$值下的连通图。我们提供了连通性的归纳证明，并讨论了新文档到达时增量更新的意义。我们在Massive Text Embedding Benchmark的六个聚类数据集上，使用SentenceTransformer嵌入和拉普拉斯特征映射进行谱聚类验证。与标准$k$-NN图相比，我们的方法在不连通分量普遍存在的低$k$区域表现更优，并在较大$k$值时与标准$k$-NN图性能相当。

0

相关内容

谱聚类与图结构学习的全面综述

谱聚类与图结构学习的全面综述

专知会员服务

19+阅读 · 2025年1月25日

【AAAI2024】异质图上精炼潜在同质结构以增强图卷积网络的鲁棒性

【AAAI2024】异质图上精炼潜在同质结构以增强图卷积网络的鲁棒性

专知会员服务

21+阅读 · 2024年1月6日

图上聚类怎么做？国防科大等最新《深度图聚类》综述，13页pdf阐述深度图聚类分类、挑战与应用综述

图上聚类怎么做？国防科大等最新《深度图聚类》综述，13页pdf阐述深度图聚类分类、挑战与应用综述

专知会员服务

43+阅读 · 2022年11月25日

自动化所首篇「深度图结构学习鲁棒表示」简明综述论文

自动化所首篇「深度图结构学习鲁棒表示」简明综述论文

专知会员服务

26+阅读 · 2021年3月7日

【NeurIPS2020】可靠图神经网络鲁棒聚合

【NeurIPS2020】可靠图神经网络鲁棒聚合

专知会员服务

20+阅读 · 2020年11月6日

图节点嵌入(Node Embeddings)概述，9页pdf

图节点嵌入(Node Embeddings)概述，9页pdf

专知会员服务

40+阅读 · 2020年8月22日

最新《图神经网络知识图谱补全综述论文》A Survey on Graph Neural Networks for Knowledge Graph Completion

最新《图神经网络知识图谱补全综述论文》A Survey on Graph Neural Networks for Knowledge Graph Completion

专知会员服务

137+阅读 · 2020年7月29日

【ICML2020】图神经网络谱聚类

专知会员服务

43+阅读 · 2020年7月7日

【NLP| 推荐文章】用图递归网络解决图的NLP问题（Tackling Graphical NLP problems with Graph Recurrent Networks）

【NLP| 推荐文章】用图递归网络解决图的NLP问题（Tackling Graphical NLP problems with Graph Recurrent Networks）

专知会员服务

33+阅读 · 2019年11月24日

【CIKM 2019论文】哈希图卷积在节点分类中的应用（Hashing Graph Convolution for Node Classification），崔振

【CIKM 2019论文】哈希图卷积在节点分类中的应用（Hashing Graph Convolution for Node Classification），崔振

专知会员服务

24+阅读 · 2019年11月20日

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

专知

55+阅读 · 2023年4月13日

图节点嵌入(Node Embeddings)概述，9页pdf

图节点嵌入(Node Embeddings)概述，9页pdf

专知

15+阅读 · 2020年8月22日

【ICML2020】图神经网络谱聚类

【ICML2020】图神经网络谱聚类

专知

10+阅读 · 2020年7月7日

基于图神经网络的聚类研究与应用

基于图神经网络的聚类研究与应用

THU数据派

10+阅读 · 2020年5月29日

图机器学习 2.2-2.4 Properties of Networks, Random Graph

图机器学习 2.2-2.4 Properties of Networks, Random Graph

图与推荐

10+阅读 · 2020年3月28日

“推荐系统”加上“图神经网络”

“推荐系统”加上“图神经网络”

机器学习与推荐算法

12+阅读 · 2020年3月23日

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

专知

31+阅读 · 2020年2月19日

图嵌入（Graph embedding）综述

图嵌入（Graph embedding）综述

人工智能前沿讲习班

449+阅读 · 2019年4月30日

图分类：结合胶囊网络Capsule和图卷积GCN（附代码）

图分类：结合胶囊网络Capsule和图卷积GCN（附代码）

中国人工智能学会

36+阅读 · 2019年2月26日

【GitHub项目推荐】文本分类最好的几个深度学习方法 TensorFlow 实践

【GitHub项目推荐】文本分类最好的几个深度学习方法 TensorFlow 实践

专知

39+阅读 · 2018年11月27日

图的距离矩阵的惯性及极端负特征值的研究

国家自然科学基金

0+阅读 · 2015年12月31日

图的弦性计算

国家自然科学基金

0+阅读 · 2015年12月31日

面向光谱-空间特征集合的高光谱遥感影像度量学习与分类研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异构信息网络中实体归类的模糊聚类

国家自然科学基金

1+阅读 · 2015年12月31日

具有簇间分离特性的簇中心平面和子空间聚类方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向多源大数据的鲁棒聚类模型与算法研究

国家自然科学基金

6+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

面向地图综合的多尺度空间聚类理论与方法

国家自然科学基金

1+阅读 · 2014年12月31日

基于结构图论的一般图嵌入分布的研究

国家自然科学基金

4+阅读 · 2014年12月31日

图谱理论的研究及其在复杂网络中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

Beyond Explicit Edges: Robust Reasoning over Noisy and Sparse Knowledge Graphs

Arxiv

0+阅读 · 3月14日

Constrained graph generation: Preserving diameter and clustering coefficient simultaneously

Arxiv

0+阅读 · 2月23日

Fast Tuning the Index Construction Parameters of Proximity Graphs in Vector Databases

Arxiv

0+阅读 · 2月17日

ImageRAGTurbo: Towards One-step Text-to-Image Generation with Retrieval-Augmented Diffusion Models

Arxiv

0+阅读 · 2月13日

Differentiable Tripartite Modularity for Clustering Heterogeneous Graphs

Arxiv

0+阅读 · 2月10日

Delving into Spectral Clustering with Vision-Language Representations

Arxiv

0+阅读 · 2月10日

Incremental (k, z)-Clustering on Graphs

Arxiv

0+阅读 · 2月9日

Energy Guided smoothness to improve Robustness in Graph Classification

Arxiv

0+阅读 · 2月5日

ASIL: Augmented Structural Information Learning for Deep Graph Clustering in Hyperbolic Space

Arxiv

0+阅读 · 2月2日

Quantum algorithms through graph composition

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

Palantir AIP平台：连接智能体与决策

Palantir AIP平台：连接智能体与决策

专知会员服务

1+阅读 · 54分钟前

《应急响应数字孪生：整合增强现实与实时位置数据的模拟辅助决策》技术报告

《应急响应数字孪生：整合增强现实与实时位置数据的模拟辅助决策》技术报告

专知会员服务

1+阅读 · 59分钟前

《通用基于模型的系统工程交会与接近操作任务规划器》130页

《通用基于模型的系统工程交会与接近操作任务规划器》130页

专知会员服务

1+阅读 · 今天1:12

对ARL-TR-9623报告《人机自主协同团队信任工具包（HAT³）软件开发文档与用户指南》的增补材料

对ARL-TR-9623报告《人机自主协同团队信任工具包（HAT³）软件开发文档与用户指南》的增补材料

专知会员服务

0+阅读 · 今天1:11

《美海军软件测试战略》90页slides

《美海军软件测试战略》90页slides

专知会员服务

2+阅读 · 今天1:00

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

专知会员服务

2+阅读 · 4月30日

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

专知会员服务

1+阅读 · 4月30日

面向具身智能与机器人仿真的三维生成：综述

面向具身智能与机器人仿真的三维生成：综述

专知会员服务

1+阅读 · 4月30日

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

专知会员服务

14+阅读 · 4月30日

《人工智能在全球军事与武器工业中的应用、方法论与影响》

《人工智能在全球军事与武器工业中的应用、方法论与影响》

专知会员服务

6+阅读 · 4月30日

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

专知会员服务

11+阅读 · 4月30日

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

专知会员服务

7+阅读 · 4月30日

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

6+阅读 · 4月29日

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

专知会员服务

7+阅读 · 4月29日

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

专知会员服务

6+阅读 · 4月29日

相关VIP内容

谱聚类与图结构学习的全面综述

谱聚类与图结构学习的全面综述

专知会员服务

19+阅读 · 2025年1月25日

【AAAI2024】异质图上精炼潜在同质结构以增强图卷积网络的鲁棒性

【AAAI2024】异质图上精炼潜在同质结构以增强图卷积网络的鲁棒性

专知会员服务

21+阅读 · 2024年1月6日

图上聚类怎么做？国防科大等最新《深度图聚类》综述，13页pdf阐述深度图聚类分类、挑战与应用综述

图上聚类怎么做？国防科大等最新《深度图聚类》综述，13页pdf阐述深度图聚类分类、挑战与应用综述

专知会员服务

43+阅读 · 2022年11月25日

自动化所首篇「深度图结构学习鲁棒表示」简明综述论文

自动化所首篇「深度图结构学习鲁棒表示」简明综述论文

专知会员服务

26+阅读 · 2021年3月7日

【NeurIPS2020】可靠图神经网络鲁棒聚合

【NeurIPS2020】可靠图神经网络鲁棒聚合

专知会员服务

20+阅读 · 2020年11月6日

图节点嵌入(Node Embeddings)概述，9页pdf

图节点嵌入(Node Embeddings)概述，9页pdf

专知会员服务

40+阅读 · 2020年8月22日

最新《图神经网络知识图谱补全综述论文》A Survey on Graph Neural Networks for Knowledge Graph Completion

最新《图神经网络知识图谱补全综述论文》A Survey on Graph Neural Networks for Knowledge Graph Completion

专知会员服务

137+阅读 · 2020年7月29日

【ICML2020】图神经网络谱聚类

专知会员服务

43+阅读 · 2020年7月7日

【NLP| 推荐文章】用图递归网络解决图的NLP问题（Tackling Graphical NLP problems with Graph Recurrent Networks）

【NLP| 推荐文章】用图递归网络解决图的NLP问题（Tackling Graphical NLP problems with Graph Recurrent Networks）

专知会员服务

33+阅读 · 2019年11月24日

【CIKM 2019论文】哈希图卷积在节点分类中的应用（Hashing Graph Convolution for Node Classification），崔振

【CIKM 2019论文】哈希图卷积在节点分类中的应用（Hashing Graph Convolution for Node Classification），崔振

专知会员服务

24+阅读 · 2019年11月20日

热门VIP内容

开通专知VIP会员享更多权益服务

《应急响应数字孪生：整合增强现实与实时位置数据的模拟辅助决策》技术报告

对ARL-TR-9623报告《人机自主协同团队信任工具包（HAT³）软件开发文档与用户指南》的增补材料

Palantir AIP平台：连接智能体与决策

《通用基于模型的系统工程交会与接近操作任务规划器》130页

相关资讯

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

专知

55+阅读 · 2023年4月13日

图节点嵌入(Node Embeddings)概述，9页pdf

图节点嵌入(Node Embeddings)概述，9页pdf

专知

15+阅读 · 2020年8月22日

【ICML2020】图神经网络谱聚类

【ICML2020】图神经网络谱聚类

专知

10+阅读 · 2020年7月7日

基于图神经网络的聚类研究与应用

基于图神经网络的聚类研究与应用

THU数据派

10+阅读 · 2020年5月29日

图机器学习 2.2-2.4 Properties of Networks, Random Graph

图机器学习 2.2-2.4 Properties of Networks, Random Graph

图与推荐

10+阅读 · 2020年3月28日

“推荐系统”加上“图神经网络”

“推荐系统”加上“图神经网络”

机器学习与推荐算法

12+阅读 · 2020年3月23日

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

专知

31+阅读 · 2020年2月19日

图嵌入（Graph embedding）综述

图嵌入（Graph embedding）综述

人工智能前沿讲习班

449+阅读 · 2019年4月30日

图分类：结合胶囊网络Capsule和图卷积GCN（附代码）

图分类：结合胶囊网络Capsule和图卷积GCN（附代码）

中国人工智能学会

36+阅读 · 2019年2月26日

【GitHub项目推荐】文本分类最好的几个深度学习方法 TensorFlow 实践

【GitHub项目推荐】文本分类最好的几个深度学习方法 TensorFlow 实践

专知

39+阅读 · 2018年11月27日

相关论文

Beyond Explicit Edges: Robust Reasoning over Noisy and Sparse Knowledge Graphs

Arxiv

0+阅读 · 3月14日

Constrained graph generation: Preserving diameter and clustering coefficient simultaneously

Arxiv

0+阅读 · 2月23日

Fast Tuning the Index Construction Parameters of Proximity Graphs in Vector Databases

Arxiv

0+阅读 · 2月17日

ImageRAGTurbo: Towards One-step Text-to-Image Generation with Retrieval-Augmented Diffusion Models

Arxiv

0+阅读 · 2月13日

Differentiable Tripartite Modularity for Clustering Heterogeneous Graphs

Arxiv

0+阅读 · 2月10日

Delving into Spectral Clustering with Vision-Language Representations

Arxiv

0+阅读 · 2月10日

Incremental (k, z)-Clustering on Graphs

Arxiv

0+阅读 · 2月9日

Energy Guided smoothness to improve Robustness in Graph Classification

Arxiv

0+阅读 · 2月5日

ASIL: Augmented Structural Information Learning for Deep Graph Clustering in Hyperbolic Space

Arxiv

0+阅读 · 2月2日

Quantum algorithms through graph composition

Arxiv

0+阅读 · 2月2日

相关基金

图的距离矩阵的惯性及极端负特征值的研究

国家自然科学基金

0+阅读 · 2015年12月31日

图的弦性计算

国家自然科学基金

0+阅读 · 2015年12月31日

面向光谱-空间特征集合的高光谱遥感影像度量学习与分类研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异构信息网络中实体归类的模糊聚类

国家自然科学基金

1+阅读 · 2015年12月31日

具有簇间分离特性的簇中心平面和子空间聚类方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向多源大数据的鲁棒聚类模型与算法研究

国家自然科学基金

6+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

面向地图综合的多尺度空间聚类理论与方法

国家自然科学基金

1+阅读 · 2014年12月31日

基于结构图论的一般图嵌入分布的研究

国家自然科学基金

4+阅读 · 2014年12月31日

图谱理论的研究及其在复杂网络中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员