Neighborhood graphs are a critical but often fragile step in spectral clustering of text embeddings. On realistic text datasets, standard $k$-NN graphs can contain many disconnected components at practical sparsity levels (small $k$), making spectral clustering degenerate and sensitive to hyperparameters. We introduce a simple incremental $k$-NN graph construction that preserves connectivity by design: each new node is linked to its $k$ nearest previously inserted nodes, which guarantees a connected graph for any $k$. We provide an inductive proof of connectedness and discuss implications for incremental updates when new documents arrive. We validate the approach on spectral clustering of SentenceTransformer embeddings using Laplacian eigenmaps across six clustering datasets from the Massive Text Embedding Benchmark.Compared to standard $k$-NN graphs, our method outperforms in the low-$k$ regime where disconnected components are prevalent, and matches standard $k$-NN at larger $k$.


翻译:邻域图是文本嵌入谱聚类中关键但往往脆弱的一步。在真实文本数据集上,标准的$k$-NN图在实际稀疏度水平(较小的$k$)下可能包含许多不连通分量,导致谱聚类退化并对超参数敏感。我们提出一种简单的增量$k$-NN图构建方法,该方法通过设计保持连通性:每个新节点会连接到其$k$个最近邻的已插入节点,这保证了任意$k$值下的连通图。我们提供了连通性的归纳证明,并讨论了新文档到达时增量更新的意义。我们在Massive Text Embedding Benchmark的六个聚类数据集上,使用SentenceTransformer嵌入和拉普拉斯特征映射进行谱聚类验证。与标准$k$-NN图相比,我们的方法在不连通分量普遍存在的低$k$区域表现更优,并在较大$k$值时与标准$k$-NN图性能相当。

0
下载
关闭预览

相关内容

谱聚类与图结构学习的全面综述
专知会员服务
19+阅读 · 2025年1月25日
【NeurIPS2020】可靠图神经网络鲁棒聚合
专知会员服务
20+阅读 · 2020年11月6日
图节点嵌入(Node Embeddings)概述,9页pdf
专知会员服务
40+阅读 · 2020年8月22日
专知会员服务
43+阅读 · 2020年7月7日
图节点嵌入(Node Embeddings)概述,9页pdf
专知
15+阅读 · 2020年8月22日
【ICML2020】图神经网络谱聚类
专知
10+阅读 · 2020年7月7日
基于图神经网络的聚类研究与应用
THU数据派
10+阅读 · 2020年5月29日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
“推荐系统”加上“图神经网络”
机器学习与推荐算法
12+阅读 · 2020年3月23日
图嵌入(Graph embedding)综述
人工智能前沿讲习班
449+阅读 · 2019年4月30日
图分类:结合胶囊网络Capsule和图卷积GCN(附代码)
中国人工智能学会
36+阅读 · 2019年2月26日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月9日
VIP会员
最新内容
Palantir AIP平台:连接智能体与决策
专知会员服务
1+阅读 · 54分钟前
《美海军软件测试战略》90页slides
专知会员服务
2+阅读 · 今天1:00
面向具身智能与机器人仿真的三维生成:综述
专知会员服务
1+阅读 · 4月30日
相关资讯
图节点嵌入(Node Embeddings)概述,9页pdf
专知
15+阅读 · 2020年8月22日
【ICML2020】图神经网络谱聚类
专知
10+阅读 · 2020年7月7日
基于图神经网络的聚类研究与应用
THU数据派
10+阅读 · 2020年5月29日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
“推荐系统”加上“图神经网络”
机器学习与推荐算法
12+阅读 · 2020年3月23日
图嵌入(Graph embedding)综述
人工智能前沿讲习班
449+阅读 · 2019年4月30日
图分类:结合胶囊网络Capsule和图卷积GCN(附代码)
中国人工智能学会
36+阅读 · 2019年2月26日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员