Clustering is a fundamental tool that has garnered significant interest across a wide range of applications including text analysis. To improve clustering accuracy, many researchers have incorporated background knowledge, typically in the form of must-link and cannot-link constraints, to guide the clustering process. With the recent advent of large language models (LLMs), there is growing interest in improving clustering quality through LLM-based automatic constraint generation. In this paper, we propose a novel constraint-generation approach that reduces resource consumption by generating constraint sets rather than using traditional pairwise constraints. This approach improves both query efficiency and constraint accuracy compared to state-of-the-art methods. We further introduce a constrained clustering algorithm tailored to the characteristics of LLM-generated constraints. Our method incorporates a confidence threshold and a penalty mechanism to address potentially inaccurate constraints. We evaluate our approach on five text datasets, considering both the cost of constraint generation and the overall clustering performance. The results show that our method achieves clustering accuracy comparable to the state-of-the-art algorithms while reducing the number of LLM queries by more than 20 times.


翻译:聚类是一种基础工具,在文本分析等广泛的应用领域中引起了极大关注。为提高聚类精度,许多研究者引入背景知识(通常以必须链接和禁止链接约束的形式)来指导聚类过程。随着大语言模型(LLMs)的最新发展,通过基于LLM的自动约束生成来提升聚类质量的研究日益增多。本文提出了一种新颖的约束生成方法,通过生成约束集而非使用传统的成对约束来降低资源消耗。与现有先进方法相比,该方法在查询效率和约束准确性方面均有提升。我们进一步提出了一种针对LLM生成约束特性设计的约束聚类算法。该方法通过引入置信度阈值和惩罚机制来处理可能不准确的约束。我们在五个文本数据集上评估了所提方法,综合考虑了约束生成成本和整体聚类性能。实验结果表明,我们的方法在实现与先进算法相当的聚类精度的同时,将LLM查询次数降低了20倍以上。

0
下载
关闭预览

相关内容

揭示生成式人工智能 / 大型语言模型(LLMs)的军事潜力
专知会员服务
31+阅读 · 2024年9月26日
基于内在质量约束的文本生成和评价综述
专知会员服务
19+阅读 · 2024年6月9日
如何检测LLM内容?UCSB等最新首篇《LLM生成内容检测》综述
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
强化学习与文本生成
微信AI
41+阅读 · 2019年4月4日
深度学习文本分类方法综述(代码)
中国人工智能学会
28+阅读 · 2018年6月16日
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
深度学习在文本分类中的应用
AI研习社
13+阅读 · 2018年1月7日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
VIP会员
相关资讯
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
强化学习与文本生成
微信AI
41+阅读 · 2019年4月4日
深度学习文本分类方法综述(代码)
中国人工智能学会
28+阅读 · 2018年6月16日
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
深度学习在文本分类中的应用
AI研习社
13+阅读 · 2018年1月7日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员