High-dimensional discrete data arise in many contemporary applications, including genomics, microbiome research, survey studies, and digital behavioral analysis. Clustering such data remains challenging because existing methods are often computationally demanding, sensitive to sparsity and discreteness, or designed for specific data types. We propose a deterministic dimension-reduction framework for clustering high-dimensional discrete observations. The method compresses each observation into a low-dimensional continuous representation through weighted sums defined by a scaled positional encoding, yielding a numerically stable transformation applicable to binary, categorical, and count-valued data. We establish several theoretical properties of the proposed compression. The mapping is injective, ensuring that distinct observations remain distinct after compression. Under mild regularity conditions, the compressed variables admit an approximate Gaussian representation, providing a theoretical basis for model-based clustering in the compressed space. We further show that separation between cluster centroids is preserved under compression, implying that location-driven cluster structure remains identifiable after dimension reduction. Extensive simulation studies demonstrate accurate cluster recovery across a wide range of realistic settings. The proposed approach is also computationally efficient, providing substantial speed improvements over commonly used dimension-reduction techniques often used in conjunction with clustering. Applications to Irish baby-name records and microbiome data further illustrate its practical utility. The proposed framework offers a scalable, computationally efficient, and broadly applicable approach to clustering high-dimensional discrete data.


翻译:高维离散数据广泛出现在基因组学、微生物组研究、调查研究及数字行为分析等当代应用中。对此类数据进行聚类仍具有挑战性,因为现有方法往往计算成本高、对稀疏性和离散性敏感,或针对特定数据类型设计。我们提出一种用于高维离散观测聚类的确定性降维框架。该方法通过可缩放位置编码定义的加权和,将每个观测压缩为低维连续表示,生成适用于二值、分类及计数型数据的数值稳定变换。我们建立了所提压缩方法的若干理论性质:该映射为单射,确保不同观测在压缩后仍保持区分性;在温和正则性条件下,压缩变量近似服从高斯分布,这为在压缩空间中进行基于模型的聚类提供了理论基础。我们进一步证明压缩过程保持聚类中心之间的分离度,意味着基于位置驱动的聚类结构在降维后仍可识别。广泛的仿真研究表明,该方法在多种现实场景下均能准确恢复聚类结构。所提方法计算高效,相较于常用于聚类配合的降维技术,能实现显著的加速效果。针对爱尔兰婴儿姓名记录及微生物组数据的应用进一步验证了其实用价值。该框架为高维离散数据聚类提供了一种可扩展、计算高效且广泛适用的解决方案。

0
下载
关闭预览

相关内容

ICLR 2026 | DataMind: 构建通用数据分析智能体
专知会员服务
15+阅读 · 3月29日
《2021—2022中国大数据产业发展报告》
专知
13+阅读 · 2022年1月23日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
【资源】史上最全数据集汇总
七月在线实验室
18+阅读 · 2018年4月24日
讲透RCNN, Fast-RCNN, Faster-RCNN,将CNN用于目标检测
数据挖掘入门与实战
18+阅读 · 2018年4月20日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月10日
Arxiv
95+阅读 · 2022年8月2日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
10+阅读 · 6月15日
相关VIP内容
ICLR 2026 | DataMind: 构建通用数据分析智能体
专知会员服务
15+阅读 · 3月29日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员