Two-stage Ensemble Clustering of Functional Data Using Random Projections - 专知论文

会员服务 ·

0

簇 · 泛函 · Projection · 集成 · SimPLe ·

Two-stage Ensemble Clustering of Functional Data Using Random Projections

翻译：使用随机投影的两阶段函数型数据集成聚类

Sourav Chakrabarty,Anirvan Chakraborty,Shyamal K. De

from arxiv, 32 pages, 6 figures, 7 tables

We propose a computationally simple framework for clustering functional data based on Gaussian-process-generated random projections. In this approach, each curve is first projected onto a large collection of independent Gaussian process realizations. The resulting high-dimensional representations are clustered using the Mean Absolute Difference of Distances (MADD), a dissimilarity measure well suited for high-dimensional settings. A population-level analysis of this dissimilarity provides insight into how random projections help capture distributional differences between functional populations. We introduce a second stage of clustering to additionally leverage on data-driven projection directions. Thus, in Stage I, an initial clustering is obtained using a set of prespecified projection families. In Stage II, this partition is refined by constructing Gaussian random projections based on an estimated covariance operator that uses the first stage of cluster labels. Finally, a normalized cost function is used to select the optimal clustering among candidate solutions. The proposed clustering algorithm is broadly applicable to diverse functional data regimes including irregular and partially observed data. Through extensive simulations and real-data applications, we show that the proposed method achieves a high degree of accuracy and outperforms many of the state-of-the-art methods across a wide range of functional data settings.

翻译：我们提出一种基于高斯过程生成随机投影的函数型数据聚类计算框架。该方法首先将每条曲线投影至大量独立高斯过程实现上，随后采用适用于高维场景的相异度度量——平均绝对距离差（MADD）对所得高维表征进行聚类。对该相异度的总体层面分析揭示了随机投影如何帮助捕获函数总体间的分布差异。为进一步利用数据驱动的投影方向，我们引入第二聚类阶段：在第一阶段，通过预设投影族获得初始聚类结果；第二阶段则基于第一阶段聚类标签构建估计协方差算子，据此构造高斯随机投影以优化聚类划分。最终采用归一化代价函数从候选解中选取最优聚类方案。所提出的聚类算法广泛适用于包括非规则观测和不完全观测在内的各类函数型数据场景。通过大量模拟实验与真实数据应用，我们证明该方法能实现高精度聚类，并在多种函数型数据环境下优于诸多前沿方法。

0

相关内容

【博士论文】随机逼近在黎曼流形和度量空间上的应用，257页pdf

【博士论文】随机逼近在黎曼流形和度量空间上的应用，257页pdf

专知会员服务

35+阅读 · 2024年10月15日

【博士论文】无监督深度图聚类中的自适应表示学习，144页pdf

【博士论文】无监督深度图聚类中的自适应表示学习，144页pdf

专知会员服务

43+阅读 · 2023年10月21日

去噪扩散概率模型，46页ppt

去噪扩散概率模型，46页ppt

专知会员服务

63+阅读 · 2023年1月4日

扩散模型数学太难？经典扩散模型DDPM手把手Pytorch代码实现，对照数学公式详解

扩散模型数学太难？经典扩散模型DDPM手把手Pytorch代码实现，对照数学公式详解

专知会员服务

124+阅读 · 2022年9月8日

美国空军技术学院博士论文《用于气象聚类和预测的深度学习》

美国空军技术学院博士论文《用于气象聚类和预测的深度学习》

专知会员服务

55+阅读 · 2022年4月17日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知会员服务

78+阅读 · 2021年1月30日

【伯克利】自回归模型的局部掩卷积，Locally Masked Convolution for Autoregressive Models

【伯克利】自回归模型的局部掩卷积，Locally Masked Convolution for Autoregressive Models

专知会员服务

20+阅读 · 2020年6月23日

【KDD2020】CAST:一种基于相关关系的多尺度数据自适应光谱聚类算法,CAST: A Correlation-based Adaptive Spectral Clustering Algorithm on Multi-scale Data

【KDD2020】CAST:一种基于相关关系的多尺度数据自适应光谱聚类算法,CAST: A Correlation-based Adaptive Spectral Clustering Algorithm on Multi-scale Data

专知会员服务

20+阅读 · 2020年6月11日

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

专知会员服务

17+阅读 · 2019年12月9日

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

专知会员服务

42+阅读 · 2019年11月21日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知

26+阅读 · 2021年1月30日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

基于图神经网络的聚类研究与应用

基于图神经网络的聚类研究与应用

THU数据派

10+阅读 · 2020年5月29日

深度自进化聚类：Deep Self-Evolution Clustering

深度自进化聚类：Deep Self-Evolution Clustering

我爱读PAMI

15+阅读 · 2019年4月13日

每日论文 | 深度卷积高斯过程；用多任务弱监督训练复杂模型；在时序数据中发现新连接类型

每日论文 | 深度卷积高斯过程；用多任务弱监督训练复杂模型；在时序数据中发现新连接类型

论智

12+阅读 · 2018年10月10日

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

机器之心

11+阅读 · 2018年8月6日

【Python实战】无监督学习—聚类、层次聚类、t-SNE，DBSCAN

【Python实战】无监督学习—聚类、层次聚类、t-SNE，DBSCAN

专知

13+阅读 · 2018年6月18日

干货：基于用户画像的聚类分析

干货：基于用户画像的聚类分析

数据分析

22+阅读 · 2018年5月17日

【干货】利用ENVI从航空影像中提取DEM

【干货】利用ENVI从航空影像中提取DEM

无人机

14+阅读 · 2018年1月8日

机器学习之确定最佳聚类数目的10种方法

机器学习之确定最佳聚类数目的10种方法

炼数成金订阅号

13+阅读 · 2017年10月12日

几类随机指数函数空间的应用

国家自然科学基金

0+阅读 · 2015年12月31日

函数数据变换模型及降维方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

正倒向随机微分方程与两类衍生模型的统计推断及金融中的应用

国家自然科学基金

2+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

17+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

面向社会化媒体异构大数据的快速组合聚类研究

国家自然科学基金

1+阅读 · 2014年12月31日

行为轨迹数据高性能时空聚类及社会分析

国家自然科学基金

2+阅读 · 2014年12月31日

几类扩散过程的逼近及应用

国家自然科学基金

1+阅读 · 2014年12月31日

时间序列数据挖掘中的聚类模型与算法研究

国家自然科学基金

14+阅读 · 2008年12月31日

Characterizing Admissible Objective Functions for Hierarchical Clustering

Arxiv

0+阅读 · 6月16日

Characterizing Admissible Objective Functions for Hierarchical Clustering

Arxiv

0+阅读 · 6月15日

Data compression for fast dimension reduction and clustering of high-dimensional discrete data

Arxiv

0+阅读 · 6月9日

Diff2SP: Diffusion Models for Correlated Scenario Generation in Stochastic Programming

Arxiv

0+阅读 · 6月4日

Dimension Reduction via Sum-of-Squares and Improved Clustering Algorithms for Non-Spherical Mixtures

Arxiv

0+阅读 · 6月1日

Functional Clustering of Survival Data via Smoothed Log-Hazard Trajectories: A Risk-Dynamics Perspective

Arxiv

0+阅读 · 5月31日

Two-way Clustering Robust Variance Estimator in Quantile Regression Models

Arxiv

0+阅读 · 5月23日

Multilayer Correlation Clustering

Arxiv

0+阅读 · 5月19日

K-Models: a Flexible and Interpretable Method for Ordinal Clustering with Application to Antigen-Antibody Interaction Profiles

Arxiv

0+阅读 · 5月14日

Spatially continuous modelling of aggregated outcome data

Arxiv

0+阅读 · 4月16日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

1+阅读 · 今天14:49

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

1+阅读 · 今天14:47

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

1+阅读 · 今天14:45

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

3+阅读 · 今天14:22

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

4+阅读 · 今天13:50

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

3+阅读 · 今天13:33

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

3+阅读 · 今天13:30

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

3+阅读 · 今天13:28

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

3+阅读 · 今天13:13

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

2+阅读 · 今天13:10

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

5+阅读 · 6月16日

多模态代码智能综述：从视觉输入到可执行代码系统

多模态代码智能综述：从视觉输入到可执行代码系统

专知会员服务

7+阅读 · 6月16日

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

5+阅读 · 6月16日

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

专知会员服务

5+阅读 · 6月16日

《通用大语言模型：无人机指挥与控制接口》最新40页

《通用大语言模型：无人机指挥与控制接口》最新40页

专知会员服务

15+阅读 · 6月16日

相关VIP内容

【博士论文】随机逼近在黎曼流形和度量空间上的应用，257页pdf

【博士论文】随机逼近在黎曼流形和度量空间上的应用，257页pdf

专知会员服务

35+阅读 · 2024年10月15日

【博士论文】无监督深度图聚类中的自适应表示学习，144页pdf

【博士论文】无监督深度图聚类中的自适应表示学习，144页pdf

专知会员服务

43+阅读 · 2023年10月21日

去噪扩散概率模型，46页ppt

去噪扩散概率模型，46页ppt

专知会员服务

63+阅读 · 2023年1月4日

扩散模型数学太难？经典扩散模型DDPM手把手Pytorch代码实现，对照数学公式详解

扩散模型数学太难？经典扩散模型DDPM手把手Pytorch代码实现，对照数学公式详解

专知会员服务

124+阅读 · 2022年9月8日

美国空军技术学院博士论文《用于气象聚类和预测的深度学习》

美国空军技术学院博士论文《用于气象聚类和预测的深度学习》

专知会员服务

55+阅读 · 2022年4月17日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知会员服务

78+阅读 · 2021年1月30日

【伯克利】自回归模型的局部掩卷积，Locally Masked Convolution for Autoregressive Models

【伯克利】自回归模型的局部掩卷积，Locally Masked Convolution for Autoregressive Models

专知会员服务

20+阅读 · 2020年6月23日

【KDD2020】CAST:一种基于相关关系的多尺度数据自适应光谱聚类算法,CAST: A Correlation-based Adaptive Spectral Clustering Algorithm on Multi-scale Data

【KDD2020】CAST:一种基于相关关系的多尺度数据自适应光谱聚类算法,CAST: A Correlation-based Adaptive Spectral Clustering Algorithm on Multi-scale Data

专知会员服务

20+阅读 · 2020年6月11日

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

专知会员服务

17+阅读 · 2019年12月9日

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

专知会员服务

42+阅读 · 2019年11月21日

热门VIP内容

开通专知VIP会员享更多权益服务

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

学习数据的几何：形状空间分析数学综述

相关资讯

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知

26+阅读 · 2021年1月30日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

基于图神经网络的聚类研究与应用

基于图神经网络的聚类研究与应用

THU数据派

10+阅读 · 2020年5月29日

深度自进化聚类：Deep Self-Evolution Clustering

深度自进化聚类：Deep Self-Evolution Clustering

我爱读PAMI

15+阅读 · 2019年4月13日

每日论文 | 深度卷积高斯过程；用多任务弱监督训练复杂模型；在时序数据中发现新连接类型

每日论文 | 深度卷积高斯过程；用多任务弱监督训练复杂模型；在时序数据中发现新连接类型

论智

12+阅读 · 2018年10月10日

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

机器之心

11+阅读 · 2018年8月6日

【Python实战】无监督学习—聚类、层次聚类、t-SNE，DBSCAN

【Python实战】无监督学习—聚类、层次聚类、t-SNE，DBSCAN

专知

13+阅读 · 2018年6月18日

干货：基于用户画像的聚类分析

干货：基于用户画像的聚类分析

数据分析

22+阅读 · 2018年5月17日

【干货】利用ENVI从航空影像中提取DEM

【干货】利用ENVI从航空影像中提取DEM

无人机

14+阅读 · 2018年1月8日

机器学习之确定最佳聚类数目的10种方法

机器学习之确定最佳聚类数目的10种方法

炼数成金订阅号

13+阅读 · 2017年10月12日

相关论文

Characterizing Admissible Objective Functions for Hierarchical Clustering

Arxiv

0+阅读 · 6月16日

Characterizing Admissible Objective Functions for Hierarchical Clustering

Arxiv

0+阅读 · 6月15日

Data compression for fast dimension reduction and clustering of high-dimensional discrete data

Arxiv

0+阅读 · 6月9日

Diff2SP: Diffusion Models for Correlated Scenario Generation in Stochastic Programming

Arxiv

0+阅读 · 6月4日

Dimension Reduction via Sum-of-Squares and Improved Clustering Algorithms for Non-Spherical Mixtures

Arxiv

0+阅读 · 6月1日

Functional Clustering of Survival Data via Smoothed Log-Hazard Trajectories: A Risk-Dynamics Perspective

Arxiv

0+阅读 · 5月31日

Two-way Clustering Robust Variance Estimator in Quantile Regression Models

Arxiv

0+阅读 · 5月23日

Multilayer Correlation Clustering

Arxiv

0+阅读 · 5月19日

K-Models: a Flexible and Interpretable Method for Ordinal Clustering with Application to Antigen-Antibody Interaction Profiles

Arxiv

0+阅读 · 5月14日

Spatially continuous modelling of aggregated outcome data

Arxiv

0+阅读 · 4月16日

相关基金

几类随机指数函数空间的应用

国家自然科学基金

0+阅读 · 2015年12月31日

函数数据变换模型及降维方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

正倒向随机微分方程与两类衍生模型的统计推断及金融中的应用

国家自然科学基金

2+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

17+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

面向社会化媒体异构大数据的快速组合聚类研究

国家自然科学基金

1+阅读 · 2014年12月31日

行为轨迹数据高性能时空聚类及社会分析

国家自然科学基金

2+阅读 · 2014年12月31日

几类扩散过程的逼近及应用

国家自然科学基金

1+阅读 · 2014年12月31日

时间序列数据挖掘中的聚类模型与算法研究

国家自然科学基金

14+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员