Iterative Exploration-Driven Sparse SDP Clustering via Thompson Sampling - 专知论文

会员服务 ·

0

稀疏 · 特征选择 · 聚类方法 · 松弛 · 极大 ·

Iterative Exploration-Driven Sparse SDP Clustering via Thompson Sampling

翻译：基于Thompson采样的迭代探索驱动稀疏SDP聚类方法

Jongmin Mun,Paromita Dubey,Yingying Fan

from arxiv, 58 pages, 2 figures, 2 tables, 4 algorithms;

This paper studies high-dimensional sparse clustering, a combinatorial NP-hard problem arising from the bilinear coupling between cluster assignment and feature selection. We analyze semidefinite programming (SDP) relaxations of $K$-means and establish minimax separation bounds, demonstrating that these relaxations are theoretically robust to feature over-selection: exact recovery is preserved even in the presence of non-informative features. Leveraging this robustness, we propose a block-coordinate ascent framework that alternates between SDP-based clustering and non-conservative feature selection. To address the tendency of deterministic greedy methods to become trapped in local optima, we formulate the feature selection step as a Thompson sampling bandit problem. This approach introduces adaptive memory by aggregating historical variable-selection outcomes into posterior distributions, and selects features via posterior sampling, enabling stochastic exploration that promotes the inclusion of under-explored features and facilitates escape from local maxima. We establish conditions for consistent variable selection and exact clustering recovery, and extend the method to settings with unknown covariance through a scalable, inverse-free estimation procedure. Numerical experiments demonstrate that the proposed memory-driven approach consistently outperforms state-of-the-art sparse clustering methods.

翻译：本文研究高维稀疏聚类问题——一种由聚类分配与特征选择之间的双线性耦合产生的组合NP难问题。我们分析了$K$-均值问题的半定规划松弛，并建立了极小极大分离界，证明这些松弛在理论上对特征过选具有鲁棒性：即使存在非信息性特征，仍能保持精确恢复。利用这一鲁棒性，我们提出了一种块坐标上升框架，在基于SDP的聚类与非保守特征选择之间交替进行。为解决确定性贪婪方法易陷入局部最优的倾向，我们将特征选择步骤建模为Thompson采样多臂赌博机问题。该方法通过将历史变量选择结果聚合为后验分布来引入自适应记忆，并通过后验采样选择特征，从而实现随机探索：既能促进未充分探索特征的纳入，又能助力逃离局部极大值。我们建立了变量选择一致性与精确聚类恢复的条件，并通过可扩展的无逆估计程序将方法扩展至协方差未知的场景。数值实验表明，所提出的记忆驱动方法持续优于当前最先进的稀疏聚类方法。

0

相关内容

【博士论文】利用图结构加速稀疏计算

【博士论文】利用图结构加速稀疏计算

专知会员服务

18+阅读 · 2025年3月6日

【MIT博士论文】稀疏与低秩矩阵优化在机器学习应用中的进展

【MIT博士论文】稀疏与低秩矩阵优化在机器学习应用中的进展

专知会员服务

19+阅读 · 2024年11月15日

【MIT博士论文】机器学习应用中稀疏和低秩矩阵优化的进展

【MIT博士论文】机器学习应用中稀疏和低秩矩阵优化的进展

专知会员服务

28+阅读 · 2024年11月9日

【MIT博士论文】稀疏和低秩矩阵优化在机器学习应用中的进展

【MIT博士论文】稀疏和低秩矩阵优化在机器学习应用中的进展

专知会员服务

34+阅读 · 2024年10月17日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知会员服务

78+阅读 · 2021年1月30日

【伯克利Payam博士论文】大规模稀疏图的问题探究: 图压缩与负载均衡，268页pdf

【伯克利Payam博士论文】大规模稀疏图的问题探究: 图压缩与负载均衡，268页pdf

专知会员服务

20+阅读 · 2020年11月4日

低秩稀疏矩阵优化问题的模型与算法

专知会员服务

46+阅读 · 2020年7月29日

【KDD2020】CAST:一种基于相关关系的多尺度数据自适应光谱聚类算法,CAST: A Correlation-based Adaptive Spectral Clustering Algorithm on Multi-scale Data

【KDD2020】CAST:一种基于相关关系的多尺度数据自适应光谱聚类算法,CAST: A Correlation-based Adaptive Spectral Clustering Algorithm on Multi-scale Data

专知会员服务

20+阅读 · 2020年6月11日

【SIGMOD2020】稀疏数据半监督学习的分解图表示，Factorized Graph Representations for Semi-Supervised Learning from Sparse Data

【SIGMOD2020】稀疏数据半监督学习的分解图表示，Factorized Graph Representations for Semi-Supervised Learning from Sparse Data

专知会员服务

15+阅读 · 2020年3月7日

【SIGMOD2020】稀疏数据半监督学习的分解图表示，Factorized Graph Representations

【SIGMOD2020】稀疏数据半监督学习的分解图表示，Factorized Graph Representations

专知会员服务

19+阅读 · 2020年3月6日

稀疏大模型简述：从MoE、Sparse Attention到GLaM

稀疏大模型简述：从MoE、Sparse Attention到GLaM

夕小瑶的卖萌屋

14+阅读 · 2022年3月22日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知

26+阅读 · 2021年1月30日

支持多值带权重、稀疏、共享embedding权重的DSSM召回实现（tensorflow2）

支持多值带权重、稀疏、共享embedding权重的DSSM召回实现（tensorflow2）

AINLP

12+阅读 · 2021年1月13日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

自动特征工程在推荐系统中的研究

自动特征工程在推荐系统中的研究

DataFunTalk

10+阅读 · 2019年12月20日

稀疏性的3个优势 -《稀疏统计学习及其应用》

稀疏性的3个优势 -《稀疏统计学习及其应用》

遇见数学

15+阅读 · 2018年10月24日

《pyramid Attention Network for Semantic Segmentation》

《pyramid Attention Network for Semantic Segmentation》

统计学习与视觉计算组

44+阅读 · 2018年8月30日

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

机器之心

11+阅读 · 2018年8月6日

干货：基于用户画像的聚类分析

干货：基于用户画像的聚类分析

数据分析

22+阅读 · 2018年5月17日

机器学习之确定最佳聚类数目的10种方法

机器学习之确定最佳聚类数目的10种方法

炼数成金订阅号

13+阅读 · 2017年10月12日

大型稀疏奇异复对称线性系统的高效迭代法研究

国家自然科学基金

0+阅读 · 2015年12月31日

非凸稀疏优化的恢复条件与低复杂度算法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于异构体系结构的稀疏矩阵分解算法并行化研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

矩阵低秩稀疏分解的两步凸松弛法研究

国家自然科学基金

2+阅读 · 2015年12月31日

求解一类大规模稀疏线性矩阵方程的高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

带稀疏约束不适定问题的算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

稀疏优化问题的理论与方法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

Sparse Offline Reinforcement Learning with Corruption Robustness

Arxiv

0+阅读 · 3月7日

Low-degree Lower bounds for clustering in moderate dimension

Arxiv

0+阅读 · 2月26日

Robustness in sparse artificial neural networks trained with adaptive topology

Arxiv

0+阅读 · 2月25日

Enhanced Diffusion Sampling: Efficient Rare Event Sampling and Free Energy Calculation with Diffusion Models

Arxiv

0+阅读 · 2月18日

Graphical model for factorization and completion of relatively high rank tensors by sparse sampling

Arxiv

0+阅读 · 2月18日

Fast Online Learning with Gaussian Prior-Driven Hierarchical Unimodal Thompson Sampling

Arxiv

0+阅读 · 2月17日

Graphical model for factorization and completion of relatively high rank tensors by sparse sampling

Arxiv

0+阅读 · 2月17日

Sample-Efficient "Clustering and Conquer" Procedures for Parallel Large-Scale Ranking and Selection

Arxiv

0+阅读 · 2月13日

Tight Bounds for Sparsifying Random CSPs

Arxiv

0+阅读 · 2月10日

GEMSS: A Variational Bayesian Method for Discovering Multiple Sparse Solutions in Classification and Regression Problems

Arxiv

0+阅读 · 2月9日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | Sheaf-ADMM：用可微优化学习多智能体协调

ICML 2026 | Sheaf-ADMM：用可微优化学习多智能体协调

专知会员服务

4+阅读 · 6月1日

综述 | OPSD：大语言模型的在线策略自蒸馏

综述 | OPSD：大语言模型的在线策略自蒸馏

专知会员服务

3+阅读 · 6月1日

算法化战争：人工智能时代的新范式（万字长文）

算法化战争：人工智能时代的新范式（万字长文）

专知会员服务

8+阅读 · 6月1日

帕兰蒂尔Maven：军事人工智能的新纪元

帕兰蒂尔Maven：军事人工智能的新纪元

专知会员服务

8+阅读 · 6月1日

《军事网络取证系统中的人工智能驱动情报融合：帕兰蒂尔公司“Maven智能系统”案例研究》

《军事网络取证系统中的人工智能驱动情报融合：帕兰蒂尔公司“Maven智能系统”案例研究》

专知会员服务

10+阅读 · 6月1日

《扩展主权人工智能操作系统：将Symphony作为帕兰蒂尔Foundry与英伟达的计算本体》

《扩展主权人工智能操作系统：将Symphony作为帕兰蒂尔Foundry与英伟达的计算本体》

专知会员服务

10+阅读 · 6月1日

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

专知会员服务

13+阅读 · 5月31日

比利时发布用于实时战场军事装备识别的离线人工智能系统

比利时发布用于实时战场军事装备识别的离线人工智能系统

专知会员服务

6+阅读 · 5月31日

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

专知会员服务

5+阅读 · 5月31日

超越网格：作战环境对炮兵的影响

超越网格：作战环境对炮兵的影响

专知会员服务

3+阅读 · 5月31日

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

专知会员服务

9+阅读 · 5月31日

综述 | 推理时控制：可信大语言模型的运行时治理全景

综述 | 推理时控制：可信大语言模型的运行时治理全景

专知会员服务

4+阅读 · 5月31日

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

6+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

7+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

8+阅读 · 5月30日

相关VIP内容

【博士论文】利用图结构加速稀疏计算

【博士论文】利用图结构加速稀疏计算

专知会员服务

18+阅读 · 2025年3月6日

【MIT博士论文】稀疏与低秩矩阵优化在机器学习应用中的进展

【MIT博士论文】稀疏与低秩矩阵优化在机器学习应用中的进展

专知会员服务

19+阅读 · 2024年11月15日

【MIT博士论文】机器学习应用中稀疏和低秩矩阵优化的进展

【MIT博士论文】机器学习应用中稀疏和低秩矩阵优化的进展

专知会员服务

28+阅读 · 2024年11月9日

【MIT博士论文】稀疏和低秩矩阵优化在机器学习应用中的进展

【MIT博士论文】稀疏和低秩矩阵优化在机器学习应用中的进展

专知会员服务

34+阅读 · 2024年10月17日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知会员服务

78+阅读 · 2021年1月30日

【伯克利Payam博士论文】大规模稀疏图的问题探究: 图压缩与负载均衡，268页pdf

【伯克利Payam博士论文】大规模稀疏图的问题探究: 图压缩与负载均衡，268页pdf

专知会员服务

20+阅读 · 2020年11月4日

低秩稀疏矩阵优化问题的模型与算法

专知会员服务

46+阅读 · 2020年7月29日

【KDD2020】CAST:一种基于相关关系的多尺度数据自适应光谱聚类算法,CAST: A Correlation-based Adaptive Spectral Clustering Algorithm on Multi-scale Data

【KDD2020】CAST:一种基于相关关系的多尺度数据自适应光谱聚类算法,CAST: A Correlation-based Adaptive Spectral Clustering Algorithm on Multi-scale Data

专知会员服务

20+阅读 · 2020年6月11日

【SIGMOD2020】稀疏数据半监督学习的分解图表示，Factorized Graph Representations for Semi-Supervised Learning from Sparse Data

【SIGMOD2020】稀疏数据半监督学习的分解图表示，Factorized Graph Representations for Semi-Supervised Learning from Sparse Data

专知会员服务

15+阅读 · 2020年3月7日

【SIGMOD2020】稀疏数据半监督学习的分解图表示，Factorized Graph Representations

【SIGMOD2020】稀疏数据半监督学习的分解图表示，Factorized Graph Representations

专知会员服务

19+阅读 · 2020年3月6日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | OPSD：大语言模型的在线策略自蒸馏

帕兰蒂尔Maven：军事人工智能的新纪元

ICML 2026 | Sheaf-ADMM：用可微优化学习多智能体协调

算法化战争：人工智能时代的新范式（万字长文）

相关资讯

稀疏大模型简述：从MoE、Sparse Attention到GLaM

稀疏大模型简述：从MoE、Sparse Attention到GLaM

夕小瑶的卖萌屋

14+阅读 · 2022年3月22日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知

26+阅读 · 2021年1月30日

支持多值带权重、稀疏、共享embedding权重的DSSM召回实现（tensorflow2）

支持多值带权重、稀疏、共享embedding权重的DSSM召回实现（tensorflow2）

AINLP

12+阅读 · 2021年1月13日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

自动特征工程在推荐系统中的研究

自动特征工程在推荐系统中的研究

DataFunTalk

10+阅读 · 2019年12月20日

稀疏性的3个优势 -《稀疏统计学习及其应用》

稀疏性的3个优势 -《稀疏统计学习及其应用》

遇见数学

15+阅读 · 2018年10月24日

《pyramid Attention Network for Semantic Segmentation》

《pyramid Attention Network for Semantic Segmentation》

统计学习与视觉计算组

44+阅读 · 2018年8月30日

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

机器之心

11+阅读 · 2018年8月6日

干货：基于用户画像的聚类分析

干货：基于用户画像的聚类分析

数据分析

22+阅读 · 2018年5月17日

机器学习之确定最佳聚类数目的10种方法

机器学习之确定最佳聚类数目的10种方法

炼数成金订阅号

13+阅读 · 2017年10月12日

相关论文

Sparse Offline Reinforcement Learning with Corruption Robustness

Arxiv

0+阅读 · 3月7日

Low-degree Lower bounds for clustering in moderate dimension

Arxiv

0+阅读 · 2月26日

Robustness in sparse artificial neural networks trained with adaptive topology

Arxiv

0+阅读 · 2月25日

Enhanced Diffusion Sampling: Efficient Rare Event Sampling and Free Energy Calculation with Diffusion Models

Arxiv

0+阅读 · 2月18日

Graphical model for factorization and completion of relatively high rank tensors by sparse sampling

Arxiv

0+阅读 · 2月18日

Fast Online Learning with Gaussian Prior-Driven Hierarchical Unimodal Thompson Sampling

Arxiv

0+阅读 · 2月17日

Graphical model for factorization and completion of relatively high rank tensors by sparse sampling

Arxiv

0+阅读 · 2月17日

Sample-Efficient "Clustering and Conquer" Procedures for Parallel Large-Scale Ranking and Selection

Arxiv

0+阅读 · 2月13日

Tight Bounds for Sparsifying Random CSPs

Arxiv

0+阅读 · 2月10日

GEMSS: A Variational Bayesian Method for Discovering Multiple Sparse Solutions in Classification and Regression Problems

Arxiv

0+阅读 · 2月9日

相关基金

大型稀疏奇异复对称线性系统的高效迭代法研究

国家自然科学基金

0+阅读 · 2015年12月31日

非凸稀疏优化的恢复条件与低复杂度算法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于异构体系结构的稀疏矩阵分解算法并行化研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

矩阵低秩稀疏分解的两步凸松弛法研究

国家自然科学基金

2+阅读 · 2015年12月31日

求解一类大规模稀疏线性矩阵方程的高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

带稀疏约束不适定问题的算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

稀疏优化问题的理论与方法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员