We provide the first coreset for clustering points in $\mathbb{R}^d$ that have multiple missing values (coordinates). Previous coreset constructions only allow one missing coordinate. The challenge in this setting is that objective functions, like $k$-Means, are evaluated only on the set of available (non-missing) coordinates, which varies across points. Recall that an $\epsilon$-coreset of a large dataset is a small proxy, usually a reweighted subset of points, that $(1+\epsilon)$-approximates the clustering objective for every possible center set. Our coresets for $k$-Means and $k$-Median clustering have size $(jk)^{O(\min(j,k))} (\epsilon^{-1} d \log n)^2$, where $n$ is the number of data points, $d$ is the dimension and $j$ is the maximum number of missing coordinates for each data point. We further design an algorithm to construct these coresets in near-linear time, and consequently improve a recent quadratic-time PTAS for $k$-Means with missing values [Eiben et al., SODA 2021] to near-linear time. We validate our coreset construction, which is based on importance sampling and is easy to implement, on various real data sets. Our coreset exhibits a flexible tradeoff between coreset size and accuracy, and generally outperforms the uniform-sampling baseline. Furthermore, it significantly speeds up a Lloyd's-style heuristic for $k$-Means with missing values.


翻译:我们为多个缺失值( 坐标) 的分组点提供第一个核心设置 $mathbb{R ⁇ d$ 。 以前的核心设置只允许一个缺失的坐标 。 在此设置的挑战是, 目标函数, 如$k$- Means, 仅在可用( 不丢失) 坐标组( 不同点) 上进行评估 。 回顾一个大数据集的 $\ epsilon$- 核心数据集是一个小代用单位, 通常是一个重标子子子组, 即$( 1 ⁇ epsilon) 接近每个可能的中心集组的分组目标 。 我们进一步设计一个算法, 在接近直线时间( $- Means) 和 $konk- Median 群集中, 大小为$( jk) O( min( j, j, k)) ) (\\\\\\ log_ 1) ) 核心值( ) ) 。 美元是数据点数, 的维度和 美元是每个数据中点的最大缩缩 。 我们进一步设计一个在接近直线时间( 美元 时间( 美元) ) 和 直线( 直径) 基) 基值( ) 度( ) 基) 基值( ) 基) 度( ) 度( ) ) 基) 度( ) 度( ) 基) 基) 基) 度( 基) 基) 度( 基) 基) 度( 度( 度( ) 度( ) ) ) 度( ) 基值( ) ) ) 基值( ) ) ) 基值( ) ) ) ) ) ) 值( ) ) ) 值( 值( ) ) ) 和基值(S- 基值( 基值( 基值( ) ) ) ) ) ) ) ) 度(S- ) ) 基值( ) ) ) 和基值( ) ) 基值( 和基值) 基)

2
下载
关闭预览

相关内容

专知会员服务
162+阅读 · 2020年1月16日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
【新书】Python编程基础,669页pdf
专知会员服务
197+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
最佳实践:深度学习用于自然语言处理(三)
待字闺中
3+阅读 · 2017年8月20日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
31+阅读 · 2020年9月21日
Arxiv
7+阅读 · 2020年8月7日
Meta-Learning to Cluster
Arxiv
18+阅读 · 2019年10月30日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
VIP会员
最新内容
2025年大语言模型进展报告
专知会员服务
1+阅读 · 今天13:30
多智能体协作机制
专知会员服务
0+阅读 · 今天13:26
非对称优势:美海军开发低成本反无人机技术
专知会员服务
4+阅读 · 今天4:39
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
6+阅读 · 今天2:48
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
9+阅读 · 今天2:43
【NTU博士论文】3D人体动作生成
专知会员服务
7+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
8+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
14+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
10+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
5+阅读 · 4月24日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
最佳实践:深度学习用于自然语言处理(三)
待字闺中
3+阅读 · 2017年8月20日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
相关论文
Arxiv
31+阅读 · 2020年9月21日
Arxiv
7+阅读 · 2020年8月7日
Meta-Learning to Cluster
Arxiv
18+阅读 · 2019年10月30日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Top
微信扫码咨询专知VIP会员