We introduce the first iterative algorithm for constructing a $\varepsilon$-coreset that guarantees deterministic $\ell_p$ subspace embedding for any $p \in [1,\infty)$ and any $\varepsilon > 0$. For a given full rank matrix $\mathbf{X} \in \mathbb{R}^{n \times d}$ where $n \gg d$, $\mathbf{X}' \in \mathbb{R}^{m \times d}$ is an $(\varepsilon,\ell_p)$-subspace embedding of $\mathbf{X}$, if for every $\mathbf{q} \in \mathbb{R}^d$, $(1-\varepsilon)\|\mathbf{Xq}\|_{p}^{p} \leq \|\mathbf{X'q}\|_{p}^{p} \leq (1+\varepsilon)\|\mathbf{Xq}\|_{p}^{p}$. Specifically, in this paper, $\mathbf{X}'$ is a weighted subset of rows of $\mathbf{X}$ which is commonly known in the literature as a coreset. In every iteration, the algorithm ensures that the loss on the maintained set is upper and lower bounded by the loss on the original dataset with appropriate scalings. So, unlike typical coreset guarantees, due to bounded loss, our coreset gives a deterministic guarantee for the $\ell_p$ subspace embedding. For an error parameter $\varepsilon$, our algorithm takes $O(\mathrm{poly}(n,d,\varepsilon^{-1}))$ time and returns a deterministic $\varepsilon$-coreset, for $\ell_p$ subspace embedding whose size is $O\left(\frac{d^{\max\{1,p/2\}}}{\varepsilon^{2}}\right)$. Here, we remove the $\log$ factors in the coreset size, which had been a long-standing open problem. Our coresets are optimal as they are tight with the lower bound. As an application, our coreset can also be used for approximately solving the $\ell_p$ regression problem in a deterministic manner.


翻译:我们提出了首个迭代算法,用于构建保证对任意$p \in [1,\infty)$和任意$\varepsilon > 0$均具有确定性$\ell_p$子空间嵌入的$\varepsilon$-核心集。对于给定满秩矩阵$\mathbf{X} \in \mathbb{R}^{n \times d}$(其中$n \gg d$),若对任意$\mathbf{q} \in \mathbb{R}^d$有$(1-\varepsilon)\|\mathbf{Xq}\|_{p}^{p} \leq \|\mathbf{X'q}\|_{p}^{p} \leq (1+\varepsilon)\|\mathbf{Xq}\|_{p}^{p}$,则$\mathbf{X}' \in \mathbb{R}^{m \times d}$称为$\mathbf{X}$的$(\varepsilon,\ell_p)$-子空间嵌入。具体而言,本文中$\mathbf{X}'$是$\mathbf{X}$行向量的加权子集(文献中通常称为核心集)。在每次迭代中,算法确保维护集合上的损失通过适当缩放被原始数据集上的损失上下界约束。因此,与典型的核心集保证不同,由于损失有界性,我们的核心集为$\ell_p$子空间嵌入提供了确定性保证。对于误差参数$\varepsilon$,算法耗时$O(\mathrm{poly}(n,d,\varepsilon^{-1}))$,并返回一个大小为$O\left(\frac{d^{\max\{1,p/2\}}}{\varepsilon^{2}}\right)$的确定性$\varepsilon$-核心集(用于$\ell_p$子空间嵌入)。此处我们去除了核心集大小中的对数因子,这曾是长期存在的开放问题。我们的核心集达到最优,因为其与下界严格匹配。作为应用,该核心集还可用于以确定性方式近似求解$\ell_p$回归问题。

0
下载
关闭预览

相关内容

UnHiPPO:面向不确定性的状态空间模型初始化方法
专知会员服务
11+阅读 · 2025年6月6日
NeurIPS 2021 Spotlight | 针对有缺失坐标的聚类问题的核心集
专知会员服务
16+阅读 · 2021年11月27日
【AAAI2021】对比聚类,Contrastive Clustering
专知会员服务
78+阅读 · 2021年1月30日
【硬核书】群论,Group Theory,135页pdf
专知会员服务
130+阅读 · 2020年6月25日
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
图节点嵌入(Node Embeddings)概述,9页pdf
专知
15+阅读 · 2020年8月22日
详解GAN的谱归一化(Spectral Normalization)
PaperWeekly
11+阅读 · 2019年2月13日
【收藏】机器学习的Pytorch实现资源集合【附下载链接】
机器学习算法与Python学习
10+阅读 · 2018年9月8日
机器学习的Pytorch实现资源集合
专知
11+阅读 · 2018年9月1日
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月7日
Arxiv
0+阅读 · 3月29日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关资讯
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
图节点嵌入(Node Embeddings)概述,9页pdf
专知
15+阅读 · 2020年8月22日
详解GAN的谱归一化(Spectral Normalization)
PaperWeekly
11+阅读 · 2019年2月13日
【收藏】机器学习的Pytorch实现资源集合【附下载链接】
机器学习算法与Python学习
10+阅读 · 2018年9月8日
机器学习的Pytorch实现资源集合
专知
11+阅读 · 2018年9月1日
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
相关基金
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员