Regressing a function $F$ on $\mathbb{R}^d$ without the statistical and computational curse of dimensionality requires special statistical models, for example that impose geometric assumptions on the distribution of the data (e.g., that its support is low-dimensional), or strong smoothness assumptions on $F$, or a special structure $F$. Among the latter, compositional models $F=f\circ g$ with $g$ mapping to $\mathbb{R}^r$ with $r\ll d$ include classical single- and multi-index models, as well as neural networks. While the case where $g$ is linear is well-understood, less is known when $g$ is nonlinear, and in particular for which $g$'s the curse of dimensionality in estimating $F$, or both $f$ and $g$, may be circumvented. Here we consider a model $F(X):=f(Π_γX)$ where $Π_γ:\mathbb{R}^d\to[0,\textrm{len}_γ]$ is the closest-point projection onto the parameter of a regular curve $γ:[0, \textrm{len}_γ]\to\mathbb{R}^d$, and $f:[0,\textrm{len}_γ]\to \mathbb{R}^1$. The input data $X$ is not low-dimensional: it can be as far from $γ$ as the condition that $Π_γ(X)$ is well-defined allows. The distribution $X$, the curve $γ$ and the function $f$ are all unknown. This model is a natural nonlinear generalization of the single-index model, corresponding to $γ$ being a line. We propose a nonparametric estimator, based on conditional regression, that under suitable assumptions, the strongest of which being that $f$ is coarsely monotone, achieves, up to log factors, the $\textit{one-dimensional}$ optimal min-max rate for non-parametric regression, up to the level of noise in the observations, and be constructed in time $\mathcal{O}(d^2 n\log n)$. All the constants in the learning bounds, in the minimal number of samples required for our bounds to hold, and in the computational complexity are at most low-order polynomials in $d$.


翻译:在避免维数灾难(统计与计算层面)的前提下对定义在 $\mathbb{R}^d$ 上的函数 $F$ 进行回归,需要特殊的统计模型。例如,这些模型可能对数据分布施加几何假设(如其支撑集是低维的),或对 $F$ 施加强光滑性假设,或要求 $F$ 具有特殊结构。在后一类模型中,复合模型 $F=f\circ g$(其中 $g$ 映射到 $\mathbb{R}^r$,且 $r\ll d$)包含了经典的单指标与多指标模型,以及神经网络。当 $g$ 为线性时,情况已较为明确;但当 $g$ 为非线性时,尤其是对于哪些 $g$ 可以规避估计 $F$ 或同时估计 $f$ 和 $g$ 时的维数灾难,目前所知较少。本文考虑模型 $F(X):=f(Π_γX)$,其中 $Π_γ:\mathbb{R}^d\to[0,\textrm{len}_γ]$ 是到正则曲线 $γ:[0, \textrm{len}_γ]\to\mathbb{R}^d$ 参数上的最近点投影,且 $f:[0,\textrm{len}_γ]\to \mathbb{R}^1$。输入数据 $X$ 并非低维:只要 $Π_γ(X)$ 有定义的条件允许,$X$ 可以距离 $γ$ 任意远。$X$ 的分布、曲线 $γ$ 以及函数 $f$ 均未知。该模型是单指标模型(对应 $γ$ 为直线情形)的自然非线性推广。我们提出一种基于条件回归的非参数估计器,在适当的假设下(其中最强的假设是 $f$ 具有粗单调性),该估计器能够达到(在对数因子意义下)非参数回归的 $\textit{一维}$ 最优极小极大速率(直至观测噪声水平),并且可在 $\mathcal{O}(d^2 n\log n)$ 时间内构建。学习界中的所有常数、保证界成立所需的最小样本量以及计算复杂度中的常数,均至多为 $d$ 的低阶多项式。

0
下载
关闭预览

相关内容

维度灾难是指在高维空间中分析和组织数据时出现的各种现象,这些现象在低维设置(例如日常体验的三维物理空间)中不会发生。
最新《高斯过程回归简明教程》,19页pdf
专知会员服务
73+阅读 · 2020年9月30日
自动结构变分推理,Automatic structured variational inference
专知会员服务
41+阅读 · 2020年2月10日
一文读懂线性回归、岭回归和Lasso回归
CSDN
34+阅读 · 2019年10月13日
数据分析师应该知道的16种回归方法:负二项回归
数萃大数据
74+阅读 · 2018年9月16日
数据分析师应该知道的16种回归方法:泊松回归
数萃大数据
35+阅读 · 2018年9月13日
数据分析师应该知道的16种回归方法:定序回归
数萃大数据
16+阅读 · 2018年9月9日
线性回归:简单线性回归详解
专知
12+阅读 · 2018年3月10日
从点到线:逻辑回归到条件随机场
夕小瑶的卖萌屋
15+阅读 · 2017年7月22日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关资讯
一文读懂线性回归、岭回归和Lasso回归
CSDN
34+阅读 · 2019年10月13日
数据分析师应该知道的16种回归方法:负二项回归
数萃大数据
74+阅读 · 2018年9月16日
数据分析师应该知道的16种回归方法:泊松回归
数萃大数据
35+阅读 · 2018年9月13日
数据分析师应该知道的16种回归方法:定序回归
数萃大数据
16+阅读 · 2018年9月9日
线性回归:简单线性回归详解
专知
12+阅读 · 2018年3月10日
从点到线:逻辑回归到条件随机场
夕小瑶的卖萌屋
15+阅读 · 2017年7月22日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员