Gradient observations can substantially improve Gaussian process (GP) surrogates, particularly in high-dimensional settings where function evaluations are expensive. However, exact inference with $n$ function values and $n$ full gradients in $d$ dimensions scales cubically in the joint state size, imposing an intractable $\mathcal{O}(n^3 d^3)$ computational bottleneck. We introduce TERA, a highly scalable derivative GP method based on target-specific exact gradient reduction. We prove that for stationary kernels, the gradient components orthogonal to the directions connecting the target and conditioning points are conditionally independent of the target function value; consequently, the exact conditional density is fully characterized by at most $m^2$ directional derivatives once a conditioning set of size $m$ is specified. By using these reduced, dimension-free conditionals as local factors in a Vecchia approximation, TERA effectively decouples $n$ and $d$ from the dense matrix inversion. This reduces the per-target evaluation cost to $\mathcal{O}(dm^2 + m^6)$ time and $\mathcal{O}(dm^2 + m^4)$ memory, leaving the underlying derivative GP model mathematically unchanged. Empirical evaluations demonstrate that TERA achieves state-of-the-art predictive accuracy while operating orders of magnitude faster than standard derivative GPs. Crucially, both computation time and peak GPU memory remain essentially flat with respect to $d$, enabling highly scalable inference in high-dimensional spaces.


翻译:梯度观测可显著提升高斯过程(GP)代理模型性能,尤其在函数评估代价高昂的高维场景中。然而,对$n$个函数值和$n$个完整梯度(维度$d$)执行精确推断时,计算复杂度与联合状态规模呈三次方增长,造成难以承受的$\mathcal{O}(n^3 d^3)$计算瓶颈。我们提出TERA方法——一种基于目标特异性精确梯度缩减的高可扩展导数GP技术。理论证明:对于平稳核函数,与目标点-条件点连线方向正交的梯度分量与目标函数值条件独立;因此,当指定规模为$m$的条件集后,精确条件密度完全由至多$m^2$个方向导数刻画。通过将这些降维后的无维度条件量作为Vecchia近似中的局部因子,TERA有效解耦了$n$和$d$与稠密矩阵求逆的关联。这使得每个目标点的计算代价降至$\mathcal{O}(dm^2 + m^6)$时间复杂度和$\mathcal{O}(dm^2 + m^4)$内存复杂度,且底层导数GP模型在数学上保持不变。实验评估表明,TERA在达到最先进预测精度的同时,运算速度比标准导数GP快数个数量级。关键优势在于:计算时间和峰值GPU内存均随$d$增长保持基本恒定,从而在高维空间中实现高度可扩展的推断。

0
下载
关闭预览

相关内容

梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。
【CMU博士论文】高斯表示的可微渲染和优化,198页pdf
专知会员服务
27+阅读 · 2023年10月5日
最新《高斯过程回归简明教程》,19页pdf
专知会员服务
73+阅读 · 2020年9月30日
从泰勒展开来看梯度下降算法
深度学习每日摘要
13+阅读 · 2019年4月9日
解读 | 得见的高斯过程
机器学习算法与Python学习
14+阅读 · 2019年2月13日
简述多种降维算法
算法与数学之美
11+阅读 · 2018年9月23日
干货|掌握机器学习数学基础之优化[1](重点知识)
机器学习研究会
10+阅读 · 2017年11月19日
精品公开课 | 随机梯度下降算法综述
七月在线实验室
13+阅读 · 2017年7月11日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
【CMU博士论文】高斯表示的可微渲染和优化,198页pdf
专知会员服务
27+阅读 · 2023年10月5日
最新《高斯过程回归简明教程》,19页pdf
专知会员服务
73+阅读 · 2020年9月30日
相关资讯
从泰勒展开来看梯度下降算法
深度学习每日摘要
13+阅读 · 2019年4月9日
解读 | 得见的高斯过程
机器学习算法与Python学习
14+阅读 · 2019年2月13日
简述多种降维算法
算法与数学之美
11+阅读 · 2018年9月23日
干货|掌握机器学习数学基础之优化[1](重点知识)
机器学习研究会
10+阅读 · 2017年11月19日
精品公开课 | 随机梯度下降算法综述
七月在线实验室
13+阅读 · 2017年7月11日
相关基金
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员