Gaussian Process (GP) models provide a flexible framework for prediction and uncertainty quantification. For most covariance functions, however, exact GP prediction with $n$ points scales as $\mathcal{O}(n^3)$, making it prohibitively expensive for large datasets or large numbers of prediction points. While nearest neighbor-based prediction can work well in certain settings, non-pathological circumstances (for example measurement noise) can severely restrict its efficiency. This work presents a complementary approach where one conditions on carefully designed linear combinations of data, which is particularly effective in the setting of predicting many values in large connected regions of the data domain. For kernel functions that are smooth away from the origin, conditioning on a small number $r$ of such data contrasts can be machine-precision accurate for the full exact conditional distributions. These contrasts cost $\mathcal{O}(T r^2)$ work to compute where $T$ is the cost of solving a linear system with the data covariance matrix, and so in many cases can be computed in linear or near-linear cost by exploiting rank structure in well-behaved covariance matrices. At the cost of $\mathcal{O}(nr^2)$ additional precomputation work, this approach can also provide predictions at arbitrary points of a designated region in $\mathcal{O}(1)$ online work, making it particularly attractive for problems where prediction points are not known in advance.


翻译:高斯过程模型为预测和不确定性量化提供了灵活框架。然而对于大多数协方差函数而言,基于n个数据点的精确高斯过程预测计算复杂度为$\mathcal{O}(n^3)$,这使得其在大规模数据集或大量预测点场景中代价过高。尽管近邻预测方法在某些情况下表现良好,但非病态条件(例如测量噪声)会严重限制其效率。本文提出一种互补方法,通过对精心设计的数据线性组合进行条件化操作,特别适用于在数据域内大型连通区域中预测大量数值的情况。对于原点处光滑的核函数,仅需使用r个此类数据对比量进行条件化,即可达到与完整精确条件分布相当的机器精度。计算这些对比量的复杂度为$\mathcal{O}(T r^2)$,其中T表示求解数据协方差矩阵线性系统的代价。通过利用良态协方差矩阵的秩结构,该方法在多数情况下可实现线性或近线性计算复杂度。通过额外$\mathcal{O}(nr^2)$的预计算,该方法还能在指定区域以$\mathcal{O}(1)$在线计算复杂度完成任意点的预测,特别适用于预测点未预先确定的场景。

0
下载
关闭预览

相关内容

高斯过程(Gaussian Process, GP)是概率论和数理统计中随机过程(stochastic process)的一种,是一系列服从正态分布的随机变量(random variable)在一指数集(index set)内的组合。 高斯过程中任意随机变量的线性组合都服从正态分布,每个有限维分布都是联合正态分布,且其本身在连续指数集上的概率密度函数即是所有随机变量的高斯测度,因此被视为联合正态分布的无限维广义延伸。高斯过程由其数学期望和协方差函数完全决定,并继承了正态分布的诸多性质
【博士论文】高效且有效的基础大型多模态模型学习
专知会员服务
41+阅读 · 2024年10月21日
最新《高斯过程回归简明教程》,19页pdf
专知会员服务
73+阅读 · 2020年9月30日
【经典书】机器学习高斯过程,266页pdf
专知会员服务
235+阅读 · 2020年5月2日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
解读 | 得见的高斯过程
机器学习算法与Python学习
14+阅读 · 2019年2月13日
超全总结:神经网络加速之量化模型 | 附带代码
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月16日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
1+阅读 · 30分钟前
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
0+阅读 · 今天14:31
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员