Scaled Block Vecchia Approximation for High-Dimensional Gaussian Process Emulation on GPUs - 专知论文

会员服务 ·

0

缩放 · 块 · Processing（编程语言） · GPUs · 近似 ·

Scaled Block Vecchia Approximation for High-Dimensional Gaussian Process Emulation on GPUs

翻译：缩放块Vecchia近似：面向GPU的高维高斯过程仿真

Qilong Pan,Sameh Abdulah,Mustafa Abduljabbar,Hatem Ltaief,Andreas Herten,Mathis Bode,Matthew Pratola,Arindam Fadikar,Marc G. Genton,David E. Keyes,Ying Sun

Emulating computationally intensive scientific simulations is crucial for enabling uncertainty quantification, optimization, and informed decision-making at scale. Gaussian Processes (GPs) offer a flexible and data-efficient foundation for statistical emulation, but their poor scalability limits applicability to large datasets. We introduce the Scaled Block Vecchia (SBV) algorithm for distributed GPU-based systems. SBV integrates the Scaled Vecchia approach for anisotropic input scaling with the Block Vecchia (BV) method to reduce computational and memory complexity while leveraging GPU acceleration techniques for efficient linear algebra operations. To the best of our knowledge, this is the first distributed implementation of any Vecchia-based GP variant. Our implementation employs MPI for inter-node parallelism and the MAGMA library for GPU-accelerated batched matrix computations. We demonstrate the scalability and efficiency of the proposed algorithm through experiments on synthetic and real-world workloads, including a 50M point simulation from a respiratory disease model. SBV achieves near-linear scalability on up to 512 A100 and GH200 GPUs, handles 2.56B points, and reduces energy use relative to exact GP solvers, establishing SBV as a scalable and energy-efficient framework for emulating large-scale scientific models on GPU-based distributed systems.

翻译：仿真计算密集型科学模拟对于实现大规模不确定性量化、优化及知情决策至关重要。高斯过程（GP）为统计仿真提供了灵活且数据高效的框架，但其扩展性不足限制了在大数据集上的应用。我们提出了面向分布式GPU系统的缩放块Vecchia（SBV）算法。SBV将各向异性输入缩放与块Vecchia（BV）方法相结合，在利用GPU加速技术实现高效线性代数运算的同时，降低了计算与内存复杂度。据我们所知，这是首个基于Vecchia的GP变体的分布式实现。我们的实现采用MPI进行节点间并行化，并通过MAGMA库实现GPU加速的批量矩阵运算。通过合成数据集及真实工作负载（包括一个包含5000万数据点的呼吸系统疾病模型模拟）的实验，我们验证了所提算法的可扩展性与效率。SBV在多达512个A100和GH200 GPU上实现近线性扩展，可处理25.6亿个数据点，并相比精确GP求解器降低了能耗，确立SBV作为在分布式GPU系统上仿真实大规模科学模型的可扩展且节能框架。

0

相关内容

【剑桥博士论文】可扩展高斯过程：迭代方法与路径条件的进展

【剑桥博士论文】可扩展高斯过程：迭代方法与路径条件的进展

专知会员服务

16+阅读 · 2025年7月10日

【CVPR2025】超图视觉Transformer：图像不仅仅是节点，也不仅仅是边

【CVPR2025】超图视觉Transformer：图像不仅仅是节点，也不仅仅是边

专知会员服务

13+阅读 · 2025年4月14日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知会员服务

47+阅读 · 2022年10月31日

【博士论文】《表征 4 输入 4 输出复值参考块模型的复值神经网络模型逼近》美国空军技术学院2022最新208页论文

【博士论文】《表征 4 输入 4 输出复值参考块模型的复值神经网络模型逼近》美国空军技术学院2022最新208页论文

专知会员服务

12+阅读 · 2022年10月7日

【NeurIPS 2021教程】UFC-César Lincoln C教授：<高斯过程>来龙去脉，216页ppt

【NeurIPS 2021教程】UFC-César Lincoln C教授：<高斯过程>来龙去脉，216页ppt

专知会员服务

22+阅读 · 2021年12月9日

【ICCV 2021】HCFlow：使用一个统一的框架处理图像超分辨率和图像再缩放

专知会员服务

15+阅读 · 2021年10月4日

最新《高斯过程回归简明教程》，19页pdf

最新《高斯过程回归简明教程》，19页pdf

专知会员服务

73+阅读 · 2020年9月30日

【Aalto博士论文】高效样本近似贝叶斯计算的高斯过程代理方法，84页pdf

专知会员服务

35+阅读 · 2020年9月30日

【百度】-大规模深度学习广告系统的分布式分层GPU参数服务器，Distributed Hierarchical GPU PS

专知会员服务

24+阅读 · 2020年3月15日

【电子书推荐】机器学习中的高斯过程Gaussian Processes for Machine Learning，剑桥大学 | Carl Edward Rasmussen，爱丁堡大学 | Chris Williams

【电子书推荐】机器学习中的高斯过程Gaussian Processes for Machine Learning，剑桥大学 | Carl Edward Rasmussen，爱丁堡大学 | Chris Williams

专知会员服务

98+阅读 · 2019年11月19日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

盘点来自工业界的GPU共享方案

盘点来自工业界的GPU共享方案

计算机视觉life

12+阅读 · 2021年9月2日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

谷歌EfficientNet缩放模型，PyTorch实现登热榜

谷歌EfficientNet缩放模型，PyTorch实现登热榜

机器学习算法与Python学习

11+阅读 · 2019年6月4日

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

泡泡机器人SLAM

47+阅读 · 2018年8月1日

超全总结：神经网络加速之量化模型 | 附带代码

超全总结：神经网络加速之量化模型 | 附带代码

PaperWeekly

12+阅读 · 2018年6月1日

一文读懂图像压缩算法

一文读懂图像压缩算法

七月在线实验室

17+阅读 · 2018年5月2日

如何设计基于深度学习的图像压缩算法

如何设计基于深度学习的图像压缩算法

论智

41+阅读 · 2018年4月26日

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

AI研习社

10+阅读 · 2018年3月6日

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

机器人圈

35+阅读 · 2017年7月18日

基于GPU的几类分数阶微分方程的并行算法研究及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

14+阅读 · 2015年12月31日

可压缩多介质流体的真正多维高保真算法

国家自然科学基金

0+阅读 · 2015年12月31日

基于张量的高维多通道图像压缩感知重建理论与算法及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

高维时间序列的降维与建模

国家自然科学基金

23+阅读 · 2015年12月31日

使用GPU加速银道面尘埃辐射图像的高分辨率模拟与多参数反演

国家自然科学基金

0+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

超分辨率中的矩阵值算子学习问题

国家自然科学基金

1+阅读 · 2014年12月31日

基于压缩域的海量视频浓缩关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Accelerating High-Order Finite Element Simulations at Extreme Scale with FP64 Tensor Cores

Arxiv

0+阅读 · 4月9日

An Efficient Batch Solver for the Singular Value Decomposition on GPUs

Arxiv

0+阅读 · 4月9日

CuTeGen: An LLM-Based Agentic Framework for Generation and Optimization of High-Performance GPU Kernels using CuTe

Arxiv

0+阅读 · 4月1日

Vecchia-Inducing-Points Full-Scale Approximations for Gaussian Processes

Arxiv

0+阅读 · 3月27日

Implementation of QR factorization of tall and very skinny matrices on current GPUs

Arxiv

0+阅读 · 3月21日

Fast Multitask Gaussian Process Regression

Arxiv

0+阅读 · 3月16日

Vecchia Gaussian Processes: on probabilistic and statistical properties

Arxiv

0+阅读 · 3月11日

Accelerating High-Order Finite Element Simulations at Extreme Scale with FP64 Tensor Cores

Arxiv

0+阅读 · 3月10日

GPU-Resident Gaussian Process Regression Leveraging Asynchronous Tasks with HPX

Arxiv

0+阅读 · 2月23日

GAGA: Gaussianity-Aware Gaussian Approximation for Efficient 3D Molecular Generation

Arxiv

0+阅读 · 2月20日

VIP会员

文章信息

相关主题

Processing（编程语言）

最新内容

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

1+阅读 · 今天15:03

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

0+阅读 · 今天14:31

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

0+阅读 · 今天14:29

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

12+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

4+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

7+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

8+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

11+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

12+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

8+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

21+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

10+阅读 · 6月17日

相关VIP内容

【剑桥博士论文】可扩展高斯过程：迭代方法与路径条件的进展

【剑桥博士论文】可扩展高斯过程：迭代方法与路径条件的进展

专知会员服务

16+阅读 · 2025年7月10日

【CVPR2025】超图视觉Transformer：图像不仅仅是节点，也不仅仅是边

【CVPR2025】超图视觉Transformer：图像不仅仅是节点，也不仅仅是边

专知会员服务

13+阅读 · 2025年4月14日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知会员服务

47+阅读 · 2022年10月31日

【博士论文】《表征 4 输入 4 输出复值参考块模型的复值神经网络模型逼近》美国空军技术学院2022最新208页论文

【博士论文】《表征 4 输入 4 输出复值参考块模型的复值神经网络模型逼近》美国空军技术学院2022最新208页论文

专知会员服务

12+阅读 · 2022年10月7日

【NeurIPS 2021教程】UFC-César Lincoln C教授：<高斯过程>来龙去脉，216页ppt

【NeurIPS 2021教程】UFC-César Lincoln C教授：<高斯过程>来龙去脉，216页ppt

专知会员服务

22+阅读 · 2021年12月9日

【ICCV 2021】HCFlow：使用一个统一的框架处理图像超分辨率和图像再缩放

专知会员服务

15+阅读 · 2021年10月4日

最新《高斯过程回归简明教程》，19页pdf

最新《高斯过程回归简明教程》，19页pdf

专知会员服务

73+阅读 · 2020年9月30日

【Aalto博士论文】高效样本近似贝叶斯计算的高斯过程代理方法，84页pdf

专知会员服务

35+阅读 · 2020年9月30日

【百度】-大规模深度学习广告系统的分布式分层GPU参数服务器，Distributed Hierarchical GPU PS

专知会员服务

24+阅读 · 2020年3月15日

【电子书推荐】机器学习中的高斯过程Gaussian Processes for Machine Learning，剑桥大学 | Carl Edward Rasmussen，爱丁堡大学 | Chris Williams

【电子书推荐】机器学习中的高斯过程Gaussian Processes for Machine Learning，剑桥大学 | Carl Edward Rasmussen，爱丁堡大学 | Chris Williams

专知会员服务

98+阅读 · 2019年11月19日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

相关资讯

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

盘点来自工业界的GPU共享方案

盘点来自工业界的GPU共享方案

计算机视觉life

12+阅读 · 2021年9月2日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

谷歌EfficientNet缩放模型，PyTorch实现登热榜

谷歌EfficientNet缩放模型，PyTorch实现登热榜

机器学习算法与Python学习

11+阅读 · 2019年6月4日

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

泡泡机器人SLAM

47+阅读 · 2018年8月1日

超全总结：神经网络加速之量化模型 | 附带代码

超全总结：神经网络加速之量化模型 | 附带代码

PaperWeekly

12+阅读 · 2018年6月1日

一文读懂图像压缩算法

一文读懂图像压缩算法

七月在线实验室

17+阅读 · 2018年5月2日

如何设计基于深度学习的图像压缩算法

如何设计基于深度学习的图像压缩算法

论智

41+阅读 · 2018年4月26日

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

AI研习社

10+阅读 · 2018年3月6日

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

机器人圈

35+阅读 · 2017年7月18日

相关论文

Accelerating High-Order Finite Element Simulations at Extreme Scale with FP64 Tensor Cores

Arxiv

0+阅读 · 4月9日

An Efficient Batch Solver for the Singular Value Decomposition on GPUs

Arxiv

0+阅读 · 4月9日

CuTeGen: An LLM-Based Agentic Framework for Generation and Optimization of High-Performance GPU Kernels using CuTe

Arxiv

0+阅读 · 4月1日

Vecchia-Inducing-Points Full-Scale Approximations for Gaussian Processes

Arxiv

0+阅读 · 3月27日

Implementation of QR factorization of tall and very skinny matrices on current GPUs

Arxiv

0+阅读 · 3月21日

Fast Multitask Gaussian Process Regression

Arxiv

0+阅读 · 3月16日

Vecchia Gaussian Processes: on probabilistic and statistical properties

Arxiv

0+阅读 · 3月11日

Accelerating High-Order Finite Element Simulations at Extreme Scale with FP64 Tensor Cores

Arxiv

0+阅读 · 3月10日

GPU-Resident Gaussian Process Regression Leveraging Asynchronous Tasks with HPX

Arxiv

0+阅读 · 2月23日

GAGA: Gaussianity-Aware Gaussian Approximation for Efficient 3D Molecular Generation

Arxiv

0+阅读 · 2月20日

相关基金

基于GPU的几类分数阶微分方程的并行算法研究及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

14+阅读 · 2015年12月31日

可压缩多介质流体的真正多维高保真算法

国家自然科学基金

0+阅读 · 2015年12月31日

基于张量的高维多通道图像压缩感知重建理论与算法及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

高维时间序列的降维与建模

国家自然科学基金

23+阅读 · 2015年12月31日

使用GPU加速银道面尘埃辐射图像的高分辨率模拟与多参数反演

国家自然科学基金

0+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

超分辨率中的矩阵值算子学习问题

国家自然科学基金

1+阅读 · 2014年12月31日

基于压缩域的海量视频浓缩关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员