Neural Processes (NPs) are a rapidly evolving class of models designed to directly model the posterior predictive distribution of stochastic processes. While early architectures were developed primarily as a scalable alternative to Gaussian Processes (GPs), modern NPs tackle far more complex and data-hungry applications spanning geology, epidemiology, climate, and robotics. These applications have placed increasing pressure on the scalability of these models, with many architectures compromising accuracy for scalability. In this paper, we demonstrate that this trade-off is often unnecessary, particularly when modeling fully or partially translation-invariant processes. We propose a versatile new architecture, the Biased Scan Attention Transformer Neural Process (BSA-TNP), which introduces Kernel Regression Blocks (KRBlocks), group-invariant attention biases, and memory-efficient Biased Scan Attention (BSA). BSA-TNP is able to: (1) match or exceed the accuracy of the best models while often training in a fraction of the time, (2) exhibit translation invariance, enabling learning at multiple resolutions simultaneously, (3) transparently model processes that evolve in both space and time, (4) support high-dimensional fixed effects, and (5) scale gracefully, running inference on over 1M test points and 100K context points in under a minute on a single 24GB GPU. Code is provided as part of the `dl4bi` package.


翻译:神经过程(NPs)是一类快速发展的模型,旨在直接建模随机过程的后验预测分布。尽管早期架构主要作为高斯过程(GPs)的可扩展替代方案而开发,现代NPs已能应对涵盖地质学、流行病学、气候学和机器人学等领域的更为复杂且数据密集的应用。这些应用对模型的可扩展性提出了越来越高的要求,许多架构为了可扩展性而牺牲了准确性。在本文中,我们证明这种权衡通常是不必要的,尤其是在建模完全或部分平移不变过程时。我们提出了一种通用的新架构——偏移扫描注意力Transformer神经过程(BSA-TNP),该架构引入了核回归块(KRBlocks)、群不变注意力偏置以及内存高效的偏移扫描注意力(BSA)。BSA-TNP能够:(1)在通常仅需少量训练时间的情况下达到或超越最佳模型的准确性;(2)展现平移不变性,支持同时在多个分辨率下学习;(3)透明地建模在空间和时间上演变的过程;(4)支持高维固定效应;(5)优雅地扩展,在单块24GB GPU上不到一分钟时间内即可对超过100万个测试点和10万个上下文点进行推断。相关代码已作为`dl4bi`软件包的一部分提供。

0
下载
关闭预览

相关内容

【剑桥大学博士论文】卷积条件神经过程,226页pdf
专知会员服务
25+阅读 · 2024年8月21日
Attention!注意力机制模型最新综述(附下载)
THU数据派
29+阅读 · 2019年4月13日
Attention!注意力机制模型最新综述
专知
65+阅读 · 2019年4月8日
图神经网络最近这么火,不妨看看我们精选的这七篇
人工智能前沿讲习班
37+阅读 · 2018年12月10日
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关主题
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关基金
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员