Universal priors: solving empirical Bayes via Bayesian inference and pretraining - 专知论文

会员服务 ·

0

贝叶斯 · 预训练 · 推断 · 贝叶斯推断 · 分析 ·

Universal priors: solving empirical Bayes via Bayesian inference and pretraining

翻译：通用先验：通过贝叶斯推断与预训练求解经验贝叶斯问题

Nick Cannella,Anzo Teh,Yanjun Han,Yury Polyanskiy

from arxiv, 40 pages, 5 figures

We theoretically justify the recent empirical finding of [Teh et al., 2025] that a transformer pretrained on synthetically generated data achieves strong performance on empirical Bayes (EB) problems. We take an indirect approach to this question: rather than analyzing the model architecture or training dynamics, we ask why a pretrained Bayes estimator, trained under a prespecified training distribution, can adapt to arbitrary test distributions. Focusing on Poisson EB problems, we identify the existence of universal priors such that training under these priors yields a near-optimal regret bound of $\widetilde{O}(\frac{1}{n})$ uniformly over all test distributions. Our analysis leverages the classical phenomenon of posterior contraction in Bayesian statistics, showing that the pretrained transformer adapts to unknown test distributions precisely through posterior contraction. This perspective also explains the phenomenon of length generalization, in which the test sequence length exceeds the training length, as the model performs Bayesian inference using a generalized posterior.

翻译：我们从理论上验证了[Teh等人，2025]的最新实证发现：在合成生成数据上预训练的Transformer模型在经验贝叶斯问题上表现出优异性能。我们采用间接方法探讨该问题：不分析模型架构或训练动态，转而探究在预设训练分布下训练的预训练贝叶斯估计器为何能适应任意测试分布。聚焦于泊松经验贝叶斯问题，我们证明了存在通用先验，使得在这些先验下训练能获得$\widetilde{O}(\frac{1}{n})$的近似最优遗憾界，且该界对所有测试分布具有一致性。我们的分析利用了贝叶斯统计中的经典后验收缩现象，表明预训练Transformer正是通过后验收缩机制适应未知测试分布。该视角同时解释了长度泛化现象（即测试序列长度超过训练长度）——模型通过广义后验执行贝叶斯推断。

0

相关内容

贝叶斯

【剑桥大学博士论文】朝向深度贝叶斯模型的改进变分推断，226页pdf

【剑桥大学博士论文】朝向深度贝叶斯模型的改进变分推断，226页pdf

专知会员服务

36+阅读 · 2024年1月29日

【剑桥大学博士论文】深度贝叶斯模型改进的变分推断方法，226页pdf

【剑桥大学博士论文】深度贝叶斯模型改进的变分推断方法，226页pdf

专知会员服务

49+阅读 · 2024年1月13日

什么是贝叶斯workflow？牛津大学最新《贝叶斯工作流》教程及论文，附75页Slides与视频

什么是贝叶斯workflow？牛津大学最新《贝叶斯工作流》教程及论文，附75页Slides与视频

专知会员服务

59+阅读 · 2022年9月27日

中科院计算所最新「视觉Transformer」综述论文，带你全面了解最新CV分类、检测/分割方法

中科院计算所最新「视觉Transformer」综述论文，带你全面了解最新CV分类、检测/分割方法

专知会员服务

99+阅读 · 2021年11月16日

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

专知会员服务

26+阅读 · 2020年3月19日

最大均方差正则化贝叶斯神经网络，Bayesian Neural Networks With Maximum Mean Discrepancy Regularization

最大均方差正则化贝叶斯神经网络，Bayesian Neural Networks With Maximum Mean Discrepancy Regularization

专知会员服务

54+阅读 · 2020年3月5日

生成式对抗网络先验贝叶斯推断，Bayesian Inference with Generative Adversarial Network Priors

生成式对抗网络先验贝叶斯推断，Bayesian Inference with Generative Adversarial Network Priors

专知会员服务

28+阅读 · 2020年2月18日

【推荐论文】具有深度学习知识的贝叶斯推理，Bayesian Reasoning with Deep-Learned Knowledge

【推荐论文】具有深度学习知识的贝叶斯推理，Bayesian Reasoning with Deep-Learned Knowledge

专知会员服务

39+阅读 · 2020年2月2日

【AAAI2020】拓扑贝叶斯优化与持久性图：Topological Bayesian Optimization with Persistence Diagrams

【AAAI2020】拓扑贝叶斯优化与持久性图：Topological Bayesian Optimization with Persistence Diagrams

专知会员服务

11+阅读 · 2020年1月17日

【变分推断课件】Lectures on Variational Inference： Approximate Bayesian Inference in Machine Learning（附带pdf）

【变分推断课件】Lectures on Variational Inference： Approximate Bayesian Inference in Machine Learning（附带pdf）

专知会员服务

35+阅读 · 2019年11月30日

贝叶斯与深度学习如何结合？看这份256页《贝叶斯深度学习原理》SPCOM2020硬核教程

贝叶斯与深度学习如何结合？看这份256页《贝叶斯深度学习原理》SPCOM2020硬核教程

专知

20+阅读 · 2020年7月22日

【新书册】贝叶斯神经网络，41页pdf

【新书册】贝叶斯神经网络，41页pdf

专知

29+阅读 · 2020年6月3日

面试题：简单说说贝叶斯定理

面试题：简单说说贝叶斯定理

七月在线实验室

12+阅读 · 2019年6月12日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

【深度】让DL可解释？这一份66页贝叶斯深度学习教程告诉你

【深度】让DL可解释？这一份66页贝叶斯深度学习教程告诉你

GAN生成式对抗网络

15+阅读 · 2018年8月11日

让DL可解释？这一份66页贝叶斯深度学习教程告诉你

让DL可解释？这一份66页贝叶斯深度学习教程告诉你

专知

19+阅读 · 2018年8月4日

贝叶斯机器学习前沿进展

贝叶斯机器学习前沿进展

机器学习研究会

21+阅读 · 2018年1月21日

概率论之概念解析：用贝叶斯推断进行参数估计

概率论之概念解析：用贝叶斯推断进行参数估计

专知

14+阅读 · 2018年1月8日

MNIST入门：贝叶斯方法

MNIST入门：贝叶斯方法

Python程序员

23+阅读 · 2017年7月3日

贝叶斯网分解理论及其应用

国家自然科学基金

16+阅读 · 2017年12月31日

面向海量高维数据的可深度结合的贝叶斯网学习与推理新方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

贝叶斯柔性密度方法及其在高维金融数据中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于贝叶斯观点的分数阶扩散方程反问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于贝叶斯网络的城市公交动态调度决策方法

国家自然科学基金

3+阅读 · 2015年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

贝叶斯博弈关于信息结构的比较静态分析及应用

国家自然科学基金

1+阅读 · 2014年12月31日

随机Helmholtz型问题的数值方法

国家自然科学基金

0+阅读 · 2014年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

Preconditioned One-Step Generative Modeling for Bayesian Inverse Problems in Function Spaces

Arxiv

0+阅读 · 3月16日

Geometric Scaling of Bayesian Inference in LLMs

Arxiv

0+阅读 · 3月11日

The Bayesian Geometry of Transformer Attention

Arxiv

0+阅读 · 3月11日

Generalized Bayes for Causal Inference

Arxiv

0+阅读 · 3月3日

Unsupervised Continual Learning for Amortized Bayesian Inference

Arxiv

0+阅读 · 2月26日

Function-Space Empirical Bayes Regularisation with Student's t Priors

Arxiv

0+阅读 · 2月25日

Empirical Bayes data integreation for multi-response regression

Arxiv

0+阅读 · 2月14日

Principled priors for Bayesian inference of circular models

Arxiv

0+阅读 · 2月10日

Empirical Bayes for Data Integration

Arxiv

0+阅读 · 2月5日

An Efficient Bayesian Framework for Inverse Problems via Optimization and Inversion: Surrogate Modeling, Parameter Inference, and Uncertainty Quantification

Arxiv

0+阅读 · 2月4日

VIP会员

文章信息

相关主题

贝叶斯推断

最新内容

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

专知会员服务

4+阅读 · 5月31日

比利时发布用于实时战场军事装备识别的离线人工智能系统

比利时发布用于实时战场军事装备识别的离线人工智能系统

专知会员服务

3+阅读 · 5月31日

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

专知会员服务

3+阅读 · 5月31日

超越网格：作战环境对炮兵的影响

超越网格：作战环境对炮兵的影响

专知会员服务

2+阅读 · 5月31日

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

专知会员服务

5+阅读 · 5月31日

综述 | 推理时控制：可信大语言模型的运行时治理全景

综述 | 推理时控制：可信大语言模型的运行时治理全景

专知会员服务

3+阅读 · 5月31日

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

5+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

7+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

4+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

5+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

18+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

9+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

10+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

9+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

14+阅读 · 5月29日

相关VIP内容

【剑桥大学博士论文】朝向深度贝叶斯模型的改进变分推断，226页pdf

【剑桥大学博士论文】朝向深度贝叶斯模型的改进变分推断，226页pdf

专知会员服务

36+阅读 · 2024年1月29日

【剑桥大学博士论文】深度贝叶斯模型改进的变分推断方法，226页pdf

【剑桥大学博士论文】深度贝叶斯模型改进的变分推断方法，226页pdf

专知会员服务

49+阅读 · 2024年1月13日

什么是贝叶斯workflow？牛津大学最新《贝叶斯工作流》教程及论文，附75页Slides与视频

什么是贝叶斯workflow？牛津大学最新《贝叶斯工作流》教程及论文，附75页Slides与视频

专知会员服务

59+阅读 · 2022年9月27日

中科院计算所最新「视觉Transformer」综述论文，带你全面了解最新CV分类、检测/分割方法

中科院计算所最新「视觉Transformer」综述论文，带你全面了解最新CV分类、检测/分割方法

专知会员服务

99+阅读 · 2021年11月16日

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

专知会员服务

26+阅读 · 2020年3月19日

最大均方差正则化贝叶斯神经网络，Bayesian Neural Networks With Maximum Mean Discrepancy Regularization

最大均方差正则化贝叶斯神经网络，Bayesian Neural Networks With Maximum Mean Discrepancy Regularization

专知会员服务

54+阅读 · 2020年3月5日

生成式对抗网络先验贝叶斯推断，Bayesian Inference with Generative Adversarial Network Priors

生成式对抗网络先验贝叶斯推断，Bayesian Inference with Generative Adversarial Network Priors

专知会员服务

28+阅读 · 2020年2月18日

【推荐论文】具有深度学习知识的贝叶斯推理，Bayesian Reasoning with Deep-Learned Knowledge

【推荐论文】具有深度学习知识的贝叶斯推理，Bayesian Reasoning with Deep-Learned Knowledge

专知会员服务

39+阅读 · 2020年2月2日

【AAAI2020】拓扑贝叶斯优化与持久性图：Topological Bayesian Optimization with Persistence Diagrams

【AAAI2020】拓扑贝叶斯优化与持久性图：Topological Bayesian Optimization with Persistence Diagrams

专知会员服务

11+阅读 · 2020年1月17日

【变分推断课件】Lectures on Variational Inference： Approximate Bayesian Inference in Machine Learning（附带pdf）

【变分推断课件】Lectures on Variational Inference： Approximate Bayesian Inference in Machine Learning（附带pdf）

专知会员服务

35+阅读 · 2019年11月30日

热门VIP内容

开通专知VIP会员享更多权益服务

比利时发布用于实时战场军事装备识别的离线人工智能系统

超越网格：作战环境对炮兵的影响

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

相关资讯

贝叶斯与深度学习如何结合？看这份256页《贝叶斯深度学习原理》SPCOM2020硬核教程

贝叶斯与深度学习如何结合？看这份256页《贝叶斯深度学习原理》SPCOM2020硬核教程

专知

20+阅读 · 2020年7月22日

【新书册】贝叶斯神经网络，41页pdf

【新书册】贝叶斯神经网络，41页pdf

专知

29+阅读 · 2020年6月3日

面试题：简单说说贝叶斯定理

面试题：简单说说贝叶斯定理

七月在线实验室

12+阅读 · 2019年6月12日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

【深度】让DL可解释？这一份66页贝叶斯深度学习教程告诉你

【深度】让DL可解释？这一份66页贝叶斯深度学习教程告诉你

GAN生成式对抗网络

15+阅读 · 2018年8月11日

让DL可解释？这一份66页贝叶斯深度学习教程告诉你

让DL可解释？这一份66页贝叶斯深度学习教程告诉你

专知

19+阅读 · 2018年8月4日

贝叶斯机器学习前沿进展

贝叶斯机器学习前沿进展

机器学习研究会

21+阅读 · 2018年1月21日

概率论之概念解析：用贝叶斯推断进行参数估计

概率论之概念解析：用贝叶斯推断进行参数估计

专知

14+阅读 · 2018年1月8日

MNIST入门：贝叶斯方法

MNIST入门：贝叶斯方法

Python程序员

23+阅读 · 2017年7月3日

相关论文

Preconditioned One-Step Generative Modeling for Bayesian Inverse Problems in Function Spaces

Arxiv

0+阅读 · 3月16日

Geometric Scaling of Bayesian Inference in LLMs

Arxiv

0+阅读 · 3月11日

The Bayesian Geometry of Transformer Attention

Arxiv

0+阅读 · 3月11日

Generalized Bayes for Causal Inference

Arxiv

0+阅读 · 3月3日

Unsupervised Continual Learning for Amortized Bayesian Inference

Arxiv

0+阅读 · 2月26日

Function-Space Empirical Bayes Regularisation with Student's t Priors

Arxiv

0+阅读 · 2月25日

Empirical Bayes data integreation for multi-response regression

Arxiv

0+阅读 · 2月14日

Principled priors for Bayesian inference of circular models

Arxiv

0+阅读 · 2月10日

Empirical Bayes for Data Integration

Arxiv

0+阅读 · 2月5日

An Efficient Bayesian Framework for Inverse Problems via Optimization and Inversion: Surrogate Modeling, Parameter Inference, and Uncertainty Quantification

Arxiv

0+阅读 · 2月4日

相关基金

贝叶斯网分解理论及其应用

国家自然科学基金

16+阅读 · 2017年12月31日

面向海量高维数据的可深度结合的贝叶斯网学习与推理新方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

贝叶斯柔性密度方法及其在高维金融数据中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于贝叶斯观点的分数阶扩散方程反问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于贝叶斯网络的城市公交动态调度决策方法

国家自然科学基金

3+阅读 · 2015年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

贝叶斯博弈关于信息结构的比较静态分析及应用

国家自然科学基金

1+阅读 · 2014年12月31日

随机Helmholtz型问题的数值方法

国家自然科学基金

0+阅读 · 2014年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员