We theoretically justify the recent empirical finding of [Teh et al., 2025] that a transformer pretrained on synthetically generated data achieves strong performance on empirical Bayes (EB) problems. We take an indirect approach to this question: rather than analyzing the model architecture or training dynamics, we ask why a pretrained Bayes estimator, trained under a prespecified training distribution, can adapt to arbitrary test distributions. Focusing on Poisson EB problems, we identify the existence of universal priors such that training under these priors yields a near-optimal regret bound of $\widetilde{O}(\frac{1}{n})$ uniformly over all test distributions. Our analysis leverages the classical phenomenon of posterior contraction in Bayesian statistics, showing that the pretrained transformer adapts to unknown test distributions precisely through posterior contraction. This perspective also explains the phenomenon of length generalization, in which the test sequence length exceeds the training length, as the model performs Bayesian inference using a generalized posterior.


翻译:我们从理论上验证了[Teh等人,2025]的最新实证发现:在合成生成数据上预训练的Transformer模型在经验贝叶斯问题上表现出优异性能。我们采用间接方法探讨该问题:不分析模型架构或训练动态,转而探究在预设训练分布下训练的预训练贝叶斯估计器为何能适应任意测试分布。聚焦于泊松经验贝叶斯问题,我们证明了存在通用先验,使得在这些先验下训练能获得$\widetilde{O}(\frac{1}{n})$的近似最优遗憾界,且该界对所有测试分布具有一致性。我们的分析利用了贝叶斯统计中的经典后验收缩现象,表明预训练Transformer正是通过后验收缩机制适应未知测试分布。该视角同时解释了长度泛化现象(即测试序列长度超过训练长度)——模型通过广义后验执行贝叶斯推断。

0
下载
关闭预览

相关内容

【新书册】贝叶斯神经网络,41页pdf
专知
29+阅读 · 2020年6月3日
面试题:简单说说贝叶斯定理
七月在线实验室
12+阅读 · 2019年6月12日
【深度】让DL可解释?这一份66页贝叶斯深度学习教程告诉你
GAN生成式对抗网络
15+阅读 · 2018年8月11日
贝叶斯机器学习前沿进展
机器学习研究会
21+阅读 · 2018年1月21日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
国家自然科学基金
16+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2月5日
VIP会员
相关VIP内容
相关资讯
【新书册】贝叶斯神经网络,41页pdf
专知
29+阅读 · 2020年6月3日
面试题:简单说说贝叶斯定理
七月在线实验室
12+阅读 · 2019年6月12日
【深度】让DL可解释?这一份66页贝叶斯深度学习教程告诉你
GAN生成式对抗网络
15+阅读 · 2018年8月11日
贝叶斯机器学习前沿进展
机器学习研究会
21+阅读 · 2018年1月21日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
相关基金
国家自然科学基金
16+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员