LLMs are Bayesian, In Expectation, Not in Realization - 专知论文

会员服务 ·

0

贝叶斯 · 位置编码 · 置换 · 上下文 · 序列 ·

LLMs are Bayesian, In Expectation, Not in Realization

翻译：大语言模型是贝叶斯式的：在期望意义上成立，而非在具体实现中

Leon Chlon,Zein Khamis,Maggie Chlon,Mahdi El Zein,MarcAntonio M. Awada

Exchangeability-based martingale diagnostics have been used to question Bayesian explanations of transformer in-context learning. We show that these violations are compatible with Bayesian/MDL behavior once we account for a basic architectural fact: positional encodings break exchangeability. Accordingly, the relevant baseline is performance in expectation over orderings of an exchangeable multiset, not performance under every fixed ordering. In a Bernoulli microscope (under explicit regularity assumptions), we bound the permutation-induced dispersion detected by martingale diagnostics (Theorem~3.4) while proving near-optimal expected MDL/compression over permutations (Theorem~3.6). Empirically, black-box next-token log-probabilities from an Azure OpenAI deployment exhibit nonzero expectation--realization gaps that decay with context length (mean 0.74 at $n = 10$ to 0.26 at $n = 50$; 95\% confidence intervals), and permutation averaging reduces order-induced standard deviation with a $k^{-1/2}$ trend (Figure~2). Controlled from-scratch training ablations varying only the positional encoding show within-prefix order variance collapsing to $\approx 10^{-16}$ with no positional encoding, but remaining $10^{-8}$--$10^{-6}$ under standard positional encoding schemes (Table~2). Robustness checks extend beyond Bernoulli to categorical sequences, synthetic in-context learning tasks, and evidence-grounded QA with permuted exchangeable evidence chunks.

翻译：基于可交换性的鞅诊断方法曾被用于质疑Transformer上下文学习的贝叶斯解释。我们证明，一旦考虑一个基本架构事实——位置编码会破坏可交换性，这些违反现象与贝叶斯/最小描述长度（MDL）行为是相容的。因此，相关的基准应是在可交换多重集的顺序排列上的期望性能，而非每个固定顺序下的性能。在伯努利显微镜模型（基于明确的正则性假设）中，我们界定了鞅诊断检测到的置换诱导离散度（定理3.4），同时证明了在置换上接近最优的期望MDL/压缩性能（定理3.6）。实证研究表明，Azure OpenAI部署的黑盒下一词元对数概率表现出非零的期望-实现差距，且该差距随上下文长度衰减（均值从$n=10$时的0.74降至$n=50$时的0.26；95%置信区间），而置换平均能以$k^{-1/2}$的趋势降低顺序诱导的标准差（图2）。通过仅改变位置编码的受控从头训练消融实验显示：无位置编码时前缀内顺序方差坍缩至约$10^{-16}$，而在标准位置编码方案下仍保持在$10^{-8}$—$10^{-6}$之间（表2）。鲁棒性检验从伯努利序列扩展到分类序列、合成上下文学习任务，以及具有可置换可交换证据块的证据基础问答。

0

相关内容

贝叶斯

大型语言模型的规模效应局限

大型语言模型的规模效应局限

专知会员服务

14+阅读 · 2025年11月18日

【ICML2025】大语言模型是自我示范预选择器

【ICML2025】大语言模型是自我示范预选择器

专知会员服务

12+阅读 · 2025年6月9日

【新书】设计大型语言模型应用：一种面向LLMs的整体方法

【新书】设计大型语言模型应用：一种面向LLMs的整体方法

专知会员服务

56+阅读 · 2025年3月16日

大型语言模型（LLMs），附Slides与视频

大型语言模型（LLMs），附Slides与视频

专知会员服务

71+阅读 · 2024年6月30日

大模型如何可解释？帝国理工最新《大型语言模型的解释性》最新综述

大模型如何可解释？帝国理工最新《大型语言模型的解释性》最新综述

专知会员服务

78+阅读 · 2024年1月24日

【NeurIPS2023】大型语言模型是零样本的时间序列预测者

【NeurIPS2023】大型语言模型是零样本的时间序列预测者

专知会员服务

47+阅读 · 2023年10月13日

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

专知会员服务

47+阅读 · 2023年10月12日

大模型如何可解释？新泽西理工学院等最新《大型语言模型可解释性》综述

大模型如何可解释？新泽西理工学院等最新《大型语言模型可解释性》综述

专知会员服务

98+阅读 · 2023年9月11日

大模型如何从思维链(CoT)，到思维树(ToT)，再到思维图(GoT)：用LLMs解决复杂问题！

大模型如何从思维链(CoT)，到思维树(ToT)，再到思维图(GoT)：用LLMs解决复杂问题！

专知会员服务

78+阅读 · 2023年9月3日

【贝叶斯规则因果推理】《Causal Inference with Bayes Rule》by Finn Lattimore, David Rohde

【贝叶斯规则因果推理】《Causal Inference with Bayes Rule》by Finn Lattimore, David Rohde

专知会员服务

48+阅读 · 2019年12月13日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

19+阅读 · 2020年8月31日

【干货书】贝叶斯推断随机过程，449页pdf

【干货书】贝叶斯推断随机过程，449页pdf

专知

31+阅读 · 2020年8月27日

Bert 之后：预训练语言模型与自然语言生成

Bert 之后：预训练语言模型与自然语言生成

AINLP

16+阅读 · 2019年7月16日

面试题：简单说说贝叶斯定理

面试题：简单说说贝叶斯定理

七月在线实验室

12+阅读 · 2019年6月12日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

BERT大火却不懂Transformer？读这一篇就够了

BERT大火却不懂Transformer？读这一篇就够了

大数据文摘

12+阅读 · 2019年1月8日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

人工智能头条

10+阅读 · 2018年6月29日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

不用数学也能讲清贝叶斯理论的马尔可夫链蒙特卡洛方法？这篇文章做到了

不用数学也能讲清贝叶斯理论的马尔可夫链蒙特卡洛方法？这篇文章做到了

AI100

11+阅读 · 2017年12月24日

贝叶斯网分解理论及其应用

国家自然科学基金

16+阅读 · 2017年12月31日

面向海量高维数据的可深度结合的贝叶斯网学习与推理新方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

一类大规模实对称锥规划算法

国家自然科学基金

0+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向城市DSM构建的Bayes-MRF相位解缠算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于贝叶斯网络的城市公交动态调度决策方法

国家自然科学基金

3+阅读 · 2015年12月31日

变换结构方程模型的非参数贝叶斯分析

国家自然科学基金

4+阅读 · 2014年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

Geometric Scaling of Bayesian Inference in LLMs

Arxiv

0+阅读 · 3月11日

Bayes with No Shame: Admissibility Geometries of Predictive Inference

Arxiv

0+阅读 · 3月5日

Generalized Bayes for Causal Inference

Arxiv

0+阅读 · 3月3日

Bayesian Attention Mechanism: A Probabilistic Framework for Positional Encoding and Context Length Extrapolation

Arxiv

0+阅读 · 2月23日

Bayesian Optimality of In-Context Learning with Selective State Spaces

Arxiv

0+阅读 · 2月19日

LLMs and people both learn to form conventions -- just not with each other

Arxiv

0+阅读 · 2月9日

Evaluating and Calibrating LLM Confidence on Questions with Multiple Correct Answers

Arxiv

0+阅读 · 2月8日

Estimating Semantic Alphabet Size for LLM Uncertainty Quantification

Arxiv

0+阅读 · 2月6日

Optimal Bayesian Stopping for Efficient Inference of Consistent LLM Answers

Arxiv

0+阅读 · 2月5日

Thompson Sampling via Fine-Tuning of LLMs

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

专知会员服务

10+阅读 · 今天6:39

《人工智能在全球军事与武器工业中的应用、方法论与影响》

《人工智能在全球军事与武器工业中的应用、方法论与影响》

专知会员服务

3+阅读 · 今天6:36

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

专知会员服务

8+阅读 · 今天6:28

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

专知会员服务

5+阅读 · 今天0:51

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

4+阅读 · 4月29日

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

专知会员服务

7+阅读 · 4月29日

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

专知会员服务

6+阅读 · 4月29日

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

专知会员服务

6+阅读 · 4月29日

《化繁为简：军事模拟器配置的对话式方法》报告

《化繁为简：军事模拟器配置的对话式方法》报告

专知会员服务

10+阅读 · 4月29日

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

专知会员服务

12+阅读 · 4月29日

《新兴技术武器化及其对全球风险的影响》

《新兴技术武器化及其对全球风险的影响》

专知会员服务

8+阅读 · 4月29日

《帕兰泰尔平台介绍：信息分析平台》

《帕兰泰尔平台介绍：信息分析平台》

专知会员服务

20+阅读 · 4月29日

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

专知会员服务

12+阅读 · 4月29日

【伯克利博士论文】深度解析 AI 智能体的失配问题

【伯克利博士论文】深度解析 AI 智能体的失配问题

专知会员服务

8+阅读 · 4月28日

智能体化世界建模：基础、能力、规律及展望

智能体化世界建模：基础、能力、规律及展望

专知会员服务

11+阅读 · 4月28日

相关VIP内容

大型语言模型的规模效应局限

大型语言模型的规模效应局限

专知会员服务

14+阅读 · 2025年11月18日

【ICML2025】大语言模型是自我示范预选择器

【ICML2025】大语言模型是自我示范预选择器

专知会员服务

12+阅读 · 2025年6月9日

【新书】设计大型语言模型应用：一种面向LLMs的整体方法

【新书】设计大型语言模型应用：一种面向LLMs的整体方法

专知会员服务

56+阅读 · 2025年3月16日

大型语言模型（LLMs），附Slides与视频

大型语言模型（LLMs），附Slides与视频

专知会员服务

71+阅读 · 2024年6月30日

大模型如何可解释？帝国理工最新《大型语言模型的解释性》最新综述

大模型如何可解释？帝国理工最新《大型语言模型的解释性》最新综述

专知会员服务

78+阅读 · 2024年1月24日

【NeurIPS2023】大型语言模型是零样本的时间序列预测者

【NeurIPS2023】大型语言模型是零样本的时间序列预测者

专知会员服务

47+阅读 · 2023年10月13日

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

专知会员服务

47+阅读 · 2023年10月12日

大模型如何可解释？新泽西理工学院等最新《大型语言模型可解释性》综述

大模型如何可解释？新泽西理工学院等最新《大型语言模型可解释性》综述

专知会员服务

98+阅读 · 2023年9月11日

大模型如何从思维链(CoT)，到思维树(ToT)，再到思维图(GoT)：用LLMs解决复杂问题！

大模型如何从思维链(CoT)，到思维树(ToT)，再到思维图(GoT)：用LLMs解决复杂问题！

专知会员服务

78+阅读 · 2023年9月3日

【贝叶斯规则因果推理】《Causal Inference with Bayes Rule》by Finn Lattimore, David Rohde

【贝叶斯规则因果推理】《Causal Inference with Bayes Rule》by Finn Lattimore, David Rohde

专知会员服务

48+阅读 · 2019年12月13日

热门VIP内容

开通专知VIP会员享更多权益服务

《人工智能在全球军事与武器工业中的应用、方法论与影响》

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

相关资讯

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

19+阅读 · 2020年8月31日

【干货书】贝叶斯推断随机过程，449页pdf

【干货书】贝叶斯推断随机过程，449页pdf

专知

31+阅读 · 2020年8月27日

Bert 之后：预训练语言模型与自然语言生成

Bert 之后：预训练语言模型与自然语言生成

AINLP

16+阅读 · 2019年7月16日

面试题：简单说说贝叶斯定理

面试题：简单说说贝叶斯定理

七月在线实验室

12+阅读 · 2019年6月12日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

BERT大火却不懂Transformer？读这一篇就够了

BERT大火却不懂Transformer？读这一篇就够了

大数据文摘

12+阅读 · 2019年1月8日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

人工智能头条

10+阅读 · 2018年6月29日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

不用数学也能讲清贝叶斯理论的马尔可夫链蒙特卡洛方法？这篇文章做到了

不用数学也能讲清贝叶斯理论的马尔可夫链蒙特卡洛方法？这篇文章做到了

AI100

11+阅读 · 2017年12月24日

相关论文

Geometric Scaling of Bayesian Inference in LLMs

Arxiv

0+阅读 · 3月11日

Bayes with No Shame: Admissibility Geometries of Predictive Inference

Arxiv

0+阅读 · 3月5日

Generalized Bayes for Causal Inference

Arxiv

0+阅读 · 3月3日

Bayesian Attention Mechanism: A Probabilistic Framework for Positional Encoding and Context Length Extrapolation

Arxiv

0+阅读 · 2月23日

Bayesian Optimality of In-Context Learning with Selective State Spaces

Arxiv

0+阅读 · 2月19日

LLMs and people both learn to form conventions -- just not with each other

Arxiv

0+阅读 · 2月9日

Evaluating and Calibrating LLM Confidence on Questions with Multiple Correct Answers

Arxiv

0+阅读 · 2月8日

Estimating Semantic Alphabet Size for LLM Uncertainty Quantification

Arxiv

0+阅读 · 2月6日

Optimal Bayesian Stopping for Efficient Inference of Consistent LLM Answers

Arxiv

0+阅读 · 2月5日

Thompson Sampling via Fine-Tuning of LLMs

Arxiv

0+阅读 · 1月30日

相关基金

贝叶斯网分解理论及其应用

国家自然科学基金

16+阅读 · 2017年12月31日

面向海量高维数据的可深度结合的贝叶斯网学习与推理新方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

一类大规模实对称锥规划算法

国家自然科学基金

0+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向城市DSM构建的Bayes-MRF相位解缠算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于贝叶斯网络的城市公交动态调度决策方法

国家自然科学基金

3+阅读 · 2015年12月31日

变换结构方程模型的非参数贝叶斯分析

国家自然科学基金

4+阅读 · 2014年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员