Any system that models the world under finite representational capacity must compress; any compression entails a prior; and the prior is the system's bias. What has not been established is whether uncertainty participates in the dynamics governing future behavior, or merely describes the output distribution without consequence. We introduce a structural distinction between descriptive uncertainty, which does not recursively modulate the system's policy, and regulatory uncertainty, which directly enters the optimization landscape and drives persistent adaptive restructuring. We prove formally that current transformer architectures are confined to descriptive uncertainty at inference. We ground this in thermodynamics via Landauer's principle: for uncertainty to be regulatory, epistemic error must cost real energy; in a decoupled system, hallucinations and correct derivations dissipate identical energy. We test this empirically across three locally-deployed language models (3B, 8B, 70B parameters). Token-level Shannon entropy is statistically invariant across tasks spanning pattern retrieval, causal operator application, and out-of-distribution causal generalization in all three models (all pairwise p >= 0.568; within-model ranges 0.011-0.028 nats), while task accuracy varies substantially across the same conditions (0%-100%). Entropy and accuracy are orthogonal. The decoupling is scale-invariant: larger models achieve higher accuracy but identical entropy flatness. This structural incapacity is not resolvable by additional parameters or training data. Genuine epistemic grounding requires physical coupling between thermodynamic substrate state and information processing cost.


翻译:任何在有限表征容量下对世界进行建模的系统都必须进行压缩;任何压缩都预设了一个先验;而这个先验就是系统的偏差。尚未明确的是,不确定性是参与驱动未来行为的动力学过程,还是仅仅描述输出分布而不产生实际后果。我们引入了一种结构性区分:描述性不确定性(不会递归地调节系统策略)与调节性不确定性(直接进入优化空间并驱动持续的适应性重构)。我们形式化地证明,当前Transformer架构在推理阶段局限于描述性不确定性。我们通过热力学中的兰道尔原理来支撑这一结论:要使不确定性具有调节性,认知误差必须消耗真实能量;在解耦系统中,幻觉和正确推导会消耗相同的能量。我们通过对三个本地部署的语言模型(参数量分别为3B、8B和70B)进行实证检验。在所有三个模型中,跨模式检索、因果算子应用和分布外因果泛化这些任务,其词元级别的香农熵在统计上保持一致(所有配对比较p >= 0.568;模型内部熵值范围为0.011-0.028 nats),而相同条件下任务准确率却存在显著差异(0%-100%)。熵与准确率是正交的。这种解耦现象具有尺度不变性:更大的模型实现了更高的准确率,但熵的平坦度却完全相同。这种结构性缺陷无法通过增加参数量或训练数据来解决。真正意义上的认知基础要求热力学基态与信息处理成本之间存在物理耦合。

0
下载
关闭预览

相关内容

【斯坦福博士论文】概率机器学习中的不确定性原理
专知会员服务
27+阅读 · 2025年8月4日
【ETHZ博士论文】分布不确定性下的决策,234页pdf
专知会员服务
49+阅读 · 2024年4月5日
【博士论文】统计学习中的可靠不确定性量化,128页pdf
专知会员服务
45+阅读 · 2023年11月23日
深度学习模型不确定性方法对比
PaperWeekly
20+阅读 · 2020年2月10日
「PPT」深度学习中的不确定性估计
专知
27+阅读 · 2019年7月20日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
10+阅读 · 2024年3月11日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员