We reinterpret the final Large Language Model (LLM) softmax classifier as an Energy-Based Model (EBM), decomposing the sequence-to-sequence probability chain into multiple interacting EBMs at inference. This principled approach allows us to track "energy spills" during decoding, which we empirically show correlate with factual errors, biases, and failures. Similar to Orgad et al. (2025), our method localizes the exact answer token and subsequently tests for hallucinations. Crucially, however, we achieve this without requiring trained probe classifiers or activation ablations. Instead, we introduce two completely training-free metrics derived directly from output logits: spilled energy, which captures the discrepancy between energy values across consecutive generation steps that should theoretically match, and marginalized energy, which is measurable at a single step. Evaluated on nine benchmarks across state-of-the-art LLMs (including LLaMA, Mistral, and Gemma) and on synthetic algebraic operations (Qwen3), our approach demonstrates robust, competitive hallucination detection and cross-task generalization. Notably, these results hold for both pretrained and instruction-tuned variants without introducing any training overhead.


翻译:我们将最终的大型语言模型(LLM)softmax分类器重新解释为基于能量的模型(EBM),在推理过程中将序列到序列的概率链分解为多个相互作用的EBM。这种基于原理的方法使我们能够追踪解码过程中的“能量溢出”,我们通过实验证明这种溢出与事实错误、偏见和故障相关。与Orgad等人(2025)的研究类似,我们的方法能够定位确切的答案标记并随后检测幻觉。然而,关键区别在于我们无需训练探针分类器或进行激活消融即可实现这一目标。相反,我们引入了两种完全无需训练的度量指标,直接源自输出逻辑值:能量溢出(捕捉连续生成步骤间理论上应匹配的能量值差异)和边缘化能量(可在单一步骤中测量)。通过在九个基准测试中对最先进的LLM(包括LLaMA、Mistral和Gemma)以及合成代数运算(Qwen3)进行评估,我们的方法展示了鲁棒且具有竞争力的幻觉检测能力及跨任务泛化性能。值得注意的是,这些结果对于预训练模型和指令微调变体均成立,且未引入任何训练开销。

0
下载
关闭预览

相关内容

大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
赋能大型语言模型多领域资源挑战
专知会员服务
10+阅读 · 2025年6月10日
可解释人工智能中的大语言模型:全面综述
专知会员服务
53+阅读 · 2025年4月2日
关于大语言模型驱动的推荐系统智能体的综述
专知会员服务
29+阅读 · 2025年2月17日
大型概念模型:在句子表示空间中的语言建模
专知会员服务
18+阅读 · 2024年12月14日
大型语言模型(LLMs),附Slides与视频
专知会员服务
71+阅读 · 2024年6月30日
《大型语言模型》最新全面概述
专知会员服务
111+阅读 · 2023年7月14日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月15日
Arxiv
0+阅读 · 2月23日
VIP会员
最新内容
面向具身智能与机器人仿真的三维生成:综述
专知会员服务
1+阅读 · 今天14:22
《新兴技术武器化及其对全球风险的影响》
专知会员服务
8+阅读 · 4月29日
《帕兰泰尔平台介绍:信息分析平台》
专知会员服务
21+阅读 · 4月29日
相关VIP内容
大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
赋能大型语言模型多领域资源挑战
专知会员服务
10+阅读 · 2025年6月10日
可解释人工智能中的大语言模型:全面综述
专知会员服务
53+阅读 · 2025年4月2日
关于大语言模型驱动的推荐系统智能体的综述
专知会员服务
29+阅读 · 2025年2月17日
大型概念模型:在句子表示空间中的语言建模
专知会员服务
18+阅读 · 2024年12月14日
大型语言模型(LLMs),附Slides与视频
专知会员服务
71+阅读 · 2024年6月30日
《大型语言模型》最新全面概述
专知会员服务
111+阅读 · 2023年7月14日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员