Spilled Energy in Large Language Models - 专知论文

会员服务 ·

0

溢出 · 语言模型 · 分类器 · 序列 · 大语言模型 ·

Spilled Energy in Large Language Models

翻译：大型语言模型中的能量溢出

Adrian Robert Minut,Hazem Dewidar,Iacopo Masi

We reinterpret the final Large Language Model (LLM) softmax classifier as an Energy-Based Model (EBM), decomposing the sequence-to-sequence probability chain into multiple interacting EBMs at inference. This principled approach allows us to track "energy spills" during decoding, which we empirically show correlate with factual errors, biases, and failures. Similar to Orgad et al. (2025), our method localizes the exact answer token and subsequently tests for hallucinations. Crucially, however, we achieve this without requiring trained probe classifiers or activation ablations. Instead, we introduce two completely training-free metrics derived directly from output logits: spilled energy, which captures the discrepancy between energy values across consecutive generation steps that should theoretically match, and marginalized energy, which is measurable at a single step. Evaluated on nine benchmarks across state-of-the-art LLMs (including LLaMA, Mistral, and Gemma) and on synthetic algebraic operations (Qwen3), our approach demonstrates robust, competitive hallucination detection and cross-task generalization. Notably, these results hold for both pretrained and instruction-tuned variants without introducing any training overhead.

翻译：我们将最终的大型语言模型（LLM）softmax分类器重新解释为基于能量的模型（EBM），在推理过程中将序列到序列的概率链分解为多个相互作用的EBM。这种基于原理的方法使我们能够追踪解码过程中的“能量溢出”，我们通过实验证明这种溢出与事实错误、偏见和故障相关。与Orgad等人（2025）的研究类似，我们的方法能够定位确切的答案标记并随后检测幻觉。然而，关键区别在于我们无需训练探针分类器或进行激活消融即可实现这一目标。相反，我们引入了两种完全无需训练的度量指标，直接源自输出逻辑值：能量溢出（捕捉连续生成步骤间理论上应匹配的能量值差异）和边缘化能量（可在单一步骤中测量）。通过在九个基准测试中对最先进的LLM（包括LLaMA、Mistral和Gemma）以及合成代数运算（Qwen3）进行评估，我们的方法展示了鲁棒且具有竞争力的幻觉检测能力及跨任务泛化性能。值得注意的是，这些结果对于预训练模型和指令微调变体均成立，且未引入任何训练开销。

0

相关内容

大型语言模型的规模效应局限

大型语言模型的规模效应局限

专知会员服务

14+阅读 · 2025年11月18日

赋能大型语言模型多领域资源挑战

赋能大型语言模型多领域资源挑战

专知会员服务

10+阅读 · 2025年6月10日

可解释人工智能中的大语言模型：全面综述

可解释人工智能中的大语言模型：全面综述

专知会员服务

53+阅读 · 2025年4月2日

关于大语言模型驱动的推荐系统智能体的综述

关于大语言模型驱动的推荐系统智能体的综述

专知会员服务

29+阅读 · 2025年2月17日

大型概念模型：在句子表示空间中的语言建模

大型概念模型：在句子表示空间中的语言建模

专知会员服务

18+阅读 · 2024年12月14日

大型语言模型（LLMs），附Slides与视频

大型语言模型（LLMs），附Slides与视频

专知会员服务

71+阅读 · 2024年6月30日

更快更轻量的大型语言模型：当前挑战及未来发展路径综述

更快更轻量的大型语言模型：当前挑战及未来发展路径综述

专知会员服务

42+阅读 · 2024年2月8日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

大模型如何可解释？新泽西理工学院等最新《大型语言模型可解释性》综述

大模型如何可解释？新泽西理工学院等最新《大型语言模型可解释性》综述

专知会员服务

98+阅读 · 2023年9月11日

《大型语言模型》最新全面概述

《大型语言模型》最新全面概述

专知会员服务

111+阅读 · 2023年7月14日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【新书】自然语言处理嵌入：语义向量表示理论与进展，从Word2Vec到BERT，163页pdf

【新书】自然语言处理嵌入：语义向量表示理论与进展，从Word2Vec到BERT，163页pdf

专知

23+阅读 · 2020年4月4日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

R语言自然语言处理：文本向量化——词嵌入（Word Embedding）

R语言自然语言处理：文本向量化——词嵌入（Word Embedding）

R语言中文社区

10+阅读 · 2019年4月6日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

人工智能头条

10+阅读 · 2018年6月29日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

大规模可持续传感器网络的能量同步研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机动力系统的逼近和跑出问题

国家自然科学基金

0+阅读 · 2015年12月31日

两类Markov排队模型的衰减性质

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于文本模式的海量电能质量数据自动分析技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于高频数据的金融市场间信息溢出与风险传染的微观机理、动态模型及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

面向性能在线评估的锂离子电池机理模型仿真关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

Resource Consumption Threats in Large Language Models

Arxiv

0+阅读 · 3月17日

Motivation in Large Language Models

Arxiv

0+阅读 · 3月15日

Large Language Models are Algorithmically Blind

Arxiv

0+阅读 · 2月25日

Entropy in Large Language Models

Arxiv

0+阅读 · 2月23日

SweetSpot: An Analytical Model for Predicting Energy Efficiency of LLM Inference

Arxiv

0+阅读 · 2月23日

Large Language Models for Water Distribution Systems Modeling and Decision-Making

Arxiv

0+阅读 · 2月18日

On Calibration of Large Language Models: From Response To Capability

Arxiv

0+阅读 · 2月14日

Emergent Structured Representations Support Flexible In-Context Inference in Large Language Models

Arxiv

0+阅读 · 2月8日

Large Language Models as Formalizers on Constraint Satisfaction Problems

Arxiv

0+阅读 · 2月6日

Quantifying Risks in Multi-turn Conversation with Large Language Models

Arxiv

0+阅读 · 2月4日

VIP会员

文章信息

相关主题

大语言模型

最新内容

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

专知会员服务

2+阅读 · 今天14:31

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

专知会员服务

1+阅读 · 今天14:29

面向具身智能与机器人仿真的三维生成：综述

面向具身智能与机器人仿真的三维生成：综述

专知会员服务

1+阅读 · 今天14:22

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

专知会员服务

13+阅读 · 今天6:39

《人工智能在全球军事与武器工业中的应用、方法论与影响》

《人工智能在全球军事与武器工业中的应用、方法论与影响》

专知会员服务

6+阅读 · 今天6:36

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

专知会员服务

10+阅读 · 今天6:28

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

专知会员服务

7+阅读 · 今天0:51

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

6+阅读 · 4月29日

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

专知会员服务

7+阅读 · 4月29日

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

专知会员服务

6+阅读 · 4月29日

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

专知会员服务

6+阅读 · 4月29日

《化繁为简：军事模拟器配置的对话式方法》报告

《化繁为简：军事模拟器配置的对话式方法》报告

专知会员服务

11+阅读 · 4月29日

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

专知会员服务

12+阅读 · 4月29日

《新兴技术武器化及其对全球风险的影响》

《新兴技术武器化及其对全球风险的影响》

专知会员服务

8+阅读 · 4月29日

《帕兰泰尔平台介绍：信息分析平台》

《帕兰泰尔平台介绍：信息分析平台》

专知会员服务

21+阅读 · 4月29日

相关VIP内容

大型语言模型的规模效应局限

大型语言模型的规模效应局限

专知会员服务

14+阅读 · 2025年11月18日

赋能大型语言模型多领域资源挑战

赋能大型语言模型多领域资源挑战

专知会员服务

10+阅读 · 2025年6月10日

可解释人工智能中的大语言模型：全面综述

可解释人工智能中的大语言模型：全面综述

专知会员服务

53+阅读 · 2025年4月2日

关于大语言模型驱动的推荐系统智能体的综述

关于大语言模型驱动的推荐系统智能体的综述

专知会员服务

29+阅读 · 2025年2月17日

大型概念模型：在句子表示空间中的语言建模

大型概念模型：在句子表示空间中的语言建模

专知会员服务

18+阅读 · 2024年12月14日

大型语言模型（LLMs），附Slides与视频

大型语言模型（LLMs），附Slides与视频

专知会员服务

71+阅读 · 2024年6月30日

更快更轻量的大型语言模型：当前挑战及未来发展路径综述

更快更轻量的大型语言模型：当前挑战及未来发展路径综述

专知会员服务

42+阅读 · 2024年2月8日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

大模型如何可解释？新泽西理工学院等最新《大型语言模型可解释性》综述

大模型如何可解释？新泽西理工学院等最新《大型语言模型可解释性》综述

专知会员服务

98+阅读 · 2023年9月11日

《大型语言模型》最新全面概述

《大型语言模型》最新全面概述

专知会员服务

111+阅读 · 2023年7月14日

热门VIP内容

开通专知VIP会员享更多权益服务

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

面向具身智能与机器人仿真的三维生成：综述

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【新书】自然语言处理嵌入：语义向量表示理论与进展，从Word2Vec到BERT，163页pdf

【新书】自然语言处理嵌入：语义向量表示理论与进展，从Word2Vec到BERT，163页pdf

专知

23+阅读 · 2020年4月4日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

R语言自然语言处理：文本向量化——词嵌入（Word Embedding）

R语言自然语言处理：文本向量化——词嵌入（Word Embedding）

R语言中文社区

10+阅读 · 2019年4月6日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

人工智能头条

10+阅读 · 2018年6月29日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

Resource Consumption Threats in Large Language Models

Arxiv

0+阅读 · 3月17日

Motivation in Large Language Models

Arxiv

0+阅读 · 3月15日

Large Language Models are Algorithmically Blind

Arxiv

0+阅读 · 2月25日

Entropy in Large Language Models

Arxiv

0+阅读 · 2月23日

SweetSpot: An Analytical Model for Predicting Energy Efficiency of LLM Inference

Arxiv

0+阅读 · 2月23日

Large Language Models for Water Distribution Systems Modeling and Decision-Making

Arxiv

0+阅读 · 2月18日

On Calibration of Large Language Models: From Response To Capability

Arxiv

0+阅读 · 2月14日

Emergent Structured Representations Support Flexible In-Context Inference in Large Language Models

Arxiv

0+阅读 · 2月8日

Large Language Models as Formalizers on Constraint Satisfaction Problems

Arxiv

0+阅读 · 2月6日

Quantifying Risks in Multi-turn Conversation with Large Language Models

Arxiv

0+阅读 · 2月4日

相关基金

大规模可持续传感器网络的能量同步研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机动力系统的逼近和跑出问题

国家自然科学基金

0+阅读 · 2015年12月31日

两类Markov排队模型的衰减性质

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于文本模式的海量电能质量数据自动分析技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于高频数据的金融市场间信息溢出与风险传染的微观机理、动态模型及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

面向性能在线评估的锂离子电池机理模型仿真关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员