Integrating Local and Global Entropy for Uncertainty Quantification in LLMs - 专知论文

会员服务 ·

0

不确定 · 不确定性 · 词元 · 语言模型 · 不确定性量化 ·

Integrating Local and Global Entropy for Uncertainty Quantification in LLMs

翻译：整合局部与全局熵用于大语言模型的不确定性量化

Johanne Medina,Tianyi Zhou,Keivin Isufaj,Aristides Gionis,Sanjay Chawla

from arxiv, 17 pages, 2 figures

Large language models hallucinate confidently, making uncertainty quantification (UQ) essential for reliable deployment. Existing methods rely predominantly on token-level signals, leaving the geometric structure of intermediate hidden states underused. In this paper, we take the geometric complexity of hidden-state matrices as a measure of the global uncertainty of LLMs, while treating token-level uncertainty estimation as a local metric. We show that hidden-state geometric entropy (global uncertainty) and token-level entropy (local uncertainty) are statistically near-orthogonal, capturing distinct failure regimes for reliability prediction. In particular, global geometry recovers the confident-but-wrong failure mode that local signals systematically miss. Building on this, we propose Global-Local Uncertainty (GLU), an unsupervised, single-pass score that fuses the two signals via a multiplicative gate. Across three model families and six benchmarks, GLU matches or outperforms all unsupervised baselines while requiring only a single forward pass and remaining length-normalized and architecture-agnostic.

翻译：大语言模型会自信地产生幻觉，这使得不确定性量化（UQ）对于其可靠部署至关重要。现有方法主要依赖词元级信号，而忽略了中间隐藏状态的几何结构。本文中，我们将隐藏状态矩阵的几何复杂度作为衡量大语言模型全局不确定性的指标，同时将词元级不确定性估计视为局部度量。我们证明隐藏状态几何熵（全局不确定性）和词元级熵（局部不确定性）在统计上近似正交，能捕捉到可靠性预测中不同的失败模式。特别是，全局几何结构能恢复局部信号系统性地遗漏的“自信但错误”失败模式。基于此，我们提出了全局-局部不确定性（GLU），这是一种无监督、单次前向传播的分数，通过乘法门融合上述两种信号。在三个模型家族和六个基准测试中，GLU在仅需单次前向传播且保持长度归一化和架构无关性的前提下，达到或超越了所有无监督基线方法。

0

相关内容

不确定

大型语言模型的规模效应局限

大型语言模型的规模效应局限

专知会员服务

14+阅读 · 2025年11月18日

《缓解大语言模型（LLMs）幻觉：面向应用的检索增强生成（RAG）、推理与智能体系统综述》

《缓解大语言模型（LLMs）幻觉：面向应用的检索增强生成（RAG）、推理与智能体系统综述》

专知会员服务

24+阅读 · 2025年10月29日

【CMU博士论文】校准不确定性量化的方法及其效用解析

【CMU博士论文】校准不确定性量化的方法及其效用解析

专知会员服务

22+阅读 · 2025年9月1日

【新书】设计大型语言模型应用：一种面向LLMs的整体方法

【新书】设计大型语言模型应用：一种面向LLMs的整体方法

专知会员服务

56+阅读 · 2025年3月16日

重新思考不确定性：大语言模型时代的关键综述与分析

重新思考不确定性：大语言模型时代的关键综述与分析

专知会员服务

39+阅读 · 2024年11月20日

大语言模型对齐研究综述

大语言模型对齐研究综述

专知会员服务

56+阅读 · 2024年8月1日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知会员服务

255+阅读 · 2022年11月15日

【COLING2022教程】自然语言处理的不确定性估计教程

【COLING2022教程】自然语言处理的不确定性估计教程

专知会员服务

31+阅读 · 2022年10月17日

【AI+军事】附论文《处理混合冲突中的不确定性：情报分析中不确定性量化的新方法和模型》

【AI+军事】附论文《处理混合冲突中的不确定性：情报分析中不确定性量化的新方法和模型》

专知会员服务

67+阅读 · 2022年5月2日

首篇《深度学习不确定性量化: 技术、应用与挑战》2020综述论文，61页pdf582篇文献

专知会员服务

106+阅读 · 2020年11月16日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

52+阅读 · 2022年11月16日

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

专知

17+阅读 · 2021年1月18日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

熵与其它信息量估计—国科大UCAS胡包钢教授《信息论与机器学习》课程第四讲

熵与其它信息量估计—国科大UCAS胡包钢教授《信息论与机器学习》课程第四讲

专知

10+阅读 · 2020年3月9日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

深度学习模型不确定性方法对比

深度学习模型不确定性方法对比

PaperWeekly

20+阅读 · 2020年2月10日

「PPT」深度学习中的不确定性估计

「PPT」深度学习中的不确定性估计

专知

27+阅读 · 2019年7月20日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

论强化学习和概率推断的等价性：一种全新概率模型

论强化学习和概率推断的等价性：一种全新概率模型

机器之心

26+阅读 · 2018年5月5日

赛尔原创 | Pointer Networks在自然语言处理领域中的应用

赛尔原创 | Pointer Networks在自然语言处理领域中的应用

哈工大SCIR

14+阅读 · 2017年11月6日

知识不确定性度量的粒计算模型及其应用研究

国家自然科学基金

1+阅读 · 2017年12月31日

随机振动响应预测中的模型形式不确定性量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多源异构不确定数据的高效用信息挖掘的研究

国家自然科学基金

4+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于信息密度的广义不确定直觉模糊集成算子及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

不确定非凸规划的稳健全局优化方法的研究

国家自然科学基金

1+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

Quantifying Consistency in LLM Logical Reasoning via Structural Uncertainty

Arxiv

0+阅读 · 6月15日

Enhancing LLM Safety Through a Theoretical Minimax Game Lens

Arxiv

0+阅读 · 6月15日

When Language Representations Interact: Separability and Cross-Lingual Effects in LLMs

Arxiv

0+阅读 · 6月12日

LLMs Contain Multitudes: How Deployment Context Reshapes Model-Level Preferences and Values

Arxiv

0+阅读 · 6月11日

Trusted Uncertainty in Large Language Models: A Unified Framework for Confidence Calibration and Risk-Controlled Refusal

Arxiv

0+阅读 · 6月11日

Normative Robustness as a Frontier for Non-Verifiable Reasoning in LLMs

Arxiv

0+阅读 · 6月10日

Geometric Metrics and LLMs: What They Measure and When They Work

Arxiv

0+阅读 · 6月10日

Scalable Uncertainty Quantification for Extreme Weather Forecasting via Empirical Neural Tangent Kernels

Arxiv

0+阅读 · 6月3日

Uncertainty Quantification for Multimodal Retrieval Augmented Generation

Arxiv

0+阅读 · 5月28日

The Geometry of LLM Quantization: GPTQ as Babai's Nearest Plane Algorithm

Arxiv

0+阅读 · 5月13日

VIP会员

文章信息

相关主题

不确定性量化

最新内容

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 今天4:35

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

3+阅读 · 今天4:24

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 今天4:18

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 今天4:15

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 今天4:08

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

7+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

“史诗怒火”行动：现代多域作战的重要节点

“史诗怒火”行动：现代多域作战的重要节点

专知会员服务

8+阅读 · 7月30日

《下一代无线网络中的多无人机通信资源管理》

《下一代无线网络中的多无人机通信资源管理》

专知会员服务

8+阅读 · 7月30日

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

专知会员服务

9+阅读 · 7月30日

《人机协同在安全关键型操作决策中的应用》120页

《人机协同在安全关键型操作决策中的应用》120页

专知会员服务

8+阅读 · 7月30日

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

专知会员服务

6+阅读 · 7月30日

相关VIP内容

大型语言模型的规模效应局限

大型语言模型的规模效应局限

专知会员服务

14+阅读 · 2025年11月18日

《缓解大语言模型（LLMs）幻觉：面向应用的检索增强生成（RAG）、推理与智能体系统综述》

《缓解大语言模型（LLMs）幻觉：面向应用的检索增强生成（RAG）、推理与智能体系统综述》

专知会员服务

24+阅读 · 2025年10月29日

【CMU博士论文】校准不确定性量化的方法及其效用解析

【CMU博士论文】校准不确定性量化的方法及其效用解析

专知会员服务

22+阅读 · 2025年9月1日

【新书】设计大型语言模型应用：一种面向LLMs的整体方法

【新书】设计大型语言模型应用：一种面向LLMs的整体方法

专知会员服务

56+阅读 · 2025年3月16日

重新思考不确定性：大语言模型时代的关键综述与分析

重新思考不确定性：大语言模型时代的关键综述与分析

专知会员服务

39+阅读 · 2024年11月20日

大语言模型对齐研究综述

大语言模型对齐研究综述

专知会员服务

56+阅读 · 2024年8月1日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知会员服务

255+阅读 · 2022年11月15日

【COLING2022教程】自然语言处理的不确定性估计教程

【COLING2022教程】自然语言处理的不确定性估计教程

专知会员服务

31+阅读 · 2022年10月17日

【AI+军事】附论文《处理混合冲突中的不确定性：情报分析中不确定性量化的新方法和模型》

【AI+军事】附论文《处理混合冲突中的不确定性：情报分析中不确定性量化的新方法和模型》

专知会员服务

67+阅读 · 2022年5月2日

首篇《深度学习不确定性量化: 技术、应用与挑战》2020综述论文，61页pdf582篇文献

专知会员服务

106+阅读 · 2020年11月16日

热门VIP内容

开通专知VIP会员享更多权益服务

隐身技术前沿综述：物理机理、工程实践与战略展望

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

相关资讯

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

52+阅读 · 2022年11月16日

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

专知

17+阅读 · 2021年1月18日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

熵与其它信息量估计—国科大UCAS胡包钢教授《信息论与机器学习》课程第四讲

熵与其它信息量估计—国科大UCAS胡包钢教授《信息论与机器学习》课程第四讲

专知

10+阅读 · 2020年3月9日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

深度学习模型不确定性方法对比

深度学习模型不确定性方法对比

PaperWeekly

20+阅读 · 2020年2月10日

「PPT」深度学习中的不确定性估计

「PPT」深度学习中的不确定性估计

专知

27+阅读 · 2019年7月20日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

论强化学习和概率推断的等价性：一种全新概率模型

论强化学习和概率推断的等价性：一种全新概率模型

机器之心

26+阅读 · 2018年5月5日

赛尔原创 | Pointer Networks在自然语言处理领域中的应用

赛尔原创 | Pointer Networks在自然语言处理领域中的应用

哈工大SCIR

14+阅读 · 2017年11月6日

相关论文

Quantifying Consistency in LLM Logical Reasoning via Structural Uncertainty

Arxiv

0+阅读 · 6月15日

Enhancing LLM Safety Through a Theoretical Minimax Game Lens

Arxiv

0+阅读 · 6月15日

When Language Representations Interact: Separability and Cross-Lingual Effects in LLMs

Arxiv

0+阅读 · 6月12日

LLMs Contain Multitudes: How Deployment Context Reshapes Model-Level Preferences and Values

Arxiv

0+阅读 · 6月11日

Trusted Uncertainty in Large Language Models: A Unified Framework for Confidence Calibration and Risk-Controlled Refusal

Arxiv

0+阅读 · 6月11日

Normative Robustness as a Frontier for Non-Verifiable Reasoning in LLMs

Arxiv

0+阅读 · 6月10日

Geometric Metrics and LLMs: What They Measure and When They Work

Arxiv

0+阅读 · 6月10日

Scalable Uncertainty Quantification for Extreme Weather Forecasting via Empirical Neural Tangent Kernels

Arxiv

0+阅读 · 6月3日

Uncertainty Quantification for Multimodal Retrieval Augmented Generation

Arxiv

0+阅读 · 5月28日

The Geometry of LLM Quantization: GPTQ as Babai's Nearest Plane Algorithm

Arxiv

0+阅读 · 5月13日

相关基金

知识不确定性度量的粒计算模型及其应用研究

国家自然科学基金

1+阅读 · 2017年12月31日

随机振动响应预测中的模型形式不确定性量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多源异构不确定数据的高效用信息挖掘的研究

国家自然科学基金

4+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于信息密度的广义不确定直觉模糊集成算子及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

不确定非凸规划的稳健全局优化方法的研究

国家自然科学基金

1+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员