SeSE：基于结构信息理论的大型语言模型黑盒不确定性量化 (SeSE: Black-Box Uncertainty Quantification for Large Language Models Based on Structural Information Theory) - 专知论文

会员服务 ·

0

不确定 · 不确定性 · 结构 · 不确定性量化 · 语言模型 ·

SeSE: Black-Box Uncertainty Quantification for Large Language Models Based on Structural Information Theory

翻译：SeSE：基于结构信息理论的大型语言模型黑盒不确定性量化

Xingtao Zhao,Hao Peng,Dingli Su,Xianghua Zeng,Chunyang Liu,Jinzhi Liao,Philip S. Yu

Reliable uncertainty quantification (UQ) is essential for deploying large language models (LLMs) in safety-critical scenarios, as it enables them to abstain from responding when uncertain, thereby avoiding hallucinations, i.e., plausible yet factually incorrect responses. However, while semantic UQ methods have achieved advanced performance, they overlook latent semantic structural information that could enable more precise uncertainty estimates. In this paper, we propose \underline{Se}mantic \underline{S}tructural \underline{E}ntropy ({SeSE}), a principled black-box UQ framework applicable to both open- and closed-source LLMs. To reveal the intrinsic structure of the semantic space, SeSE constructs its optimal hierarchical abstraction through an encoding tree with minimal structural entropy. The structural entropy of this encoding tree thus quantifies the inherent uncertainty within LLM semantic space after optimal compression. Additionally, unlike existing methods that primarily focus on simple short-form generation, we extent SeSE to provide interpretable, granular uncertainty estimation for long-form outputs. We theoretically prove that SeSE generalizes semantic entropy, the gold standard for UQ in LLMs, and empirically demonstrate its superior performance over strong baselines across 24 model-dataset combinations.

翻译：可靠的不确定性量化对于在安全关键场景中部署大型语言模型至关重要，因为它使模型能够在不确定时主动弃答，从而避免产生幻觉——即看似合理但事实错误的回答。然而，尽管语义不确定性量化方法已取得先进性能，它们忽略了潜在的语义结构信息，而这些信息可能实现更精确的不确定性估计。本文提出 \underline{Se}mantic \underline{S}tructural \underline{E}ntropy（{SeSE}），一个适用于开源和闭源大型语言模型的原则性黑盒不确定性量化框架。为揭示语义空间的内在结构，SeSE通过构建具有最小结构熵的编码树，形成语义空间的最优层次抽象。该编码树的结构熵从而量化了最优压缩后大型语言模型语义空间的内在不确定性。此外，与现有主要关注简单短文本生成的方法不同，我们将SeSE扩展至为长文本输出提供可解释的、细粒度的不确定性估计。我们从理论上证明SeSE推广了语义熵——大型语言模型不确定性量化的黄金标准，并通过在24种模型-数据集组合上的实验，实证展示了其相对于强基线的优越性能。

0

相关内容

不确定

《幻觉还是事实：国防大型语言模型的可信度评估研究》2025最新109页

《幻觉还是事实：国防大型语言模型的可信度评估研究》2025最新109页

专知会员服务

33+阅读 · 2025年9月16日

【斯坦福博士论文】概率机器学习中的不确定性原理

【斯坦福博士论文】概率机器学习中的不确定性原理

专知会员服务

27+阅读 · 2025年8月4日

【博士论文】小型和大型模型的不确定性估计

【博士论文】小型和大型模型的不确定性估计

专知会员服务

21+阅读 · 2025年7月11日

重新思考不确定性：大语言模型时代的关键综述与分析

重新思考不确定性：大语言模型时代的关键综述与分析

专知会员服务

39+阅读 · 2024年11月20日

【博士论文】《计算机视觉中潜在表示的不确定性》，66页pdf

【博士论文】《计算机视觉中潜在表示的不确定性》，66页pdf

专知会员服务

22+阅读 · 2024年8月28日

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

专知会员服务

47+阅读 · 2023年10月12日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知会员服务

254+阅读 · 2022年11月15日

【COLING2022教程】自然语言处理的不确定性估计教程

【COLING2022教程】自然语言处理的不确定性估计教程

专知会员服务

31+阅读 · 2022年10月17日

2022最新综述《贝叶斯视角下深度学习分类系统中的不确定性估计综述》巴塞罗那大学

2022最新综述《贝叶斯视角下深度学习分类系统中的不确定性估计综述》巴塞罗那大学

专知会员服务

58+阅读 · 2022年7月26日

不确定性下如何决策？弗吉尼亚理工最新《不确定性推理与量化的决策研究综述》，51页pdf阐述信念理论与深度学习结合下的不确定性决策

不确定性下如何决策？弗吉尼亚理工最新《不确定性推理与量化的决策研究综述》，51页pdf阐述信念理论与深度学习结合下的不确定性决策

专知会员服务

108+阅读 · 2022年6月17日

【CVPR2023】探索和利用不确定性的不完整多视角分类

【CVPR2023】探索和利用不确定性的不完整多视角分类

专知

42+阅读 · 2023年4月13日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

49+阅读 · 2022年11月16日

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

专知

17+阅读 · 2021年1月18日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

「PPT」深度学习中的不确定性估计

「PPT」深度学习中的不确定性估计

专知

27+阅读 · 2019年7月20日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

AI量化交易，盘点你不可不知的行业信息！

AI量化交易，盘点你不可不知的行业信息！

专知

17+阅读 · 2019年1月9日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

基于强化学习的量化交易框架

基于强化学习的量化交易框架

机器学习研究会

30+阅读 · 2018年2月22日

知识不确定性度量的粒计算模型及其应用研究

国家自然科学基金

1+阅读 · 2017年12月31日

基于高斯过程模型的桥梁结构动力不确定性研究的解析方法

国家自然科学基金

0+阅读 · 2015年12月31日

随机振动响应预测中的模型形式不确定性量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

Comparing Uncertainty Measurement and Mitigation Methods for Large Language Models: A Systematic Review

Arxiv

0+阅读 · 3月18日

SageSched: Efficient LLM Scheduling Confronting Demand Uncertainty and Hybridity

Arxiv

0+阅读 · 3月13日

SageSched: Efficient LLM Scheduling Confronting Demand Uncertainty and Hybridity

Arxiv

0+阅读 · 3月9日

Uncertainty Quantification for Multimodal Large Language Models with Incoherence-adjusted Semantic Volume

Arxiv

0+阅读 · 2月27日

Uncertainty Estimation by Flexible Evidential Deep Learning

Arxiv

0+阅读 · 2月20日

Fine-Grained Uncertainty Quantification for Long-Form Language Model Outputs: A Comparative Study

Arxiv

0+阅读 · 2月19日

SECA: Semantically Equivalent and Coherent Attacks for Eliciting LLM Hallucinations

Arxiv

0+阅读 · 2月15日

Estimating Semantic Alphabet Size for LLM Uncertainty Quantification

Arxiv

0+阅读 · 2月6日

Semantic Self-Distillation for Language Model Uncertainty

Arxiv

0+阅读 · 2月4日

Efficient Epistemic Uncertainty Estimation for Large Language Models via Knowledge Distillation

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

不确定性量化

最新内容

《海基核巡航导弹（SLCM-N）部署后的威慑动态与操作要求》（报告）

《海基核巡航导弹（SLCM-N）部署后的威慑动态与操作要求》（报告）

专知会员服务

0+阅读 · 14分钟前

超越卫星通信：战术无线电与网络防御如何锻造联盟韧性（美军报告）

超越卫星通信：战术无线电与网络防御如何锻造联盟韧性（美军报告）

专知会员服务

0+阅读 · 26分钟前

【CMU博士论文】迈向可扩展的开放世界三维感知

【CMU博士论文】迈向可扩展的开放世界三维感知

专知会员服务

0+阅读 · 42分钟前

前馈式三维场景建模

前馈式三维场景建模

专知会员服务

0+阅读 · 45分钟前

《反小型无人机系统的雷达高度估计相干干扰研究》60页

《反小型无人机系统的雷达高度估计相干干扰研究》60页

专知会员服务

2+阅读 · 今天9:52

人工智能战争迷雾：洞悉乌克兰、加沙和伊朗三战区

人工智能战争迷雾：洞悉乌克兰、加沙和伊朗三战区

专知会员服务

5+阅读 · 今天9:28

（中文）以机器速度作战：来自Maven特遣队主任的见解

（中文）以机器速度作战：来自Maven特遣队主任的见解

专知会员服务

8+阅读 · 今天3:42

（中文）AUKUS第二支柱中的人工智能与自主性方案

（中文）AUKUS第二支柱中的人工智能与自主性方案

专知会员服务

3+阅读 · 今天3:24

（译文）认知战：以士兵为目标，塑造战略

（译文）认知战：以士兵为目标，塑造战略

专知会员服务

2+阅读 · 今天3:12

（中文）认知战的本体论基础（2026报告）

（中文）认知战的本体论基础（2026报告）

专知会员服务

18+阅读 · 今天1:45

美空军条令（2026）：外国对内防御

美空军条令（2026）：外国对内防御

专知会员服务

3+阅读 · 今天1:32

美国与以色列如何在攻击伊朗中使用人工智能

美国与以色列如何在攻击伊朗中使用人工智能

专知会员服务

7+阅读 · 4月16日

《面向大语言模型引导规划、Bandit算法驱动探索与多智能体导航的分层决策问题研究》180页

《面向大语言模型引导规划、Bandit算法驱动探索与多智能体导航的分层决策问题研究》180页

专知会员服务

7+阅读 · 4月16日

《自动化战略情报管控》

《自动化战略情报管控》

专知会员服务

3+阅读 · 4月16日

《反无人机蜂群技术研究：基于小队策略构建大规模无人机防御》

《反无人机蜂群技术研究：基于小队策略构建大规模无人机防御》

专知会员服务

13+阅读 · 4月16日

相关VIP内容

《幻觉还是事实：国防大型语言模型的可信度评估研究》2025最新109页

《幻觉还是事实：国防大型语言模型的可信度评估研究》2025最新109页

专知会员服务

33+阅读 · 2025年9月16日

【斯坦福博士论文】概率机器学习中的不确定性原理

【斯坦福博士论文】概率机器学习中的不确定性原理

专知会员服务

27+阅读 · 2025年8月4日

【博士论文】小型和大型模型的不确定性估计

【博士论文】小型和大型模型的不确定性估计

专知会员服务

21+阅读 · 2025年7月11日

重新思考不确定性：大语言模型时代的关键综述与分析

重新思考不确定性：大语言模型时代的关键综述与分析

专知会员服务

39+阅读 · 2024年11月20日

【博士论文】《计算机视觉中潜在表示的不确定性》，66页pdf

【博士论文】《计算机视觉中潜在表示的不确定性》，66页pdf

专知会员服务

22+阅读 · 2024年8月28日

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

专知会员服务

47+阅读 · 2023年10月12日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知会员服务

254+阅读 · 2022年11月15日

【COLING2022教程】自然语言处理的不确定性估计教程

【COLING2022教程】自然语言处理的不确定性估计教程

专知会员服务

31+阅读 · 2022年10月17日

2022最新综述《贝叶斯视角下深度学习分类系统中的不确定性估计综述》巴塞罗那大学

2022最新综述《贝叶斯视角下深度学习分类系统中的不确定性估计综述》巴塞罗那大学

专知会员服务

58+阅读 · 2022年7月26日

不确定性下如何决策？弗吉尼亚理工最新《不确定性推理与量化的决策研究综述》，51页pdf阐述信念理论与深度学习结合下的不确定性决策

不确定性下如何决策？弗吉尼亚理工最新《不确定性推理与量化的决策研究综述》，51页pdf阐述信念理论与深度学习结合下的不确定性决策

专知会员服务

108+阅读 · 2022年6月17日

热门VIP内容

开通专知VIP会员享更多权益服务

《海基核巡航导弹（SLCM-N）部署后的威慑动态与操作要求》（报告）

【CMU博士论文】迈向可扩展的开放世界三维感知

《异构反无人机群模块化可扩展系统架构》

超越卫星通信：战术无线电与网络防御如何锻造联盟韧性（美军报告）

相关资讯

【CVPR2023】探索和利用不确定性的不完整多视角分类

【CVPR2023】探索和利用不确定性的不完整多视角分类

专知

42+阅读 · 2023年4月13日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

49+阅读 · 2022年11月16日

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

专知

17+阅读 · 2021年1月18日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

「PPT」深度学习中的不确定性估计

「PPT」深度学习中的不确定性估计

专知

27+阅读 · 2019年7月20日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

AI量化交易，盘点你不可不知的行业信息！

AI量化交易，盘点你不可不知的行业信息！

专知

17+阅读 · 2019年1月9日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

基于强化学习的量化交易框架

基于强化学习的量化交易框架

机器学习研究会

30+阅读 · 2018年2月22日

相关论文

Comparing Uncertainty Measurement and Mitigation Methods for Large Language Models: A Systematic Review

Arxiv

0+阅读 · 3月18日

SageSched: Efficient LLM Scheduling Confronting Demand Uncertainty and Hybridity

Arxiv

0+阅读 · 3月13日

SageSched: Efficient LLM Scheduling Confronting Demand Uncertainty and Hybridity

Arxiv

0+阅读 · 3月9日

Uncertainty Quantification for Multimodal Large Language Models with Incoherence-adjusted Semantic Volume

Arxiv

0+阅读 · 2月27日

Uncertainty Estimation by Flexible Evidential Deep Learning

Arxiv

0+阅读 · 2月20日

Fine-Grained Uncertainty Quantification for Long-Form Language Model Outputs: A Comparative Study

Arxiv

0+阅读 · 2月19日

SECA: Semantically Equivalent and Coherent Attacks for Eliciting LLM Hallucinations

Arxiv

0+阅读 · 2月15日

Estimating Semantic Alphabet Size for LLM Uncertainty Quantification

Arxiv

0+阅读 · 2月6日

Semantic Self-Distillation for Language Model Uncertainty

Arxiv

0+阅读 · 2月4日

Efficient Epistemic Uncertainty Estimation for Large Language Models via Knowledge Distillation

Arxiv

0+阅读 · 2月2日

相关基金

知识不确定性度量的粒计算模型及其应用研究

国家自然科学基金

1+阅读 · 2017年12月31日

基于高斯过程模型的桥梁结构动力不确定性研究的解析方法

国家自然科学基金

0+阅读 · 2015年12月31日

随机振动响应预测中的模型形式不确定性量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员