UQLM: A Python Package for Uncertainty Quantification in Large Language Models - 专知论文

会员服务 ·

0

不确定 · 不确定性量化 · 不确定性 · 语言模型 · Python ·

UQLM: A Python Package for Uncertainty Quantification in Large Language Models

翻译：UQLM：用于大型语言模型不确定性量化的Python软件包

Dylan Bouchard,Mohit Singh Chauhan,David Skarbrevik,Ho-Kyeong Ra,Viren Bajaj,Zeya Ahmad

from arxiv, Accepted by JMLR; UQLM Repository: https://github.com/cvs-health/uqlm

Hallucinations, defined as instances where Large Language Models (LLMs) generate false or misleading content, pose a significant challenge that impacts the safety and trust of downstream applications. We introduce UQLM, a Python package for LLM hallucination detection using state-of-the-art uncertainty quantification (UQ) techniques. This toolkit offers a suite of UQ-based scorers that compute response-level confidence scores ranging from 0 to 1. This library provides an off-the-shelf solution for UQ-based hallucination detection that can be easily integrated to enhance the reliability of LLM outputs.

翻译：幻觉（定义为大型语言模型生成虚假或误导性内容的情况）是影响下游应用安全性与可信度的重大挑战。本文介绍UQLM——一个基于前沿不确定性量化技术的大型语言模型幻觉检测Python工具包。该工具集提供基于不确定性量化的评分器套件，可计算0到1范围内的响应级置信度分数。本库为基于不确定性量化的幻觉检测提供开箱即用的解决方案，能够轻松集成以提升大型语言模型输出的可靠性。

0

相关内容

不确定

【CMU博士论文】校准不确定性量化的方法及其效用解析

【CMU博士论文】校准不确定性量化的方法及其效用解析

专知会员服务

22+阅读 · 2025年9月1日

重新思考不确定性：大语言模型时代的关键综述与分析

重新思考不确定性：大语言模型时代的关键综述与分析

专知会员服务

39+阅读 · 2024年11月20日

《多模态大型语言模型的幻觉现象》综述

《多模态大型语言模型的幻觉现象》综述

专知会员服务

46+阅读 · 2024年4月30日

【博士论文】物理信息化机器学习与不确定性量化，187页pdf

【博士论文】物理信息化机器学习与不确定性量化，187页pdf

专知会员服务

40+阅读 · 2024年4月11日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

科研动态| 不依赖GPT-4的多模态幻觉评估benchmark来了！一键实现多维度幻觉自动分析

科研动态| 不依赖GPT-4的多模态幻觉评估benchmark来了！一键实现多维度幻觉自动分析

专知会员服务

26+阅读 · 2023年11月15日

大模型幻觉如何克服？哈工大等最新《大型语言模型中的幻觉现象》综述，详述原理、分类、挑战与未解之谜

大模型幻觉如何克服？哈工大等最新《大型语言模型中的幻觉现象》综述，详述原理、分类、挑战与未解之谜

专知会员服务

82+阅读 · 2023年11月12日

大模型的“幻觉”如何克服？腾讯AILab等《大型语言模型中的幻觉》，全面阐述检测、解释和减轻幻觉

大模型的“幻觉”如何克服？腾讯AILab等《大型语言模型中的幻觉》，全面阐述检测、解释和减轻幻觉

专知会员服务

72+阅读 · 2023年9月7日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

首篇《深度学习不确定性量化: 技术、应用与挑战》2020综述论文，61页pdf582篇文献

专知会员服务

106+阅读 · 2020年11月16日

深度学习模型不确定性方法对比

深度学习模型不确定性方法对比

PaperWeekly

20+阅读 · 2020年2月10日

吐血整理！140种Python标准库、第三方库和外部工具都有了

吐血整理！140种Python标准库、第三方库和外部工具都有了

炼数成金订阅号

16+阅读 · 2019年7月30日

「PPT」深度学习中的不确定性估计

「PPT」深度学习中的不确定性估计

专知

27+阅读 · 2019年7月20日

一个牛逼的 Python 调试工具

一个牛逼的 Python 调试工具

机器学习算法与Python学习

15+阅读 · 2019年4月30日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

Github项目推荐 | Dragonfly：可扩展贝叶斯优化库（Python）

Github项目推荐 | Dragonfly：可扩展贝叶斯优化库（Python）

AI研习社

11+阅读 · 2019年3月22日

CMU 邢波教授2019春季《概率图模型》课程开讲，带你学习PGM（含讲义PPT及视频）

CMU 邢波教授2019春季《概率图模型》课程开讲，带你学习PGM（含讲义PPT及视频）

专知

51+阅读 · 2019年1月25日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

基于python的开源量化交易，量化投资架构

基于python的开源量化交易，量化投资架构

运维帮

15+阅读 · 2018年7月5日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

知识不确定性度量的粒计算模型及其应用研究

国家自然科学基金

1+阅读 · 2017年12月31日

随机振动响应预测中的模型形式不确定性量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多源异构不确定数据的高效用信息挖掘的研究

国家自然科学基金

4+阅读 · 2015年12月31日

近似计算中基于概率图模型的软错误量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

Fine-Grained Uncertainty Quantification for Long-Form Language Model Outputs: A Comparative Study

Arxiv

0+阅读 · 2月19日

PoissonRatioUQ: An R package for band ratio uncertainty quantification

Arxiv

0+阅读 · 2月6日

Estimating Semantic Alphabet Size for LLM Uncertainty Quantification

Arxiv

0+阅读 · 2月6日

SeSE: Black-Box Uncertainty Quantification for Large Language Models Based on Structural Information Theory

Arxiv

0+阅读 · 2月6日

Embedding Perturbation may Better Reflect the Uncertainty in LLM Reasoning

Arxiv

0+阅读 · 2月2日

Efficient Epistemic Uncertainty Estimation for Large Language Models via Knowledge Distillation

Arxiv

0+阅读 · 2月2日

RePPL: Recalibrating Perplexity by Uncertainty in Semantic Propagation and Language Generation for Explainable QA Hallucination Detection

Arxiv

0+阅读 · 2月2日

Library Hallucinations in LLMs: Risk Analysis Grounded in Developer Queries

Arxiv

0+阅读 · 1月28日

Efficient semantic uncertainty quantification in language models via diversity-steered sampling

Arxiv

0+阅读 · 1月23日

Agentic Uncertainty Quantification

Arxiv

0+阅读 · 1月22日

VIP会员

文章信息

相关主题

不确定性量化

最新内容

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

9+阅读 · 今天8:10

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

8+阅读 · 今天8:06

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

5+阅读 · 今天8:02

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

5+阅读 · 今天7:32

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

11+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

10+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

6+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

4+阅读 · 4月20日

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

专知会员服务

8+阅读 · 4月20日

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

5+阅读 · 4月20日

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

5+阅读 · 4月20日

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

8+阅读 · 4月20日

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

7+阅读 · 4月20日

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

12+阅读 · 4月20日

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

6+阅读 · 4月20日

相关VIP内容

【CMU博士论文】校准不确定性量化的方法及其效用解析

【CMU博士论文】校准不确定性量化的方法及其效用解析

专知会员服务

22+阅读 · 2025年9月1日

重新思考不确定性：大语言模型时代的关键综述与分析

重新思考不确定性：大语言模型时代的关键综述与分析

专知会员服务

39+阅读 · 2024年11月20日

《多模态大型语言模型的幻觉现象》综述

《多模态大型语言模型的幻觉现象》综述

专知会员服务

46+阅读 · 2024年4月30日

【博士论文】物理信息化机器学习与不确定性量化，187页pdf

【博士论文】物理信息化机器学习与不确定性量化，187页pdf

专知会员服务

40+阅读 · 2024年4月11日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

科研动态| 不依赖GPT-4的多模态幻觉评估benchmark来了！一键实现多维度幻觉自动分析

科研动态| 不依赖GPT-4的多模态幻觉评估benchmark来了！一键实现多维度幻觉自动分析

专知会员服务

26+阅读 · 2023年11月15日

大模型幻觉如何克服？哈工大等最新《大型语言模型中的幻觉现象》综述，详述原理、分类、挑战与未解之谜

大模型幻觉如何克服？哈工大等最新《大型语言模型中的幻觉现象》综述，详述原理、分类、挑战与未解之谜

专知会员服务

82+阅读 · 2023年11月12日

大模型的“幻觉”如何克服？腾讯AILab等《大型语言模型中的幻觉》，全面阐述检测、解释和减轻幻觉

大模型的“幻觉”如何克服？腾讯AILab等《大型语言模型中的幻觉》，全面阐述检测、解释和减轻幻觉

专知会员服务

72+阅读 · 2023年9月7日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

首篇《深度学习不确定性量化: 技术、应用与挑战》2020综述论文，61页pdf582篇文献

专知会员服务

106+阅读 · 2020年11月16日

热门VIP内容

开通专知VIP会员享更多权益服务

《提升美军全域城市作战训练最佳实践的案例研究》366页

美海军数字作战负责人：如何利用数据快速生成战斗力

《美陆军条例：陆军指挥政策（2026版）》

《军用自主人工智能系统的治理与安全》

相关资讯

深度学习模型不确定性方法对比

深度学习模型不确定性方法对比

PaperWeekly

20+阅读 · 2020年2月10日

吐血整理！140种Python标准库、第三方库和外部工具都有了

吐血整理！140种Python标准库、第三方库和外部工具都有了

炼数成金订阅号

16+阅读 · 2019年7月30日

「PPT」深度学习中的不确定性估计

「PPT」深度学习中的不确定性估计

专知

27+阅读 · 2019年7月20日

一个牛逼的 Python 调试工具

一个牛逼的 Python 调试工具

机器学习算法与Python学习

15+阅读 · 2019年4月30日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

Github项目推荐 | Dragonfly：可扩展贝叶斯优化库（Python）

Github项目推荐 | Dragonfly：可扩展贝叶斯优化库（Python）

AI研习社

11+阅读 · 2019年3月22日

CMU 邢波教授2019春季《概率图模型》课程开讲，带你学习PGM（含讲义PPT及视频）

CMU 邢波教授2019春季《概率图模型》课程开讲，带你学习PGM（含讲义PPT及视频）

专知

51+阅读 · 2019年1月25日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

基于python的开源量化交易，量化投资架构

基于python的开源量化交易，量化投资架构

运维帮

15+阅读 · 2018年7月5日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

相关论文

Fine-Grained Uncertainty Quantification for Long-Form Language Model Outputs: A Comparative Study

Arxiv

0+阅读 · 2月19日

PoissonRatioUQ: An R package for band ratio uncertainty quantification

Arxiv

0+阅读 · 2月6日

Estimating Semantic Alphabet Size for LLM Uncertainty Quantification

Arxiv

0+阅读 · 2月6日

SeSE: Black-Box Uncertainty Quantification for Large Language Models Based on Structural Information Theory

Arxiv

0+阅读 · 2月6日

Embedding Perturbation may Better Reflect the Uncertainty in LLM Reasoning

Arxiv

0+阅读 · 2月2日

Efficient Epistemic Uncertainty Estimation for Large Language Models via Knowledge Distillation

Arxiv

0+阅读 · 2月2日

RePPL: Recalibrating Perplexity by Uncertainty in Semantic Propagation and Language Generation for Explainable QA Hallucination Detection

Arxiv

0+阅读 · 2月2日

Library Hallucinations in LLMs: Risk Analysis Grounded in Developer Queries

Arxiv

0+阅读 · 1月28日

Efficient semantic uncertainty quantification in language models via diversity-steered sampling

Arxiv

0+阅读 · 1月23日

Agentic Uncertainty Quantification

Arxiv

0+阅读 · 1月22日

相关基金

知识不确定性度量的粒计算模型及其应用研究

国家自然科学基金

1+阅读 · 2017年12月31日

随机振动响应预测中的模型形式不确定性量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多源异构不确定数据的高效用信息挖掘的研究

国家自然科学基金

4+阅读 · 2015年12月31日

近似计算中基于概率图模型的软错误量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员