SAGE: Answer-Conditioned Uncertainty Targets for Verbal Uncertainty Alignment - 专知论文

会员服务 ·

0

不确定 · 不确定性 · 对齐 · 输出 · 展开 ·

SAGE: Answer-Conditioned Uncertainty Targets for Verbal Uncertainty Alignment

翻译：SAGE：面向言语不确定性对齐的答案条件化不确定性目标

Kaiwen Shi,Zheyuan Zhang,Yanfang Ye

Large language models increasingly express uncertainty through natural-language statements, yet these expressions often fail to reflect the model's sampled behavior. We study verbal uncertainty alignment as a distributional calibration problem: the appropriate uncertainty target for a prompt should be estimated from repeated model outputs rather than from an isolated response. However, group rollouts alone are insufficient, since the resulting target must provide a useful training signal. Existing targets only partially satisfy this requirement. We propose SAGE, Semantic-Answer Guided Entropy, a group-level uncertainty target that constructs an answer-conditioned uncertainty geometry over sampled responses. SAGE preserves categorical, numeric, and symbolic answer distinctions while maintaining a smooth and scale-preserving calibration signal. We further apply this target through Group-Uncertainty Preference Optimization, or GUPO, an uncertainty-channel training framework that supervises verbal uncertainty expressions rather than the full response. Experiments across factual, mathematical, and multiple-choice reasoning tasks show improved uncertainty ranking, lower calibration error, and reduced overconfidence.

翻译：大语言模型日益通过自然语言陈述来表达不确定性，然而这类表达往往未能反映模型的采样行为。我们将言语不确定性对齐视为一个分布校准问题：提示的适当不确定性目标应从重复模型输出中估计，而非孤立响应。然而仅依靠组别展开并不足够，因为由此产生的目标必须提供有效的训练信号。现有目标仅部分满足这一要求。我们提出SAGE（语义答案引导熵），这是一种组级不确定性目标，通过在采样响应上构建答案条件化的不确定性几何结构。SAGE在保持平滑且尺度不变的校准信号的同时，保留了类别型、数值型和符号型答案的区分特征。我们进一步通过组别不确定性偏好优化（GUPO）框架应用该目标，该框架作为不确定性通道训练框架监督言语不确定性表达而非完整响应。在事实型、数学型及多项选择推理任务上的实验表明，该方法改善了不确定性排序、降低了校准误差并减少了过度自信现象。

0

相关内容

不确定

《ARMOR 2025：一个面向军事领域的基准，用于评估大语言模型安全性》

《ARMOR 2025：一个面向军事领域的基准，用于评估大语言模型安全性》

专知会员服务

20+阅读 · 5月7日

《不确定条件下优化问题的高效精确与近似算法》MIT最新130页

《不确定条件下优化问题的高效精确与近似算法》MIT最新130页

专知会员服务

31+阅读 · 2025年11月19日

如何对齐？北大最新271页ICML2025教程《语言模型的对齐方法：一种机器学习视角》

如何对齐？北大最新271页ICML2025教程《语言模型的对齐方法：一种机器学习视角》

专知会员服务

47+阅读 · 2025年7月16日

【ICML2025】大语言模型的有限理性：推理时的“满意化”对齐策略

【ICML2025】大语言模型的有限理性：推理时的“满意化”对齐策略

专知会员服务

11+阅读 · 2025年6月1日

重新思考不确定性：大语言模型时代的关键综述与分析

重新思考不确定性：大语言模型时代的关键综述与分析

专知会员服务

39+阅读 · 2024年11月20日

【牛津大学博士论文】学习分布不确定性估计的语义分割，191页pdf

【牛津大学博士论文】学习分布不确定性估计的语义分割，191页pdf

专知会员服务

30+阅读 · 2024年7月31日

【ACL2024】语言模型对齐的不确定性感知学习

【ACL2024】语言模型对齐的不确定性感知学习

专知会员服务

25+阅读 · 2024年6月10日

【COLING2022教程】自然语言处理的不确定性估计教程

【COLING2022教程】自然语言处理的不确定性估计教程

专知会员服务

31+阅读 · 2022年10月17日

不确定性下如何决策？弗吉尼亚理工最新《不确定性推理与量化的决策研究综述》，51页pdf阐述信念理论与深度学习结合下的不确定性决策

不确定性下如何决策？弗吉尼亚理工最新《不确定性推理与量化的决策研究综述》，51页pdf阐述信念理论与深度学习结合下的不确定性决策

专知会员服务

108+阅读 · 2022年6月17日

【KDD2021】识别不确定性的可靠文本分类

专知会员服务

26+阅读 · 2021年7月17日

【CVPR2023】探索和利用不确定性的不完整多视角分类

【CVPR2023】探索和利用不确定性的不完整多视角分类

专知

42+阅读 · 2023年4月13日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

52+阅读 · 2022年11月16日

【苏黎世联邦理工博士论文】神经系统中的知识不确定性与终身学习，179页pdf

【苏黎世联邦理工博士论文】神经系统中的知识不确定性与终身学习，179页pdf

专知

10+阅读 · 2022年10月29日

北约384页技术报告《评估和沟通情报中的不确定性以支持决策》

北约384页技术报告《评估和沟通情报中的不确定性以支持决策》

专知

36+阅读 · 2022年7月26日

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

专知

17+阅读 · 2021年1月18日

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

专知

11+阅读 · 2020年8月28日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

「PPT」深度学习中的不确定性估计

「PPT」深度学习中的不确定性估计

专知

27+阅读 · 2019年7月20日

如何用机器学习精准辨别“背景”和“目标”

如何用机器学习精准辨别“背景”和“目标”

论智

10+阅读 · 2018年10月22日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

随机振动响应预测中的模型形式不确定性量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

考虑材料分布不确定性的结构拓扑优化问题数学建模与求解方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

不确定非凸规划的稳健全局优化方法的研究

国家自然科学基金

1+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

Quantifying Consistency in LLM Logical Reasoning via Structural Uncertainty

Arxiv

0+阅读 · 6月15日

SpecAlign: Efficient Specification-Grounded Alignment of Large Language Models via Synthetic Data

Arxiv

0+阅读 · 6月15日

Trusted Uncertainty in Large Language Models: A Unified Framework for Confidence Calibration and Risk-Controlled Refusal

Arxiv

0+阅读 · 6月11日

PolyAlign: Conditional Human-Distribution Alignment

Arxiv

0+阅读 · 6月11日

A Judge-Aware Ranking Framework for Evaluating Large Language Models without Ground Truth

Arxiv

0+阅读 · 6月10日

Integrating Local and Global Entropy for Uncertainty Quantification in LLMs

Arxiv

0+阅读 · 6月2日

SafeSteer: Localized On-Policy Distillation for Efficient Safety Alignment

Arxiv

0+阅读 · 6月1日

Can LLMs Use Linguistic Uncertainty Markers to Reliably Reflect Intrinsic Confidence?

Arxiv

0+阅读 · 5月27日

Benchmarking and Improving Monitors for Out-Of-Distribution Alignment Failure in LLMs

Arxiv

0+阅读 · 5月24日

GRACE: A Dynamic Coreset Selection Framework for Large Language Model Optimization

Arxiv

0+阅读 · 4月9日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

2+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

4+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

5+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

6+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

10+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

10+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

15+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

8+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

10+阅读 · 6月17日

相关VIP内容

《ARMOR 2025：一个面向军事领域的基准，用于评估大语言模型安全性》

《ARMOR 2025：一个面向军事领域的基准，用于评估大语言模型安全性》

专知会员服务

20+阅读 · 5月7日

《不确定条件下优化问题的高效精确与近似算法》MIT最新130页

《不确定条件下优化问题的高效精确与近似算法》MIT最新130页

专知会员服务

31+阅读 · 2025年11月19日

如何对齐？北大最新271页ICML2025教程《语言模型的对齐方法：一种机器学习视角》

如何对齐？北大最新271页ICML2025教程《语言模型的对齐方法：一种机器学习视角》

专知会员服务

47+阅读 · 2025年7月16日

【ICML2025】大语言模型的有限理性：推理时的“满意化”对齐策略

【ICML2025】大语言模型的有限理性：推理时的“满意化”对齐策略

专知会员服务

11+阅读 · 2025年6月1日

重新思考不确定性：大语言模型时代的关键综述与分析

重新思考不确定性：大语言模型时代的关键综述与分析

专知会员服务

39+阅读 · 2024年11月20日

【牛津大学博士论文】学习分布不确定性估计的语义分割，191页pdf

【牛津大学博士论文】学习分布不确定性估计的语义分割，191页pdf

专知会员服务

30+阅读 · 2024年7月31日

【ACL2024】语言模型对齐的不确定性感知学习

【ACL2024】语言模型对齐的不确定性感知学习

专知会员服务

25+阅读 · 2024年6月10日

【COLING2022教程】自然语言处理的不确定性估计教程

【COLING2022教程】自然语言处理的不确定性估计教程

专知会员服务

31+阅读 · 2022年10月17日

不确定性下如何决策？弗吉尼亚理工最新《不确定性推理与量化的决策研究综述》，51页pdf阐述信念理论与深度学习结合下的不确定性决策

不确定性下如何决策？弗吉尼亚理工最新《不确定性推理与量化的决策研究综述》，51页pdf阐述信念理论与深度学习结合下的不确定性决策

专知会员服务

108+阅读 · 2022年6月17日

【KDD2021】识别不确定性的可靠文本分类

专知会员服务

26+阅读 · 2021年7月17日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

【CVPR2023】探索和利用不确定性的不完整多视角分类

【CVPR2023】探索和利用不确定性的不完整多视角分类

专知

42+阅读 · 2023年4月13日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

52+阅读 · 2022年11月16日

【苏黎世联邦理工博士论文】神经系统中的知识不确定性与终身学习，179页pdf

【苏黎世联邦理工博士论文】神经系统中的知识不确定性与终身学习，179页pdf

专知

10+阅读 · 2022年10月29日

北约384页技术报告《评估和沟通情报中的不确定性以支持决策》

北约384页技术报告《评估和沟通情报中的不确定性以支持决策》

专知

36+阅读 · 2022年7月26日

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

专知

17+阅读 · 2021年1月18日

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

专知

11+阅读 · 2020年8月28日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

「PPT」深度学习中的不确定性估计

「PPT」深度学习中的不确定性估计

专知

27+阅读 · 2019年7月20日

如何用机器学习精准辨别“背景”和“目标”

如何用机器学习精准辨别“背景”和“目标”

论智

10+阅读 · 2018年10月22日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

相关论文

Quantifying Consistency in LLM Logical Reasoning via Structural Uncertainty

Arxiv

0+阅读 · 6月15日

SpecAlign: Efficient Specification-Grounded Alignment of Large Language Models via Synthetic Data

Arxiv

0+阅读 · 6月15日

Trusted Uncertainty in Large Language Models: A Unified Framework for Confidence Calibration and Risk-Controlled Refusal

Arxiv

0+阅读 · 6月11日

PolyAlign: Conditional Human-Distribution Alignment

Arxiv

0+阅读 · 6月11日

A Judge-Aware Ranking Framework for Evaluating Large Language Models without Ground Truth

Arxiv

0+阅读 · 6月10日

Integrating Local and Global Entropy for Uncertainty Quantification in LLMs

Arxiv

0+阅读 · 6月2日

SafeSteer: Localized On-Policy Distillation for Efficient Safety Alignment

Arxiv

0+阅读 · 6月1日

Can LLMs Use Linguistic Uncertainty Markers to Reliably Reflect Intrinsic Confidence?

Arxiv

0+阅读 · 5月27日

Benchmarking and Improving Monitors for Out-Of-Distribution Alignment Failure in LLMs

Arxiv

0+阅读 · 5月24日

GRACE: A Dynamic Coreset Selection Framework for Large Language Model Optimization

Arxiv

0+阅读 · 4月9日

相关基金

随机振动响应预测中的模型形式不确定性量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

考虑材料分布不确定性的结构拓扑优化问题数学建模与求解方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

不确定非凸规划的稳健全局优化方法的研究

国家自然科学基金

1+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员