Walking Through Uncertainty: An Empirical Study of Uncertainty Estimation for Audio-Aware Large Language Models - 专知论文

会员服务 ·

0

不确定 · 不确定性 · 基准 · 不确定性估计 · 实证研究 ·

Walking Through Uncertainty: An Empirical Study of Uncertainty Estimation for Audio-Aware Large Language Models

翻译：穿越不确定性的旅途：面向音频感知大语言模型的不确定性估计实证研究

Chun-Yi Kuan,Wei-Ping Huang,Hung-yi Lee

from arxiv, Manuscript in progress

Recent audio-aware large language models (ALLMs) have demonstrated strong capabilities across diverse audio understanding and reasoning tasks, but they still frequently produce hallucinated or overly confident outputs. While uncertainty estimation has been extensively studied in text-only LLMs, it remains largely unexplored for ALLMs, where audio-conditioned generation introduces additional challenges such as perceptual ambiguity and cross-modal grounding. In this work, we present the first systematic empirical study of uncertainty estimation in ALLMs. We benchmark five representative methods, including predictive entropy, length-normalized entropy, semantic entropy, discrete semantic entropy, and P(True), across multiple models and diverse evaluation settings spanning general audio understanding, reasoning, hallucination detection, and unanswerable question answering. Our results reveal two key findings. First, semantic-level and verification-based methods consistently outperform token-level baselines on general audio reasoning benchmarks. Second, on trustworthiness-oriented benchmarks, the relative effectiveness of uncertainty methods becomes notably more model- and benchmark-dependent, indicating that conclusions drawn from general reasoning settings do not straightforwardly transfer to hallucination and unanswerable-question scenarios. We further explore uncertainty-based adaptive inference as a potential downstream application. We hope this study provides a foundation for future research on reliable, uncertainty-aware audio-language systems.

翻译：近期，具备音频感知能力的大语言模型（ALLMs）在多种音频理解与推理任务中展现出强劲性能，但其输出仍频繁存在幻觉或过度自信问题。尽管不确定性估计在纯文本大语言模型中已得到广泛研究，但在音频条件生成面临感知模糊性与跨模态对齐等额外挑战的ALLMs领域，该方向仍鲜有探索。本文首次系统性地对ALLMs中的不确定性估计展开实证研究。我们选取五种代表性方法：预测熵、长度归一化熵、语义熵、离散语义熵及P(True)，在涵盖通用音频理解、推理、幻觉检测及不可回答问题等多种评估场景中，对多个模型进行基准测试。实验结果揭示两大核心发现：第一，在通用音频推理基准上，基于语义层级与验证的不确定性方法持续优于基于词元层级的基线方法；第二，在可信度导向基准中，不确定性方法的相对有效性呈现出显著的模型依赖性与基准依赖性，表明通用推理场景的结论无法直接迁移至幻觉检测与不可回答问题场景。我们还进一步探索了基于不确定性自适应推理的潜在下游应用。本研究期望为构建可靠、具备不确定性感知能力的音频-语言系统奠定基础。

0

相关内容

不确定

【综述】大型音频语言模型综述：泛化、可信与未来展望

【综述】大型音频语言模型综述：泛化、可信与未来展望

专知会员服务

13+阅读 · 5月21日

扭曲还是编造？视频大语言模型幻觉研究综述

扭曲还是编造？视频大语言模型幻觉研究综述

专知会员服务

14+阅读 · 4月15日

《缓解大语言模型（LLMs）幻觉：面向应用的检索增强生成（RAG）、推理与智能体系统综述》

《缓解大语言模型（LLMs）幻觉：面向应用的检索增强生成（RAG）、推理与智能体系统综述》

专知会员服务

24+阅读 · 2025年10月29日

从感知到认知：多模态大语言模型中视觉-语言交互推理综述

从感知到认知：多模态大语言模型中视觉-语言交互推理综述

专知会员服务

32+阅读 · 2025年10月1日

重新思考不确定性：大语言模型时代的关键综述与分析

重新思考不确定性：大语言模型时代的关键综述与分析

专知会员服务

39+阅读 · 2024年11月20日

《多模态大语言模型评估综述》

《多模态大语言模型评估综述》

专知会员服务

41+阅读 · 2024年8月29日

【ACL2024】语言模型对齐的不确定性感知学习

【ACL2024】语言模型对齐的不确定性感知学习

专知会员服务

25+阅读 · 2024年6月10日

《多模态大型语言模型的幻觉现象》综述

《多模态大型语言模型的幻觉现象》综述

专知会员服务

46+阅读 · 2024年4月30日

大模型幻觉如何克服？哈工大等最新《大型语言模型中的幻觉现象》综述，详述原理、分类、挑战与未解之谜

大模型幻觉如何克服？哈工大等最新《大型语言模型中的幻觉现象》综述，详述原理、分类、挑战与未解之谜

专知会员服务

82+阅读 · 2023年11月12日

大模型的“幻觉”如何克服？腾讯AILab等《大型语言模型中的幻觉》，全面阐述检测、解释和减轻幻觉

大模型的“幻觉”如何克服？腾讯AILab等《大型语言模型中的幻觉》，全面阐述检测、解释和减轻幻觉

专知会员服务

72+阅读 · 2023年9月7日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

52+阅读 · 2022年11月16日

深度学习模型不确定性方法对比

深度学习模型不确定性方法对比

PaperWeekly

20+阅读 · 2020年2月10日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

「PPT」深度学习中的不确定性估计

「PPT」深度学习中的不确定性估计

专知

27+阅读 · 2019年7月20日

书单 | 语音研究进阶指南

书单 | 语音研究进阶指南

微软研究院AI头条

12+阅读 · 2019年3月22日

近期语音类前沿论文

近期语音类前沿论文

深度学习每日摘要

14+阅读 · 2019年3月17日

每日论文 | CV中深度学习涉及到的几何和不确定性；用深度学习分析气象；可自动调整模拟器参数的模型

每日论文 | CV中深度学习涉及到的几何和不确定性；用深度学习分析气象；可自动调整模拟器参数的模型

论智

11+阅读 · 2018年10月9日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

智能感知空间中基于QoX的上下文不确定性建模和处理关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

知识不确定性度量的粒计算模型及其应用研究

国家自然科学基金

1+阅读 · 2017年12月31日

随机振动响应预测中的模型形式不确定性量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

不确定线性系统故障诊断的区间分析理论与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

噪声不确定下基于计算智能的多跳认知无线电网络协作频谱感知优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

Heterogeneity-Aware Dataset Scheduling for Efficient Audio Large Language Model Training

Arxiv

0+阅读 · 5月18日

Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey

Arxiv

1+阅读 · 4月21日

Closing the Modality Reasoning Gap for Speech Large Language Models

Arxiv

0+阅读 · 4月20日

From Passive Metric to Active Signal: The Evolving Role of Uncertainty Quantification in Large Language Models

Arxiv

0+阅读 · 4月19日

Cross-Modal Attention Analysis and Optimization in Vision-Language Models: A Study on Visual Reliability

Arxiv

0+阅读 · 4月19日

Beyond "Hallucinations": A Framework for Stable Human-AI Reasoning

Arxiv

0+阅读 · 4月16日

Hallucination Detection and Evaluation of Large Language Model

Arxiv

0+阅读 · 4月9日

VideoZeroBench: Probing the Limits of Video MLLMs with Spatio-Temporal Evidence Verification

Arxiv

0+阅读 · 4月2日

Neural Uncertainty Principle: A Unified View of Adversarial Fragility and LLM Hallucination

Arxiv

0+阅读 · 3月20日

Siren's Song in the AI Ocean: A Survey on Hallucination in Large Language Models

Arxiv

24+阅读 · 2023年9月3日

VIP会员

文章信息

相关主题

不确定性估计

最新内容

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

5+阅读 · 今天8:00

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

3+阅读 · 今天7:44

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

3+阅读 · 今天7:28

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

4+阅读 · 今天7:18

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

5+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

4+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

4+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

5+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

4+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

8+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

7+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

4+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

相关VIP内容

【综述】大型音频语言模型综述：泛化、可信与未来展望

【综述】大型音频语言模型综述：泛化、可信与未来展望

专知会员服务

13+阅读 · 5月21日

扭曲还是编造？视频大语言模型幻觉研究综述

扭曲还是编造？视频大语言模型幻觉研究综述

专知会员服务

14+阅读 · 4月15日

《缓解大语言模型（LLMs）幻觉：面向应用的检索增强生成（RAG）、推理与智能体系统综述》

《缓解大语言模型（LLMs）幻觉：面向应用的检索增强生成（RAG）、推理与智能体系统综述》

专知会员服务

24+阅读 · 2025年10月29日

从感知到认知：多模态大语言模型中视觉-语言交互推理综述

从感知到认知：多模态大语言模型中视觉-语言交互推理综述

专知会员服务

32+阅读 · 2025年10月1日

重新思考不确定性：大语言模型时代的关键综述与分析

重新思考不确定性：大语言模型时代的关键综述与分析

专知会员服务

39+阅读 · 2024年11月20日

《多模态大语言模型评估综述》

《多模态大语言模型评估综述》

专知会员服务

41+阅读 · 2024年8月29日

【ACL2024】语言模型对齐的不确定性感知学习

【ACL2024】语言模型对齐的不确定性感知学习

专知会员服务

25+阅读 · 2024年6月10日

《多模态大型语言模型的幻觉现象》综述

《多模态大型语言模型的幻觉现象》综述

专知会员服务

46+阅读 · 2024年4月30日

大模型幻觉如何克服？哈工大等最新《大型语言模型中的幻觉现象》综述，详述原理、分类、挑战与未解之谜

大模型幻觉如何克服？哈工大等最新《大型语言模型中的幻觉现象》综述，详述原理、分类、挑战与未解之谜

专知会员服务

82+阅读 · 2023年11月12日

大模型的“幻觉”如何克服？腾讯AILab等《大型语言模型中的幻觉》，全面阐述检测、解释和减轻幻觉

大模型的“幻觉”如何克服？腾讯AILab等《大型语言模型中的幻觉》，全面阐述检测、解释和减轻幻觉

专知会员服务

72+阅读 · 2023年9月7日

热门VIP内容

开通专知VIP会员享更多权益服务

重新思考无人机时代的生存能力

在人工智能加速决策环境中拓展OODA循环

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

装甲突击旅：现代战争思考、战斗与组织

相关资讯

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

52+阅读 · 2022年11月16日

深度学习模型不确定性方法对比

深度学习模型不确定性方法对比

PaperWeekly

20+阅读 · 2020年2月10日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

「PPT」深度学习中的不确定性估计

「PPT」深度学习中的不确定性估计

专知

27+阅读 · 2019年7月20日

书单 | 语音研究进阶指南

书单 | 语音研究进阶指南

微软研究院AI头条

12+阅读 · 2019年3月22日

近期语音类前沿论文

近期语音类前沿论文

深度学习每日摘要

14+阅读 · 2019年3月17日

每日论文 | CV中深度学习涉及到的几何和不确定性；用深度学习分析气象；可自动调整模拟器参数的模型

每日论文 | CV中深度学习涉及到的几何和不确定性；用深度学习分析气象；可自动调整模拟器参数的模型

论智

11+阅读 · 2018年10月9日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

相关论文

Heterogeneity-Aware Dataset Scheduling for Efficient Audio Large Language Model Training

Arxiv

0+阅读 · 5月18日

Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey

Arxiv

1+阅读 · 4月21日

Closing the Modality Reasoning Gap for Speech Large Language Models

Arxiv

0+阅读 · 4月20日

From Passive Metric to Active Signal: The Evolving Role of Uncertainty Quantification in Large Language Models

Arxiv

0+阅读 · 4月19日

Cross-Modal Attention Analysis and Optimization in Vision-Language Models: A Study on Visual Reliability

Arxiv

0+阅读 · 4月19日

Beyond "Hallucinations": A Framework for Stable Human-AI Reasoning

Arxiv

0+阅读 · 4月16日

Hallucination Detection and Evaluation of Large Language Model

Arxiv

0+阅读 · 4月9日

VideoZeroBench: Probing the Limits of Video MLLMs with Spatio-Temporal Evidence Verification

Arxiv

0+阅读 · 4月2日

Neural Uncertainty Principle: A Unified View of Adversarial Fragility and LLM Hallucination

Arxiv

0+阅读 · 3月20日

Siren's Song in the AI Ocean: A Survey on Hallucination in Large Language Models

Arxiv

24+阅读 · 2023年9月3日

相关基金

智能感知空间中基于QoX的上下文不确定性建模和处理关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

知识不确定性度量的粒计算模型及其应用研究

国家自然科学基金

1+阅读 · 2017年12月31日

随机振动响应预测中的模型形式不确定性量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

不确定线性系统故障诊断的区间分析理论与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

噪声不确定下基于计算智能的多跳认知无线电网络协作频谱感知优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员