Not All Uncertainty Is Equal: How Uncertainty Granularity Shapes Human Verification in LLM-Assisted Decision Making - 专知论文

会员服务 ·

0

Not All Uncertainty Is Equal: How Uncertainty Granularity Shapes Human Verification in LLM-Assisted Decision Making

翻译：暂无翻译

Mauricio Villavicencio,Sitong Pan,Qianwen Wang

from arxiv, 54 pages, 36 figures, accepted by ACM FAccT 2026

Despite warnings that LLMs can make mistakes, users often develop inappropriate trust and accept incorrect answers without critical evaluation. Uncertainty quantification (UQ), displaying LLMs' confidence, has emerged as a promising approach to calibrate user trust. However, prior empirical studies on uncertainty communication have treated uncertainty as a single numerical score or simple natural language expression. This simplification fails to capture a key property of LLM outputs: a single response often comprises multiple claims and reasoning steps, each with distinct levels of uncertainty. To address this gap, this study investigates uncertainty granularity (i.e., the extent to which uncertainty is expressed at different levels within an LLM response) and examines its impact on LLM-assisted decision-making. We conducted a large-scale, between-subjects study (N=192) in which participants answered medical questions using LLMs that displayed uncertainty at three different granularities: output-level (entire response), relation-level (individual reasoning steps), and token-level (specific words). Our findings reveal distinct behavioral effects as a function of uncertainty granularity. Token-level uncertainty increased users' agreement with the AI, whereas output- and relation-level uncertainty did not increase agreement but instead reduced users' confidence in their own answers. Notably, relation-level uncertainty also reduced external verification (i.e., internet searches, checking provided URLs), steering users away from independent fact-checking and toward reliance on the LLM and its accompanying uncertainty cues. Our findings demonstrate that uncertainty granularity significantly shapes how users interact with and verify LLM outputs, providing concrete design guidance for building responsible LLM applications that encourage appropriate skepticism and verification behaviors.

翻译：暂无翻译

0

相关内容

【ICML2025】大语言模型的有限理性：推理时的“满意化”对齐策略

【ICML2025】大语言模型的有限理性：推理时的“满意化”对齐策略

专知会员服务

11+阅读 · 2025年6月1日

【新书】设计大型语言模型应用：一种面向LLMs的整体方法

【新书】设计大型语言模型应用：一种面向LLMs的整体方法

专知会员服务

56+阅读 · 2025年3月16日

《以人为中心的大型语言模型（LLM）研究综述》

《以人为中心的大型语言模型（LLM）研究综述》

专知会员服务

41+阅读 · 2024年11月25日

迈向可信的人工智能：伦理和稳健的大型语言模型综述

迈向可信的人工智能：伦理和稳健的大型语言模型综述

专知会员服务

39+阅读 · 2024年7月28日

《美国防部对人工智能和 LLM 编写评估因素的信心与偏见》2024最新275页论文

《美国防部对人工智能和 LLM 编写评估因素的信心与偏见》2024最新275页论文

专知会员服务

64+阅读 · 2024年3月4日

《对齐语言模型的通用和可转移对抗性攻击》CMU等2023最新论文

《对齐语言模型的通用和可转移对抗性攻击》CMU等2023最新论文

专知会员服务

26+阅读 · 2024年1月2日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

专知会员服务

47+阅读 · 2023年10月12日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

【AAAI 2019 Tutorial】不确定性下基于知识的顺序决策（Knowledge-based Sequential Decision-Making under Uncertainty），张世琦，Mohan Sridharan

【AAAI 2019 Tutorial】不确定性下基于知识的顺序决策（Knowledge-based Sequential Decision-Making under Uncertainty），张世琦，Mohan Sridharan

专知会员服务

13+阅读 · 2019年11月18日

深度学习模型不确定性方法对比

深度学习模型不确定性方法对比

PaperWeekly

20+阅读 · 2020年2月10日

赛尔原创 | EMNLP 2019 基于上下文感知的变分自编码器建模事件背景知识进行If-Then类型常识推理

赛尔原创 | EMNLP 2019 基于上下文感知的变分自编码器建模事件背景知识进行If-Then类型常识推理

哈工大SCIR

17+阅读 · 2019年9月23日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

微软机器阅读理解在一场多轮对话挑战中媲美人类

微软机器阅读理解在一场多轮对话挑战中媲美人类

微软丹棱街5号

19+阅读 · 2019年5月14日

【泡泡图灵智库】密集相关的自监督视觉描述学习（RAL）

【泡泡图灵智库】密集相关的自监督视觉描述学习（RAL）

泡泡机器人SLAM

11+阅读 · 2018年10月6日

NLP 教程：词性标注、依存分析和命名实体识别解析与应用

NLP 教程：词性标注、依存分析和命名实体识别解析与应用

AI研习社

11+阅读 · 2018年7月1日

论文浅尝 | 嵌入常识知识的注意力 LSTM 模型用于特定目标的基于侧面的情感分析

论文浅尝 | 嵌入常识知识的注意力 LSTM 模型用于特定目标的基于侧面的情感分析

开放知识图谱

28+阅读 · 2018年6月11日

论文笔记 | How NOT To Evaluate Your Dialogue System

论文笔记 | How NOT To Evaluate Your Dialogue System

科技创新与创业

13+阅读 · 2017年12月23日

YesOfCourse团队在Kaggle文本匹配竞赛中获得优异成绩

YesOfCourse团队在Kaggle文本匹配竞赛中获得优异成绩

中国科学院网络数据重点实验室

10+阅读 · 2017年6月15日

信息不完全的双边匹配决策方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

读者视角的跨领域隐式情感分析理论及关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

不确定与动态信息环境下基于预规划-重规划集成建模的应急物流选址-调度鲁棒优化研究

国家自然科学基金

3+阅读 · 2014年12月31日

维吾尔文印刷文档图像中不良信息过滤关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

残缺判断信息下专家共识群决策理论、方法及应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

Speaker Verification with Speech-Aware LLMs: Evaluation and Augmentation

Speaker Verification with Speech-Aware LLMs: Evaluation and Augmentation

Arxiv

0+阅读 · 6月17日

Quantifying and Auditing LLM Evaluation via Positive--Unlabeled Learning

Arxiv

0+阅读 · 6月17日

LLM-as-an-Investigator: Evidence-First Reasoning for Robust Interactive Problem Diagnosis

Arxiv

0+阅读 · 6月11日

The Language You Ask In: Language-Conditioned Ideological Divergence in LLM Analysis of Contested Political Documents

Arxiv

0+阅读 · 6月9日

SAFE: An LLM-as-Verifier Framework for Evidence-Grounded Multi-Hop Reasoning

Arxiv

0+阅读 · 6月9日

Toward Culturally Aligned LLMs through Ontology-Guided Multi-Agent Reasoning

Arxiv

0+阅读 · 6月4日

Towards Real-world Human Behavior Simulation: Benchmarking Large Language Models on Long-horizon, Cross-scenario, Heterogeneous Behavior Traces

Arxiv

0+阅读 · 5月21日

"I didn't Make the Micro Decisions": Measuring, Inducing, and Exposing Goal-Level AI Contributions in Collaboration

Arxiv

0+阅读 · 5月20日

LLMs as Implicit Imputers: Uncertainty Should Scale with Missing Information

Arxiv

0+阅读 · 5月13日

LLM hallucinations in the wild: Large-scale evidence from non-existent citations

Arxiv

0+阅读 · 5月8日

VIP会员

文章信息

相关主题

最新内容

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

1+阅读 · 今天2:06

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

2+阅读 · 今天1:37

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

3+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

3+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

4+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

6+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

6+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

3+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

4+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

4+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

4+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

3+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

多模态代码智能综述：从视觉输入到可执行代码系统

多模态代码智能综述：从视觉输入到可执行代码系统

专知会员服务

8+阅读 · 6月16日

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

6+阅读 · 6月16日

相关VIP内容

【ICML2025】大语言模型的有限理性：推理时的“满意化”对齐策略

【ICML2025】大语言模型的有限理性：推理时的“满意化”对齐策略

专知会员服务

11+阅读 · 2025年6月1日

【新书】设计大型语言模型应用：一种面向LLMs的整体方法

【新书】设计大型语言模型应用：一种面向LLMs的整体方法

专知会员服务

56+阅读 · 2025年3月16日

《以人为中心的大型语言模型（LLM）研究综述》

《以人为中心的大型语言模型（LLM）研究综述》

专知会员服务

41+阅读 · 2024年11月25日

迈向可信的人工智能：伦理和稳健的大型语言模型综述

迈向可信的人工智能：伦理和稳健的大型语言模型综述

专知会员服务

39+阅读 · 2024年7月28日

《美国防部对人工智能和 LLM 编写评估因素的信心与偏见》2024最新275页论文

《美国防部对人工智能和 LLM 编写评估因素的信心与偏见》2024最新275页论文

专知会员服务

64+阅读 · 2024年3月4日

《对齐语言模型的通用和可转移对抗性攻击》CMU等2023最新论文

《对齐语言模型的通用和可转移对抗性攻击》CMU等2023最新论文

专知会员服务

26+阅读 · 2024年1月2日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

专知会员服务

47+阅读 · 2023年10月12日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

【AAAI 2019 Tutorial】不确定性下基于知识的顺序决策（Knowledge-based Sequential Decision-Making under Uncertainty），张世琦，Mohan Sridharan

【AAAI 2019 Tutorial】不确定性下基于知识的顺序决策（Knowledge-based Sequential Decision-Making under Uncertainty），张世琦，Mohan Sridharan

专知会员服务

13+阅读 · 2019年11月18日

热门VIP内容

开通专知VIP会员享更多权益服务

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

相关资讯

深度学习模型不确定性方法对比

深度学习模型不确定性方法对比

PaperWeekly

20+阅读 · 2020年2月10日

赛尔原创 | EMNLP 2019 基于上下文感知的变分自编码器建模事件背景知识进行If-Then类型常识推理

赛尔原创 | EMNLP 2019 基于上下文感知的变分自编码器建模事件背景知识进行If-Then类型常识推理

哈工大SCIR

17+阅读 · 2019年9月23日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

微软机器阅读理解在一场多轮对话挑战中媲美人类

微软机器阅读理解在一场多轮对话挑战中媲美人类

微软丹棱街5号

19+阅读 · 2019年5月14日

【泡泡图灵智库】密集相关的自监督视觉描述学习（RAL）

【泡泡图灵智库】密集相关的自监督视觉描述学习（RAL）

泡泡机器人SLAM

11+阅读 · 2018年10月6日

NLP 教程：词性标注、依存分析和命名实体识别解析与应用

NLP 教程：词性标注、依存分析和命名实体识别解析与应用

AI研习社

11+阅读 · 2018年7月1日

论文浅尝 | 嵌入常识知识的注意力 LSTM 模型用于特定目标的基于侧面的情感分析

论文浅尝 | 嵌入常识知识的注意力 LSTM 模型用于特定目标的基于侧面的情感分析

开放知识图谱

28+阅读 · 2018年6月11日

论文笔记 | How NOT To Evaluate Your Dialogue System

论文笔记 | How NOT To Evaluate Your Dialogue System

科技创新与创业

13+阅读 · 2017年12月23日

YesOfCourse团队在Kaggle文本匹配竞赛中获得优异成绩

YesOfCourse团队在Kaggle文本匹配竞赛中获得优异成绩

中国科学院网络数据重点实验室

10+阅读 · 2017年6月15日

相关论文

Speaker Verification with Speech-Aware LLMs: Evaluation and Augmentation

Speaker Verification with Speech-Aware LLMs: Evaluation and Augmentation

Arxiv

0+阅读 · 6月17日

Quantifying and Auditing LLM Evaluation via Positive--Unlabeled Learning

Arxiv

0+阅读 · 6月17日

LLM-as-an-Investigator: Evidence-First Reasoning for Robust Interactive Problem Diagnosis

Arxiv

0+阅读 · 6月11日

The Language You Ask In: Language-Conditioned Ideological Divergence in LLM Analysis of Contested Political Documents

Arxiv

0+阅读 · 6月9日

SAFE: An LLM-as-Verifier Framework for Evidence-Grounded Multi-Hop Reasoning

Arxiv

0+阅读 · 6月9日

Toward Culturally Aligned LLMs through Ontology-Guided Multi-Agent Reasoning

Arxiv

0+阅读 · 6月4日

Towards Real-world Human Behavior Simulation: Benchmarking Large Language Models on Long-horizon, Cross-scenario, Heterogeneous Behavior Traces

Arxiv

0+阅读 · 5月21日

"I didn't Make the Micro Decisions": Measuring, Inducing, and Exposing Goal-Level AI Contributions in Collaboration

Arxiv

0+阅读 · 5月20日

LLMs as Implicit Imputers: Uncertainty Should Scale with Missing Information

Arxiv

0+阅读 · 5月13日

LLM hallucinations in the wild: Large-scale evidence from non-existent citations

Arxiv

0+阅读 · 5月8日

相关基金

信息不完全的双边匹配决策方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

读者视角的跨领域隐式情感分析理论及关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

不确定与动态信息环境下基于预规划-重规划集成建模的应急物流选址-调度鲁棒优化研究

国家自然科学基金

3+阅读 · 2014年12月31日

维吾尔文印刷文档图像中不良信息过滤关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

残缺判断信息下专家共识群决策理论、方法及应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员