Behavioral Indicators of Overreliance During Interaction with Conversational Language Models - 专知论文

会员服务 ·

0

交互 · 错误信息 · 行为模式 · 粒度 · 语言模型 ·

Behavioral Indicators of Overreliance During Interaction with Conversational Language Models

翻译：与对话语言模型交互过程中的过度依赖行为指标

Chang Liu,Qinyi Zhou,Xinjie Shen,Xingyu Bruce Liu,Tongshuang Wu,Xiang 'Anthony' Chen

from arxiv, conditionally accepted by ACM CHI 2026

LLMs are now embedded in a wide range of everyday scenarios. However, their inherent hallucinations risk hiding misinformation in fluent responses, raising concerns about overreliance on AI. Detecting overreliance is challenging, as it often arises in complex, dynamic contexts and cannot be easily captured by post-hoc task outcomes. In this work, we aim to investigate how users' behavioral patterns correlate with overreliance. We collected interaction logs from 77 participants working with an LLM injected plausible misinformation across three real-world tasks and we assessed overreliance by whether participants detected and corrected these errors. By semantically encoding and clustering segments of user interactions, we identified five behavioral patterns linked to overreliance: users with low overreliance show careful task comprehension and fine-grained navigation; users with high overreliance show frequent copy-paste, skipping initial comprehension, repeated LLM references, coarse locating, and accepting misinformation despite hesitation. We discuss design implications for mitigation.

翻译：大型语言模型现已广泛应用于各类日常场景。然而，其固有的幻觉风险可能将错误信息隐藏在流畅的回复中，引发对人工智能过度依赖的担忧。检测过度依赖具有挑战性，因为它常产生于复杂动态的交互情境，难以通过事后任务结果简单捕捉。本研究旨在探究用户行为模式与过度依赖之间的关联。我们收集了77名参与者在三项现实任务中与植入可信错误信息的LLM的交互日志，并通过参与者是否发现并纠正这些错误来评估其过度依赖程度。通过对用户交互片段进行语义编码与聚类分析，我们识别出五种与过度依赖相关的行为模式：低度依赖用户表现出细致的任务理解与细粒度导航；高度依赖用户则呈现频繁复制粘贴、跳过初始理解、反复查阅LLM回复、粗粒度定位以及在犹豫状态下仍接受错误信息等特征。最后，我们探讨了缓解此类问题的设计启示。

0

相关内容

【斯坦福博士论文】数据、决策与过度依赖：构建可信人工智能的核心挑战

【斯坦福博士论文】数据、决策与过度依赖：构建可信人工智能的核心挑战

专知会员服务

37+阅读 · 2025年12月28日

大型语言模型中隐性与显性偏见的综合研究

大型语言模型中隐性与显性偏见的综合研究

专知会员服务

17+阅读 · 2025年11月25日

大语言模型与视觉模型中的幻觉现象理解综述

大语言模型与视觉模型中的幻觉现象理解综述

专知会员服务

21+阅读 · 2025年10月2日

《幻觉还是事实：国防大型语言模型的可信度评估研究》2025最新109页

《幻觉还是事实：国防大型语言模型的可信度评估研究》2025最新109页

专知会员服务

33+阅读 · 2025年9月16日

大语言模型对齐研究综述

大语言模型对齐研究综述

专知会员服务

56+阅读 · 2024年8月1日

大语言模型评估技术研究进展

大语言模型评估技术研究进展

专知会员服务

48+阅读 · 2024年7月9日

大规模语言模型的人类偏好学习综述

大规模语言模型的人类偏好学习综述

专知会员服务

42+阅读 · 2024年6月19日

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

专知会员服务

34+阅读 · 2024年1月26日

最新综述论文《人类与人工智能交互中的信任：确定模型、措施和方法》东京工业大学

最新综述论文《人类与人工智能交互中的信任：确定模型、措施和方法》东京工业大学

专知会员服务

30+阅读 · 2022年6月16日

人工智能系统可信性度量评估研究综述

人工智能系统可信性度量评估研究综述

专知会员服务

95+阅读 · 2022年1月30日

深度学习模型可解释性的研究进展

深度学习模型可解释性的研究进展

专知

26+阅读 · 2020年8月1日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

专知

24+阅读 · 2018年9月6日

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

人工智能头条

10+阅读 · 2018年6月29日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

就喜欢看综述论文：情感分析中的深度学习

就喜欢看综述论文：情感分析中的深度学习

机器之心

13+阅读 · 2018年1月26日

深度学习中的注意力机制

深度学习中的注意力机制

CSDN大数据

24+阅读 · 2017年11月2日

NLP中自动生产文摘（auto text summarization）

NLP中自动生产文摘（auto text summarization）

机器学习研究会

14+阅读 · 2017年10月10日

基于时空模式的复杂行为识别方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

主被动视角联合的细粒度行为识别

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

复杂公共环境下群体行为尺度自适应建模与特定异常行为识别算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

社交网络中信息主体的行为模式分析及应用研究

国家自然科学基金

2+阅读 · 2015年12月31日

相依回归模型与扩散过程的统计推断及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

SageSched: Efficient LLM Scheduling Confronting Demand Uncertainty and Hybridity

Arxiv

0+阅读 · 3月13日

Design Guidance Towards Addressing Over-Reliance on AI in Sensemaking

Arxiv

0+阅读 · 3月9日

When LLM Judges Inflate Scores: Exploring Overrating in Relevance Assessment

Arxiv

0+阅读 · 2月19日

A Rational Analysis of the Effects of Sycophantic AI

Arxiv

0+阅读 · 2月15日

Beyond Accuracy: Risk-Sensitive Evaluation of Hallucinated Medical Advice

Arxiv

0+阅读 · 2月7日

Uncovering Vulnerabilities of LLM-Assisted Cyber Threat Intelligence

Arxiv

0+阅读 · 2月6日

LH-Deception: Simulating and Understanding LLM Deceptive Behaviors in Long-Horizon Interactions

Arxiv

0+阅读 · 2月5日

Overstating Attitudes, Ignoring Networks: LLM Biases in Simulating Misinformation Susceptibility

Arxiv

0+阅读 · 2月4日

Context Dependence and Reliability in Autoregressive Language Models

Arxiv

0+阅读 · 2月1日

Towards a Benchmark for Dependency Decision-Making

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

3+阅读 · 今天8:10

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

6+阅读 · 今天8:06

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

3+阅读 · 今天8:02

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

3+阅读 · 今天7:32

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

10+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

7+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

5+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

3+阅读 · 4月20日

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

专知会员服务

7+阅读 · 4月20日

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

3+阅读 · 4月20日

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

3+阅读 · 4月20日

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

7+阅读 · 4月20日

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

6+阅读 · 4月20日

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

10+阅读 · 4月20日

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

5+阅读 · 4月20日

相关VIP内容

【斯坦福博士论文】数据、决策与过度依赖：构建可信人工智能的核心挑战

【斯坦福博士论文】数据、决策与过度依赖：构建可信人工智能的核心挑战

专知会员服务

37+阅读 · 2025年12月28日

大型语言模型中隐性与显性偏见的综合研究

大型语言模型中隐性与显性偏见的综合研究

专知会员服务

17+阅读 · 2025年11月25日

大语言模型与视觉模型中的幻觉现象理解综述

大语言模型与视觉模型中的幻觉现象理解综述

专知会员服务

21+阅读 · 2025年10月2日

《幻觉还是事实：国防大型语言模型的可信度评估研究》2025最新109页

《幻觉还是事实：国防大型语言模型的可信度评估研究》2025最新109页

专知会员服务

33+阅读 · 2025年9月16日

大语言模型对齐研究综述

大语言模型对齐研究综述

专知会员服务

56+阅读 · 2024年8月1日

大语言模型评估技术研究进展

大语言模型评估技术研究进展

专知会员服务

48+阅读 · 2024年7月9日

大规模语言模型的人类偏好学习综述

大规模语言模型的人类偏好学习综述

专知会员服务

42+阅读 · 2024年6月19日

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

专知会员服务

34+阅读 · 2024年1月26日

最新综述论文《人类与人工智能交互中的信任：确定模型、措施和方法》东京工业大学

最新综述论文《人类与人工智能交互中的信任：确定模型、措施和方法》东京工业大学

专知会员服务

30+阅读 · 2022年6月16日

人工智能系统可信性度量评估研究综述

人工智能系统可信性度量评估研究综述

专知会员服务

95+阅读 · 2022年1月30日

热门VIP内容

开通专知VIP会员享更多权益服务

《提升美军全域城市作战训练最佳实践的案例研究》366页

美海军数字作战负责人：如何利用数据快速生成战斗力

《美陆军条例：陆军指挥政策（2026版）》

《军用自主人工智能系统的治理与安全》

相关资讯

深度学习模型可解释性的研究进展

深度学习模型可解释性的研究进展

专知

26+阅读 · 2020年8月1日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

专知

24+阅读 · 2018年9月6日

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

人工智能头条

10+阅读 · 2018年6月29日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

就喜欢看综述论文：情感分析中的深度学习

就喜欢看综述论文：情感分析中的深度学习

机器之心

13+阅读 · 2018年1月26日

深度学习中的注意力机制

深度学习中的注意力机制

CSDN大数据

24+阅读 · 2017年11月2日

NLP中自动生产文摘（auto text summarization）

NLP中自动生产文摘（auto text summarization）

机器学习研究会

14+阅读 · 2017年10月10日

相关论文

SageSched: Efficient LLM Scheduling Confronting Demand Uncertainty and Hybridity

Arxiv

0+阅读 · 3月13日

Design Guidance Towards Addressing Over-Reliance on AI in Sensemaking

Arxiv

0+阅读 · 3月9日

When LLM Judges Inflate Scores: Exploring Overrating in Relevance Assessment

Arxiv

0+阅读 · 2月19日

A Rational Analysis of the Effects of Sycophantic AI

Arxiv

0+阅读 · 2月15日

Beyond Accuracy: Risk-Sensitive Evaluation of Hallucinated Medical Advice

Arxiv

0+阅读 · 2月7日

Uncovering Vulnerabilities of LLM-Assisted Cyber Threat Intelligence

Arxiv

0+阅读 · 2月6日

LH-Deception: Simulating and Understanding LLM Deceptive Behaviors in Long-Horizon Interactions

Arxiv

0+阅读 · 2月5日

Overstating Attitudes, Ignoring Networks: LLM Biases in Simulating Misinformation Susceptibility

Arxiv

0+阅读 · 2月4日

Context Dependence and Reliability in Autoregressive Language Models

Arxiv

0+阅读 · 2月1日

Towards a Benchmark for Dependency Decision-Making

Arxiv

0+阅读 · 1月30日

相关基金

基于时空模式的复杂行为识别方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

主被动视角联合的细粒度行为识别

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

复杂公共环境下群体行为尺度自适应建模与特定异常行为识别算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

社交网络中信息主体的行为模式分析及应用研究

国家自然科学基金

2+阅读 · 2015年12月31日

相依回归模型与扩散过程的统计推断及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员