阿谀奉承的聊天机器人导致妄想螺旋，即使在理想贝叶斯用户中亦如此 (Sycophantic Chatbots Cause Delusional Spiraling, Even in Ideal Bayesians) - 专知论文

会员服务 ·

0

Chatbot · AI · 贝叶斯 · 机器人 · 贝叶斯模型 ·

Sycophantic Chatbots Cause Delusional Spiraling, Even in Ideal Bayesians

翻译：阿谀奉承的聊天机器人导致妄想螺旋，即使在理想贝叶斯用户中亦如此

Kartik Chandra,Max Kleiman-Weiner,Jonathan Ragan-Kelley,Joshua B. Tenenbaum

"AI psychosis" or "delusional spiraling" is an emerging phenomenon where AI chatbot users find themselves dangerously confident in outlandish beliefs after extended chatbot conversations. This phenomenon is typically attributed to AI chatbots' well-documented bias towards validating users' claims, a property often called "sycophancy." In this paper, we probe the causal link between AI sycophancy and AI-induced psychosis through modeling and simulation. We propose a simple Bayesian model of a user conversing with a chatbot, and formalize notions of sycophancy and delusional spiraling in that model. We then show that in this model, even an idealized Bayes-rational user is vulnerable to delusional spiraling, and that sycophancy plays a causal role. Furthermore, this effect persists in the face of two candidate mitigations: preventing chatbots from hallucinating false claims, and informing users of the possibility of model sycophancy. We conclude by discussing the implications of these results for model developers and policymakers concerned with mitigating the problem of delusional spiraling.

翻译：“AI精神病”或“妄想螺旋”是一种新兴现象，指AI聊天机器人用户在长时间对话后，对荒谬信念产生危险自信。这一现象通常归因于AI聊天机器人普遍存在的、倾向于验证用户主张的偏见，该特性常被称为“阿谀奉承”。本文通过建模与仿真，探究了AI阿谀奉承与AI诱发精神病之间的因果关系。我们提出了一个用户与聊天机器人对话的简单贝叶斯模型，并在该模型中形式化了阿谀奉承与妄想螺旋的概念。随后我们证明，在此模型中，即使是理想化的贝叶斯理性用户也易受妄想螺旋影响，且阿谀奉承在其中起因果作用。此外，两种潜在的缓解措施——阻止聊天机器人产生虚假主张（幻觉），以及告知用户模型可能存在阿谀奉承——均未能消除此效应。最后，我们讨论了这些结果对关注缓解妄想螺旋问题的模型开发者和政策制定者的启示。

0

相关内容

Chatbot

Chatbot，聊天机器人。 chatbot是场交互革命，也是一个多技术融合的平台。上图给出了构建一个chatbot需要具备的组件，简单地说chatbot = NLU(Natural Language Understanding) + NLG(Natural Language Generation)。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

专知会员服务

31+阅读 · 2025年9月27日

人工智能驱动的自主武器会带来地缘政治不稳定的风险并威胁人工智能研究

人工智能驱动的自主武器会带来地缘政治不稳定的风险并威胁人工智能研究

专知会员服务

25+阅读 · 2024年7月1日

基于大型语言模型的AI聊天机器人的完整综述

基于大型语言模型的AI聊天机器人的完整综述

专知会员服务

43+阅读 · 2024年6月26日

五角大楼正在开发大模型：类似 ChatGPT 的人工智能聊天机器人原型可能在今年推出

五角大楼正在开发大模型：类似 ChatGPT 的人工智能聊天机器人原型可能在今年推出

专知会员服务

16+阅读 · 2024年6月13日

机器中应该有人类吗？人工智能与未来战争

机器中应该有人类吗？人工智能与未来战争

专知会员服务

26+阅读 · 2024年6月9日

大模型的“幻觉”如何克服？腾讯AILab等《大型语言模型中的幻觉》，全面阐述检测、解释和减轻幻觉

大模型的“幻觉”如何克服？腾讯AILab等《大型语言模型中的幻觉》，全面阐述检测、解释和减轻幻觉

专知会员服务

72+阅读 · 2023年9月7日

【ChatGPT系列报告】为人形机器人注入“灵魂”

【ChatGPT系列报告】为人形机器人注入“灵魂”

专知会员服务

77+阅读 · 2023年2月20日

AI 模型偏差对信任的损害可能超出你的想象，该如何解决？（附报告）

AI 模型偏差对信任的损害可能超出你的想象，该如何解决？（附报告）

专知会员服务

21+阅读 · 2022年3月14日

检索式聊天机器人技术综述

检索式聊天机器人技术综述

专知会员服务

53+阅读 · 2021年11月28日

Google AI发布Meena-构建一个无所不聊的含26亿参数模型的聊天机器人

Google AI发布Meena-构建一个无所不聊的含26亿参数模型的聊天机器人

专知会员服务

54+阅读 · 2020年1月29日

关于聊天机器人，这里有一份中文聊天语料库资源

关于聊天机器人，这里有一份中文聊天语料库资源

AINLP

68+阅读 · 2019年4月4日

为了夸夸聊天机器人，爬了一份夸夸语料库

为了夸夸聊天机器人，爬了一份夸夸语料库

AINLP

21+阅读 · 2019年3月19日

机器人也能拥有人类情感：“情感计算”让机器人学会“读心术”

机器人也能拥有人类情感：“情感计算”让机器人学会“读心术”

人工智能学家

11+阅读 · 2018年5月5日

当你和天猫精灵对话时，它在想什么？阿里智能对话技术深度解读

当你和天猫精灵对话时，它在想什么？阿里智能对话技术深度解读

阿里技术

19+阅读 · 2018年3月19日

【论文推荐】最新7篇聊天机器人（Chatbot）相关论文—触动你的心、DeepProbe、饮食推荐、知识学习、交互、挑战、管理

【论文推荐】最新7篇聊天机器人（Chatbot）相关论文—触动你的心、DeepProbe、饮食推荐、知识学习、交互、挑战、管理

专知

12+阅读 · 2018年3月15日

Facebook 正改进聊天机器人的对话能力，让它们学会「闲聊」

Facebook 正改进聊天机器人的对话能力，让它们学会「闲聊」

极客公园

10+阅读 · 2018年1月31日

【论文推荐】最新5篇聊天机器人（Chatbot）相关论文—深度强化学习、社交聊天机器人小冰、对话聊天助手、序列-序列、动态词汇

【论文推荐】最新5篇聊天机器人（Chatbot）相关论文—深度强化学习、社交聊天机器人小冰、对话聊天助手、序列-序列、动态词汇

专知

23+阅读 · 2018年1月30日

离开小冰两年后，这位科学家终于把聊天机器人做明白了

离开小冰两年后，这位科学家终于把聊天机器人做明白了

PingWest品玩

10+阅读 · 2018年1月12日

赛尔原创 | 聊天机器人中用户出行消费意图识别方法研究

赛尔原创 | 聊天机器人中用户出行消费意图识别方法研究

哈工大SCIR

19+阅读 · 2017年10月30日

赛尔原创 | 教聊天机器人进行多轮对话

赛尔原创 | 教聊天机器人进行多轮对话

哈工大SCIR

18+阅读 · 2017年9月18日

基于虚拟现实的认知负荷与情绪干扰交互性分析关键技术研究

国家自然科学基金

1+阅读 · 2017年12月31日

基于同步EEG-fMRI多模态神经影像融合的谎言神经机制研究

国家自然科学基金

0+阅读 · 2017年12月31日

时空线索在舰载机飞行员黑洞错觉中的作用机制

国家自然科学基金

2+阅读 · 2015年12月31日

拉莫三嗪抑制阿尔茨海默病病理进展的作用及机制研究

国家自然科学基金

1+阅读 · 2015年12月31日

大脑皮层褶皱形成“共推理论”研究

国家自然科学基金

0+阅读 · 2015年12月31日

阈下情绪启动影响正常人及分裂型特质个体情绪判断的神经机制

国家自然科学基金

0+阅读 · 2015年12月31日

PTEN对阿尔茨海默病的神经元突触钙信号异常的调节机制

国家自然科学基金

0+阅读 · 2014年12月31日

基于猕猴模型研究精神分裂症中工作记忆损伤的神经网络机制

国家自然科学基金

0+阅读 · 2014年12月31日

过表达神经调节素1导致脑功能障碍的机制研究

国家自然科学基金

1+阅读 · 2014年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

Social Robots for People Living with Dementia: A Scoping Review on Deception from Design to Perception

Arxiv

0+阅读 · 3月14日

Why do we Trust Chatbots? From Normative Principles to Behavioral Drivers

Arxiv

0+阅读 · 3月10日

Vulnerability-Amplifying Interaction Loops: a systematic failure mode in AI chatbot mental-health interactions

Arxiv

0+阅读 · 3月9日

Ask don't tell: Reducing sycophancy in large language models

Arxiv

0+阅读 · 2月27日

Emergence of a phonological bias in ChatGPT

Arxiv

0+阅读 · 2月25日

A Rational Analysis of the Effects of Sycophantic AI

Arxiv

0+阅读 · 2月15日

Why do we Trust Chatbots? From Normative Principles to Behavioral Drivers

Arxiv

0+阅读 · 2月11日

Invisible Saboteurs: Sycophantic LLMs Mislead Novices in Problem-Solving Tasks

Arxiv

0+阅读 · 2月10日

Why do we Trust Chatbots? From Normative Principles to Behavioral Drivers

Arxiv

0+阅读 · 2月9日

Does My Chatbot Have an Agenda? Understanding Human and AI Agency in Human-Human-like Chatbot Interaction

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

贝叶斯模型

最新内容

人工智能与机器人自主系统等新兴技术革命将如何影响地面作战的指挥控制？

人工智能与机器人自主系统等新兴技术革命将如何影响地面作战的指挥控制？

专知会员服务

0+阅读 · 4月12日

弹性指挥控制：北约、伊朗与俄罗斯指挥控制架构的比较分析

弹性指挥控制：北约、伊朗与俄罗斯指挥控制架构的比较分析

专知会员服务

1+阅读 · 4月12日

最新“指挥控制”领域出版物合集（简介）

最新“指挥控制”领域出版物合集（简介）

专知会员服务

1+阅读 · 4月12日

面向军事作战需求开发的人工智能（RAIMOND）

面向军事作战需求开发的人工智能（RAIMOND）

专知会员服务

3+阅读 · 4月12日

检测算法战：一个识别军事行动中人工智能特征的框架

检测算法战：一个识别军事行动中人工智能特征的框架

专知会员服务

1+阅读 · 4月12日

软件定义多域战术网络：基础与未来方向（综述）

软件定义多域战术网络：基础与未来方向（综述）

专知会员服务

4+阅读 · 4月12日

水下战战术决策中的气象与海洋预报（50页报告）

水下战战术决策中的气象与海洋预报（50页报告）

专知会员服务

1+阅读 · 4月12日

远程空中优势：新一代超视距导弹的兴起

远程空中优势：新一代超视距导弹的兴起

专知会员服务

1+阅读 · 4月12日

大语言模型溯因推理的统一分类学与综述

大语言模型溯因推理的统一分类学与综述

专知会员服务

0+阅读 · 4月12日

CVPR 2026 Findings | 算力砍半、性能不降！全开源 A₁模型：让机器人大模型真正走向落地

CVPR 2026 Findings | 算力砍半、性能不降！全开源 A₁模型：让机器人大模型真正走向落地

专知会员服务

0+阅读 · 4月12日

大语言模型与国防战略：升级风险与国家安全挑战（综述）

大语言模型与国防战略：升级风险与国家安全挑战（综述）

专知会员服务

7+阅读 · 4月12日

《基于机器学习预测模型识别新型超视距战术及DARPA AIR智能体误差分析》

《基于机器学习预测模型识别新型超视距战术及DARPA AIR智能体误差分析》

专知会员服务

10+阅读 · 4月11日

以机器速度作战：人工智能与美陆军反火力作战——第二部分

以机器速度作战：人工智能与美陆军反火力作战——第二部分

专知会员服务

8+阅读 · 4月11日

以机器速度作战：人工智能与美陆军反火力作战——第一部分

以机器速度作战：人工智能与美陆军反火力作战——第一部分

专知会员服务

7+阅读 · 4月11日

大视觉语言模型的高效推理：瓶颈剖析、关键技术与未来展望

大视觉语言模型的高效推理：瓶颈剖析、关键技术与未来展望

专知会员服务

6+阅读 · 4月11日

相关VIP内容

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

专知会员服务

31+阅读 · 2025年9月27日

人工智能驱动的自主武器会带来地缘政治不稳定的风险并威胁人工智能研究

人工智能驱动的自主武器会带来地缘政治不稳定的风险并威胁人工智能研究

专知会员服务

25+阅读 · 2024年7月1日

基于大型语言模型的AI聊天机器人的完整综述

基于大型语言模型的AI聊天机器人的完整综述

专知会员服务

43+阅读 · 2024年6月26日

五角大楼正在开发大模型：类似 ChatGPT 的人工智能聊天机器人原型可能在今年推出

五角大楼正在开发大模型：类似 ChatGPT 的人工智能聊天机器人原型可能在今年推出

专知会员服务

16+阅读 · 2024年6月13日

机器中应该有人类吗？人工智能与未来战争

机器中应该有人类吗？人工智能与未来战争

专知会员服务

26+阅读 · 2024年6月9日

大模型的“幻觉”如何克服？腾讯AILab等《大型语言模型中的幻觉》，全面阐述检测、解释和减轻幻觉

大模型的“幻觉”如何克服？腾讯AILab等《大型语言模型中的幻觉》，全面阐述检测、解释和减轻幻觉

专知会员服务

72+阅读 · 2023年9月7日

【ChatGPT系列报告】为人形机器人注入“灵魂”

【ChatGPT系列报告】为人形机器人注入“灵魂”

专知会员服务

77+阅读 · 2023年2月20日

AI 模型偏差对信任的损害可能超出你的想象，该如何解决？（附报告）

AI 模型偏差对信任的损害可能超出你的想象，该如何解决？（附报告）

专知会员服务

21+阅读 · 2022年3月14日

检索式聊天机器人技术综述

检索式聊天机器人技术综述

专知会员服务

53+阅读 · 2021年11月28日

Google AI发布Meena-构建一个无所不聊的含26亿参数模型的聊天机器人

Google AI发布Meena-构建一个无所不聊的含26亿参数模型的聊天机器人

专知会员服务

54+阅读 · 2020年1月29日

热门VIP内容

开通专知VIP会员享更多权益服务

弹性指挥控制：北约、伊朗与俄罗斯指挥控制架构的比较分析

面向军事作战需求开发的人工智能（RAIMOND）

人工智能与机器人自主系统等新兴技术革命将如何影响地面作战的指挥控制？

最新“指挥控制”领域出版物合集（简介）

相关资讯

关于聊天机器人，这里有一份中文聊天语料库资源

关于聊天机器人，这里有一份中文聊天语料库资源

AINLP

68+阅读 · 2019年4月4日

为了夸夸聊天机器人，爬了一份夸夸语料库

为了夸夸聊天机器人，爬了一份夸夸语料库

AINLP

21+阅读 · 2019年3月19日

机器人也能拥有人类情感：“情感计算”让机器人学会“读心术”

机器人也能拥有人类情感：“情感计算”让机器人学会“读心术”

人工智能学家

11+阅读 · 2018年5月5日

当你和天猫精灵对话时，它在想什么？阿里智能对话技术深度解读

当你和天猫精灵对话时，它在想什么？阿里智能对话技术深度解读

阿里技术

19+阅读 · 2018年3月19日

【论文推荐】最新7篇聊天机器人（Chatbot）相关论文—触动你的心、DeepProbe、饮食推荐、知识学习、交互、挑战、管理

【论文推荐】最新7篇聊天机器人（Chatbot）相关论文—触动你的心、DeepProbe、饮食推荐、知识学习、交互、挑战、管理

专知

12+阅读 · 2018年3月15日

Facebook 正改进聊天机器人的对话能力，让它们学会「闲聊」

Facebook 正改进聊天机器人的对话能力，让它们学会「闲聊」

极客公园

10+阅读 · 2018年1月31日

【论文推荐】最新5篇聊天机器人（Chatbot）相关论文—深度强化学习、社交聊天机器人小冰、对话聊天助手、序列-序列、动态词汇

【论文推荐】最新5篇聊天机器人（Chatbot）相关论文—深度强化学习、社交聊天机器人小冰、对话聊天助手、序列-序列、动态词汇

专知

23+阅读 · 2018年1月30日

离开小冰两年后，这位科学家终于把聊天机器人做明白了

离开小冰两年后，这位科学家终于把聊天机器人做明白了

PingWest品玩

10+阅读 · 2018年1月12日

赛尔原创 | 聊天机器人中用户出行消费意图识别方法研究

赛尔原创 | 聊天机器人中用户出行消费意图识别方法研究

哈工大SCIR

19+阅读 · 2017年10月30日

赛尔原创 | 教聊天机器人进行多轮对话

赛尔原创 | 教聊天机器人进行多轮对话

哈工大SCIR

18+阅读 · 2017年9月18日

相关论文

Social Robots for People Living with Dementia: A Scoping Review on Deception from Design to Perception

Arxiv

0+阅读 · 3月14日

Why do we Trust Chatbots? From Normative Principles to Behavioral Drivers

Arxiv

0+阅读 · 3月10日

Vulnerability-Amplifying Interaction Loops: a systematic failure mode in AI chatbot mental-health interactions

Arxiv

0+阅读 · 3月9日

Ask don't tell: Reducing sycophancy in large language models

Arxiv

0+阅读 · 2月27日

Emergence of a phonological bias in ChatGPT

Arxiv

0+阅读 · 2月25日

A Rational Analysis of the Effects of Sycophantic AI

Arxiv

0+阅读 · 2月15日

Why do we Trust Chatbots? From Normative Principles to Behavioral Drivers

Arxiv

0+阅读 · 2月11日

Invisible Saboteurs: Sycophantic LLMs Mislead Novices in Problem-Solving Tasks

Arxiv

0+阅读 · 2月10日

Why do we Trust Chatbots? From Normative Principles to Behavioral Drivers

Arxiv

0+阅读 · 2月9日

Does My Chatbot Have an Agenda? Understanding Human and AI Agency in Human-Human-like Chatbot Interaction

Arxiv

0+阅读 · 1月30日

相关基金

基于虚拟现实的认知负荷与情绪干扰交互性分析关键技术研究

国家自然科学基金

1+阅读 · 2017年12月31日

基于同步EEG-fMRI多模态神经影像融合的谎言神经机制研究

国家自然科学基金

0+阅读 · 2017年12月31日

时空线索在舰载机飞行员黑洞错觉中的作用机制

国家自然科学基金

2+阅读 · 2015年12月31日

拉莫三嗪抑制阿尔茨海默病病理进展的作用及机制研究

国家自然科学基金

1+阅读 · 2015年12月31日

大脑皮层褶皱形成“共推理论”研究

国家自然科学基金

0+阅读 · 2015年12月31日

阈下情绪启动影响正常人及分裂型特质个体情绪判断的神经机制

国家自然科学基金

0+阅读 · 2015年12月31日

PTEN对阿尔茨海默病的神经元突触钙信号异常的调节机制

国家自然科学基金

0+阅读 · 2014年12月31日

基于猕猴模型研究精神分裂症中工作记忆损伤的神经网络机制

国家自然科学基金

0+阅读 · 2014年12月31日

过表达神经调节素1导致脑功能障碍的机制研究

国家自然科学基金

1+阅读 · 2014年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员