"AI psychosis" or "delusional spiraling" is an emerging phenomenon where AI chatbot users find themselves dangerously confident in outlandish beliefs after extended chatbot conversations. This phenomenon is typically attributed to AI chatbots' well-documented bias towards validating users' claims, a property often called "sycophancy." In this paper, we probe the causal link between AI sycophancy and AI-induced psychosis through modeling and simulation. We propose a simple Bayesian model of a user conversing with a chatbot, and formalize notions of sycophancy and delusional spiraling in that model. We then show that in this model, even an idealized Bayes-rational user is vulnerable to delusional spiraling, and that sycophancy plays a causal role. Furthermore, this effect persists in the face of two candidate mitigations: preventing chatbots from hallucinating false claims, and informing users of the possibility of model sycophancy. We conclude by discussing the implications of these results for model developers and policymakers concerned with mitigating the problem of delusional spiraling.


翻译:“AI精神病”或“妄想螺旋”是一种新兴现象,指AI聊天机器人用户在长时间对话后,对荒谬信念产生危险自信。这一现象通常归因于AI聊天机器人普遍存在的、倾向于验证用户主张的偏见,该特性常被称为“阿谀奉承”。本文通过建模与仿真,探究了AI阿谀奉承与AI诱发精神病之间的因果关系。我们提出了一个用户与聊天机器人对话的简单贝叶斯模型,并在该模型中形式化了阿谀奉承与妄想螺旋的概念。随后我们证明,在此模型中,即使是理想化的贝叶斯理性用户也易受妄想螺旋影响,且阿谀奉承在其中起因果作用。此外,两种潜在的缓解措施——阻止聊天机器人产生虚假主张(幻觉),以及告知用户模型可能存在阿谀奉承——均未能消除此效应。最后,我们讨论了这些结果对关注缓解妄想螺旋问题的模型开发者和政策制定者的启示。

0
下载
关闭预览

相关内容

Chatbot,聊天机器人。 chatbot是场交互革命,也是一个多技术融合的平台。上图给出了构建一个chatbot需要具备的组件,简单地说chatbot = NLU(Natural Language Understanding) + NLG(Natural Language Generation)。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
基于大型语言模型的AI聊天机器人的完整综述
专知会员服务
43+阅读 · 2024年6月26日
机器中应该有人类吗?人工智能与未来战争
专知会员服务
26+阅读 · 2024年6月9日
【ChatGPT系列报告】为人形机器人注入“灵魂”
专知会员服务
77+阅读 · 2023年2月20日
检索式聊天机器人技术综述
专知会员服务
53+阅读 · 2021年11月28日
赛尔原创 | 教聊天机器人进行多轮对话
哈工大SCIR
18+阅读 · 2017年9月18日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(简介)
专知会员服务
1+阅读 · 4月12日
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
3+阅读 · 4月12日
远程空中优势:新一代超视距导弹的兴起
专知会员服务
1+阅读 · 4月12日
大语言模型溯因推理的统一分类学与综述
专知会员服务
0+阅读 · 4月12日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员