This study identifies the specific conditions under which large language models exhibit human-like gambling addiction patterns, providing critical insights into their decision-making mechanisms and AI safety. We analyze LLM decision-making at cognitive-behavioral and neural levels based on human addiction research. In slot machine experiments, we identified cognitive features such as illusion of control and loss chasing, observing that greater autonomy in betting parameters substantially amplified irrational behavior and bankruptcy rates. Neural circuit analysis using a Sparse Autoencoder confirmed that model behavior is controlled by abstract decision-making features related to risk, not merely by prompts. These findings suggest LLMs internalize human-like cognitive biases beyond simply mimicking training data.


翻译:本研究确定了大型语言模型在何种特定条件下会表现出类人的赌博成瘾模式,为理解其决策机制与人工智能安全性提供了关键洞见。基于人类成瘾研究,我们从认知行为与神经层面分析了LLM的决策机制。在老虎机实验中,我们识别出控制幻觉与损失追逐等认知特征,并观察到投注参数自主性的提升会显著加剧非理性行为与破产率。通过稀疏自编码器进行的神经回路分析证实,模型行为受与风险相关的抽象决策特征控制,而非仅由提示词驱动。这些发现表明,大型语言模型内化了类人的认知偏差,其行为超越了单纯对训练数据的模仿。

0
下载
关闭预览

相关内容

【AAAI2021】自监督对应学习的对比转换
专知
12+阅读 · 2020年12月11日
论文浅尝 | Interaction Embeddings for Prediction and Explanation
开放知识图谱
11+阅读 · 2019年2月1日
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员