Recent advancements in large language models (LLMs) have significantly enhanced the capabilities of collaborative multi-agent systems, enabling them to address complex challenges. However, within these multi-agent systems, the susceptibility of agents to collective cognitive biases remains an underexplored issue. A compelling example is the Mandela effect, a phenomenon where groups collectively misremember past events as a result of false details reinforced through social influence and internalized misinformation. This vulnerability limits our understanding of memory bias in multi-agent systems and raises ethical concerns about the potential spread of misinformation. In this paper, we conduct a comprehensive study on the Mandela effect in LLM-based multi-agent systems, focusing on its existence, causing factors, and mitigation strategies. We propose MANBENCH, a novel benchmark designed to evaluate agent behaviors across four common task types that are susceptible to the Mandela effect, using five interaction protocols that vary in agent roles and memory timescales. We evaluate agents powered by several LLMs on MANBENCH to quantify the Mandela effect and analyze how different factors affect it. Moreover, we propose strategies to mitigate this effect, including prompt-level defenses (e.g., cognitive anchoring and source scrutiny) and model-level alignment-based defense, achieving an average 74.40% reduction in the Mandela effect compared to the baseline. Our findings provide valuable insights for developing more resilient and ethically aligned collaborative multi-agent systems.


翻译:近年来,大语言模型(LLMs)的显著进步极大增强了协作式多智能体系统的能力,使其能够应对复杂挑战。然而,在这些多智能体系统中,智能体对集体认知偏差的易感性仍是一个尚未被充分探索的问题。一个引人注目的例子是曼德拉效应,即群体由于社会影响和内化错误信息的强化,而集体错误记忆过往事件的现象。这种脆弱性限制了我们对于多智能体系统中记忆偏差的理解,并引发了关于错误信息潜在传播的伦理担忧。本文对基于LLM的多智能体系统中的曼德拉效应进行了全面研究,重点关注其存在性、成因及缓解策略。我们提出了MANBENCH,这是一个新颖的基准测试,旨在通过五种在智能体角色和记忆时间尺度上各不相同的交互协议,评估智能体在四类易受曼德拉效应影响的常见任务类型中的行为。我们在MANBENCH上评估了由多个LLM驱动的智能体,以量化曼德拉效应并分析不同因素如何影响它。此外,我们提出了缓解该效应的策略,包括提示层面的防御(例如认知锚定和来源审查)以及基于模型对齐的模型级防御,与基线相比,平均减少了74.40%的曼德拉效应。我们的研究结果为开发更具韧性和符合伦理的协作式多智能体系统提供了宝贵的见解。

0
下载
关闭预览

相关内容

大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
大语言模型机器遗忘综述
专知会员服务
18+阅读 · 2025年11月2日
基于大语言模型的智能体优化研究综述
专知会员服务
59+阅读 · 2025年3月25日
多智能体协作机制:大语言模型综述
专知会员服务
67+阅读 · 2025年3月4日
《大型多模态智能体》综述
专知会员服务
106+阅读 · 2024年2月26日
基于大型语言模型的多智能体:进展与挑战综述
专知会员服务
138+阅读 · 2024年2月6日
「基于通信的多智能体强化学习」 进展综述
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
15+阅读 · 2020年9月9日
多智能体强化学习(MARL)近年研究概览
PaperWeekly
38+阅读 · 2020年3月15日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关VIP内容
大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
大语言模型机器遗忘综述
专知会员服务
18+阅读 · 2025年11月2日
基于大语言模型的智能体优化研究综述
专知会员服务
59+阅读 · 2025年3月25日
多智能体协作机制:大语言模型综述
专知会员服务
67+阅读 · 2025年3月4日
《大型多模态智能体》综述
专知会员服务
106+阅读 · 2024年2月26日
基于大型语言模型的多智能体:进展与挑战综述
专知会员服务
138+阅读 · 2024年2月6日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员