Bias in large language models (LLMs) remains a persistent challenge, often leading to stereotyping and unfair treatment across social groups. While prior work has mainly focused on individual LLMs, the emergence of multi-agent systems (MAS), where multiple LLMs collaborate and communicate, introduces new and underexplored dynamics in how bias emerges, propagates, and amplifies. To systematically investigate these dynamics, we propose a simple evaluation framework with three agent-level metrics that quantify bias emergence, propagation, and amplification throughout multi-agent interaction. We evaluate MAS across three bias benchmarks under varying LLM backbones, social-group configurations, communication behaviors, and adversarial settings. Our results show that communication can trigger up to 70\% new bias emergence, propagate bias across over 80\% of agents, and amplify stereotypes by more than 3$\times$. We further find that denser and competitive communication generally increases bias. Finally, we demonstrate that MAS are highly vulnerable to simple bias injection attacks, and existing defense strategies provide only limited protection. Our findings provide important insights into the fairness and robustness of multi-agent LLM systems.


翻译:大规模语言模型中的偏见仍是一个持续挑战,常导致跨社会群体的刻板印象与不公正对待。虽然以往研究主要聚焦于单个语言模型,但多个语言模型协作通信的多智能体系统崛起,引入了偏见如何涌现、传播与放大的新动态——这一领域尚未充分探索。为系统研究这些动态,我们提出一个简洁的评估框架,包含三个智能体层级指标,用以量化多智能体交互中的偏见涌现、传播与放大。我们基于三种偏见基准,在不同语言模型骨干、社会群体配置、通信行为及对抗性设置下对多智能体系统进行评估。结果表明:通信可触发高达70%的新偏见涌现,使偏见传播至超过80%的智能体,并将刻板印象放大3倍以上。进一步发现,更密集且竞争性的通信通常加剧偏见。最终,我们证明多智能体系统极易受简单偏见注入攻击,且现有防御策略仅提供有限保护。这些发现为多智能体语言模型系统的公平性与鲁棒性提供了重要洞见。

0
下载
关闭预览

相关内容

多智能体协作机制
专知会员服务
23+阅读 · 4月25日
大模型驱动的社交网络多智能体仿真综述
专知会员服务
18+阅读 · 2月22日
《多智能体大语言模型系统的可靠决策研究》
专知会员服务
41+阅读 · 2月2日
面向应用的智能体 AI 系统价值对齐:综述与展望
专知会员服务
27+阅读 · 2025年6月12日
《高级AI带来的多智能体风险》最新97页干活技术报告
专知会员服务
47+阅读 · 2025年3月4日
复旦最新《智能体模拟社会》综述
专知会员服务
43+阅读 · 2024年12月8日
【人机融合智能】人机融合智能的现状与展望
产业智能官
12+阅读 · 2020年3月18日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
27+阅读 · 2019年9月9日
一文读懂智能对话系统
数据派THU
16+阅读 · 2018年1月27日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
3+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
3+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
多智能体协作机制
专知会员服务
23+阅读 · 4月25日
大模型驱动的社交网络多智能体仿真综述
专知会员服务
18+阅读 · 2月22日
《多智能体大语言模型系统的可靠决策研究》
专知会员服务
41+阅读 · 2月2日
面向应用的智能体 AI 系统价值对齐:综述与展望
专知会员服务
27+阅读 · 2025年6月12日
《高级AI带来的多智能体风险》最新97页干活技术报告
专知会员服务
47+阅读 · 2025年3月4日
复旦最新《智能体模拟社会》综述
专知会员服务
43+阅读 · 2024年12月8日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员