Accurately modeling opinion change through social interactions is crucial for understanding and mitigating polarization, misinformation, and societal conflict. Recent work simulates opinion dynamics with role-playing LLM agents (RPLAs), but multi-agent simulations often display unnatural group behavior (e.g., premature convergence) and lack empirical benchmarks for assessing alignment with real human group interactions. We introduce DEBATE, a large-scale benchmark for evaluating the authenticity of opinion dynamics in multi-agent RPLA simulations. DEBATE contains 36,383 messages from 2,832 U.S.-based participants across 708 groups and 107 topics, with both public messages and private Likert-scale beliefs, enabling evaluation at the utterance and group levels (and supporting future individual-level analyses). We instantiate "digital twin" RPLAs with seven LLMs and evaluate across two settings: next-message prediction and full conversation rollout, using stance-alignment and opinion-convergence metrics. In zero-shot settings, RPLA groups exhibit strong opinion convergence relative to human groups. Post-training via supervised fine-tuning (SFT) and Direct Preference Optimization (DPO) improves stance alignment and brings group-level convergence closer to human behavior, though discrepancies in opinion change and belief updating remain. DEBATE enables rigorous benchmarking of simulated opinion dynamics and supports future research on aligning multi-agent RPLAs with realistic human interactions.


翻译:通过社会互动准确建模观点变化对于理解和缓解极化、错误信息及社会冲突至关重要。近期研究利用角色扮演大语言模型智能体(RPLAs)模拟观点动态,但多智能体模拟常表现出非自然的群体行为(如过早收敛),且缺乏评估其与真实人类群体互动一致性的实证基准。本文提出DEBATE——一个用于评估多智能体RPLA模拟中观点动态真实性的大规模基准。DEBATE包含来自708个小组、107个议题的2,832名美国参与者的36,383条消息,涵盖公共消息和私人李克特量表信念数据,支持在话语层面和群体层面进行评估(并为未来个体层面分析提供基础)。我们使用七种大语言模型实例化“数字孪生”RPLAs,通过立场对齐和观点收敛指标,在两种设定下进行评估:下一条消息预测和完整对话推演。在零样本设定中,RPLA群体相较于人类群体表现出强烈的观点收敛倾向。通过监督微调(SFT)和直接偏好优化(DPO)进行后训练后,立场对齐得到改善,群体层面收敛行为更接近人类,但在观点变化和信念更新方面仍存在差异。DEBATE为模拟观点动态提供了严谨的基准测试框架,并支持未来关于使多智能体RPLAs与真实人类互动对齐的研究。

0
下载
关闭预览

相关内容

基于大语言模型智能体的社会认知模拟
专知会员服务
13+阅读 · 2月22日
LLM/智能体作为数据分析师:综述
专知会员服务
36+阅读 · 2025年9月30日
LLMs与生成式智能体模拟:复杂系统研究的新范式
专知会员服务
27+阅读 · 2025年6月15日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
面向多智能体博弈对抗的对手建模框架
专知会员服务
162+阅读 · 2022年9月28日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
【泡泡图灵智库】密集相关的自监督视觉描述学习(RAL)
泡泡机器人SLAM
11+阅读 · 2018年10月6日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员