This position paper argues that LLM-based social simulations require clear boundaries to make meaningful contributions to social science. While Large Language Models (LLMs) offer promising capabilities for simulating human behavior, their tendency to produce homogeneous outputs, acting as an "average persona", fundamentally limits their ability to capture the behavioral diversity essential for complex social dynamics. We examine why heterogeneity matters for social simulations and how current LLMs fall short, analyzing the relationship between mean alignment and variance in LLM-generated behaviors. Through a systematic review of representative studies, we find that validation practices often fail to match the heterogeneity requirements of research questions: while most papers include ground truth comparisons, fewer than half explicitly assess behavioral variance, and most that do report lower variance than human populations. We propose that researchers should: (1) match validation depth to the heterogeneity demands of their research questions, (2) explicitly report variance alongside mean alignment, and (3) constrain claims to collective-level qualitative patterns when variance is insufficient. Rather than dismissing LLM-based simulation, we advocate for a boundary-aware approach that ensures these methods contribute genuine insights to social science.


翻译:本立场论文主张,基于大型语言模型(LLM)的社会模拟需要设定清晰边界,才能为社会科学做出有意义的贡献。尽管大型语言模型(LLM)在模拟人类行为方面展现出潜力,但其倾向于生成同质化输出、扮演“平均人格”的特性,从根本上限制了其捕捉复杂社会动态所必需的行为多样性的能力。我们探讨了异质性对社会模拟的重要性,分析了当前LLM的不足,并研究了LLM生成行为中均值对齐与方差之间的关系。通过对代表性研究的系统梳理,我们发现验证实践往往与研究问题的异质性要求不匹配:虽然大多数论文包含与真实数据的比较,但仅有不到半数明确评估行为方差,且其中大多数报告出的方差低于人类群体水平。我们建议研究者应当:(1)使验证深度与研究问题的异质性需求相匹配,(2)在报告均值对齐时明确报告方差数据,(3)当方差不足时,将结论限定在集体层面的定性模式上。我们并非否定基于LLM的模拟方法,而是倡导一种具有边界意识的研究路径,以确保这些方法能为社会科学贡献真正的洞见。

0
下载
关闭预览

相关内容

大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
投大模型岗?50道大型语言模型(LLM)面试问题汇总
专知会员服务
24+阅读 · 2025年6月7日
《以人为中心的大型语言模型(LLM)研究综述》
专知会员服务
41+阅读 · 2024年11月25日
《LLM 时代小模型的作用》综述
专知会员服务
49+阅读 · 2024年9月12日
大型语言模型(LLMs),附Slides与视频
专知会员服务
70+阅读 · 2024年6月30日
大型语言模型公平性
专知会员服务
41+阅读 · 2023年8月31日
【边缘计算】边缘计算面临的问题
产业智能官
17+阅读 · 2019年5月31日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月26日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员