Large language models (LLMs) are increasingly used to simulate human behavior in experimental settings, but they systematically diverge from human decisions in complex decision-making environments, where participants must anticipate others' actions and form beliefs based on observed behavior. We propose a two-stage framework for improving behavioral alignment. The first stage, context formation, explicitly specifies the experimental design to establish an accurate representation of the decision task and its context. The second stage, context navigation, guides the reasoning process within that representation to make decisions. We validate this framework through a focal replication of a sequential purchasing game with quality signaling (Kremer and Debo, 2016), extending to a crowdfunding game with costly signaling (Cason et al., 2025) and a demand-estimation task (Gui and Toubia, 2025) to test generalizability across decision environments. Across four state-of-the-art (SOTA) models (GPT-4o, GPT-5, Claude-4.0-Sonnet-Thinking, DeepSeek-R1), we find that complex decision-making environments require both stages to achieve behavioral alignment with human benchmarks, whereas the simpler demand-estimation task requires only context formation. Our findings clarify when each stage is necessary and provide a systematic approach for designing and diagnosing LLM social simulations as complements to human subjects in behavioral research.


翻译:大型语言模型(LLM)在实验环境中被越来越多地用于模拟人类行为,但在复杂的决策环境中(参与者需要预测他人行为并根据观察到的行为形成信念),它们会系统性地偏离人类决策。我们提出了一个两阶段框架以改善行为对齐。第一阶段——上下文构建——通过明确指定实验设计来建立对决策任务及其背景的准确表征。第二阶段——上下文导航——在该表征内部引导推理过程以做出决策。我们通过对质量信号序贯购买博弈(Kremer and Debo, 2016)的重点复现来验证该框架,并将其扩展至包含成本信号机制的众筹博弈(Cason et al., 2025)和需求估计任务(Gui and Toubia, 2025),以测试其在不同决策环境中的泛化能力。在四种前沿模型(GPT-4o, GPT-5, Claude-4.0-Sonnet-Thinking, DeepSeek-R1)上的实验表明:复杂决策环境需要两个阶段共同作用才能实现与人类基准的行为对齐,而较简单的需求估计任务仅需上下文构建阶段。我们的研究结果明确了各阶段的适用条件,并为设计和诊断LLM社会模拟提供了系统化方法,使其能够作为行为研究中人类受试者的有效补充。

0
下载
关闭预览

相关内容

ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
VIP会员
相关资讯
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
相关基金
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员