LLMs can appear cautious in risk decision-making tasks, yet cautious-looking outputs do not necessarily indicate alignment with human decision-making mechanisms. We investigate this distinction using the St. Petersburg game as a controlled testbed, a classical paradox in which the expected payoff is infinite, yet humans typically report low, finite willingness to pay. We evaluate 28 LLMs with a structured prompt suite that includes the original game; controlled decision variants that perturb truncation, repeated play, numeric endowment, and occupational identity; a human-perspective prompt that asks models to reason as human decision makers; and paired comparisons between base models and their instruction-tuned counterparts. In the original game, most models generate finite bids, creating the appearance of human-like risk behavior. However, this outcome-level resemblance masks substantial mechanism-level differences. The controlled variants reveal that rather than maintaining human-like behavior seen in the original game, models often shift to conditionally and computationally rational behavior. Human-cue prompting and instruction tuning often lower bids and reduce some visible pathologies, but most mechanism-level response patterns remain largely unchanged. These findings show that behavioral alignment in risk decision-making can be surface-level: LLMs may produce human-like risk decisions without exhibiting human-consistent mechanisms. High-stakes evaluations of LLM decision-making should therefore move beyond outcome similarity and examine whether the alignment is supported by mechanism-level consistency.


翻译:大语言模型在风险决策任务中可能表现出谨慎态度,但看似谨慎的输出并不必然表明其与人类决策机制一致。我们以圣彼得堡博弈为受控实验平台,这一经典悖论中预期收益无限,但人类通常报出较低且有限的支付意愿。我们评估了28个LLM,采用包含以下结构的提示套件:原始博弈;通过扰动截断参数、重复博弈次数、数字资产及职业身份形成的受控决策变体;要求模型以人类决策者身份进行推理的人类视角提示;以及基座模型与其指令微调版本的配对比较。在原始博弈中,大多数模型生成有限报价,呈现出类似人类风险行为的表象。然而,这种结果层面的相似性掩盖了深层的机制差异。受控变体显示,模型在原始博弈中未保持人类典型行为,而是转向条件性计算理性行为。人类线索提示与指令微调通常降低报价并减少部分显性异常,但大多数机制层面的响应模式仍基本保持不变。这些发现表明,风险决策中的行为对齐可能仅停留在表层:LLM能产生类人风险决策,却未展现与人类一致的决策机制。因此,对LLM决策的高风险评估应超越结果相似性,审视对齐是否具备机制层面的一致性支撑。

0
下载
关闭预览

相关内容

《多智能体大语言模型系统的可靠决策研究》
专知会员服务
41+阅读 · 2月2日
大语言模型与小语言模型协同机制综述
专知会员服务
40+阅读 · 2025年5月15日
博弈论与大语言模型的结合:系统性综述
专知会员服务
60+阅读 · 2025年2月14日
《军事危机模拟中语言模型自由决策不一致性度量》
专知会员服务
22+阅读 · 2024年10月29日
迈向大语言模型偏好学习的统一视角综述
专知会员服务
24+阅读 · 2024年9月7日
相关性≠因果:概率图模型和do-calculus
论智
31+阅读 · 2018年10月29日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
9+阅读 · 6月15日
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员