Anticipating LLM behavioral tendencies from low-cost psychometric probes is critical for safe deployment, but only if self-reports (SR) reliably predict behavior. Recent work documented substantial SR-behavior dissociation in LLMs, but relied on broad personality traits (Big 5) that predict specific behaviors weakly, even in humans. Furthermore, the isolation of conversational sessions combined with weak context matching left open whether LLMs truly lack coherence or whether the conditions needed to detect such coherence were not met. We contrast Big 5 with the Theory of Planned Behavior (TPB), which measures intention targeted to a specific behavior and predicts human behavior substantially better than broad traits. We run experiments across four behavioral tasks and 11 frontier LLMs, while also varying session context and identity induction. We find that SR-behavior coherence exists but is selective. 1) Within a shared conversation, the Theory of Planned Behavior reaches human-level coherence; Big 5 does not. 2) Across separate conversations, coherence survives only for behaviors anchored outside the immediate prompt, such as implicit bias shaped by training, and collapses when behavior is strongly primed by context, as with sycophancy. 3) Persona prompting makes self-reports more consistent across conversations, but does not bring behavior into alignment. These findings suggest that coarse personality frameworks, such as Big 5 may not be the best tools for testing deployment behavior. More task- and behavior-specific instruments are needed, and even these must be evaluated across tasks and contexts.


翻译:从低成本的心理学探测中预测大语言模型的行为倾向对安全部署至关重要,但这仅当自我报告能可靠预测行为时才成立。近期研究记录了LLM中显著的自我报告与行为分离现象,但其所依赖的广谱人格特质(大五人格)即便在人类中也只能微弱预测具体行为。此外,对话会话的隔离性与弱情境匹配使得以下问题悬而未决:究竟是LLM真正缺乏一致性,还是检测这种一致性的条件未被满足?我们将大五人格与计划行为理论进行对比,该理论针对特定行为测量意图,且对人类行为的预测效果远优于广谱特质。我们在四个行为任务和11个前沿LLM上开展实验,同时改变会话情境与身份诱导。研究发现,自我报告与行为一致性存在但具有选择性:1)在同一对话中,计划行为理论可达到人类水平的一致性,而大五人格无法实现;2)在跨对话情境下,仅当行为锚定于即时提示之外(如训练塑造的内隐偏见)时,一致性得以维持;而当行为被情境强烈启动(如同调现象)时,一致性瓦解;3)角色提示虽能使跨对话的自我报告更一致,却未能使行为与之对齐。这些发现表明,大五人格等粗粒度人格框架可能并非测试部署行为的最佳工具。需要开发更针对任务和行为的测量工具,且即便使用此类工具,仍需跨任务和情境进行评估。

0
下载
关闭预览

相关内容

《以人为中心的大型语言模型(LLM)研究综述》
专知会员服务
41+阅读 · 2024年11月25日
重新思考不确定性:大语言模型时代的关键综述与分析
专知会员服务
39+阅读 · 2024年11月20日
大型语言模型中的人格综述
专知会员服务
42+阅读 · 2024年6月30日
大型语言模型在预测和异常检测中的应用综述
专知会员服务
70+阅读 · 2024年2月19日
天大最新《大型语言模型评估》全面综述,111页pdf
专知会员服务
88+阅读 · 2023年10月31日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
独家 | 为什么要利用NLP做情感分析?
数盟
13+阅读 · 2017年12月20日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员