A human's moral decision depends heavily on the context. Yet research on LLM morality has largely studied fixed scenarios. We address this gap by introducing Contextual MoralChoice, a dataset of moral dilemmas with systematic contextual variations known from moral psychology to shift human judgment: consequentialist, emotional, and relational. Evaluating 22 LLMs, we find that nearly all models are context-sensitive, shifting their judgments toward rule-violating behavior. Comparing with a human survey, we find that models and humans are most triggered by different contextual variations, and that a model aligned with human judgments in the base case is not necessarily aligned in its contextual sensitivity. This raises the question of controlling contextual sensitivity, which we address with an activation steering approach that can reliably increase or decrease a model's contextual sensitivity.


翻译:人类道德决策高度依赖于情境。然而,关于大语言模型道德性的研究大多局限于固定场景。我们通过引入“情境道德选择”数据集填补这一空白,该数据集包含系统性的情境变化——这些变化源自道德心理学中被确认能改变人类判断的后果主义、情感和关系因素。对22个大语言模型的评估表明,几乎所有模型都具有情境敏感性,其判断会向违反规则的行为偏移。通过与人类调查对比发现,模型与人类对不同情境变化的敏感触发点存在差异,且基例中与人类判断对齐的模型未必在情境敏感性上保持对齐。这引发了控制情境敏感性的问题,我们采用激活操控方法可可靠地增强或降低模型的情境敏感性。

0
下载
关闭预览

相关内容

《大型语言模型情感认知》最新进展
专知会员服务
43+阅读 · 2024年10月3日
大型语言模型中的人格综述
专知会员服务
42+阅读 · 2024年6月30日
大型语言模型:原理、实现与发展
专知会员服务
102+阅读 · 2023年11月28日
大模型道德价值观对齐问题剖析
专知会员服务
79+阅读 · 2023年10月3日
大型语言模型公平性
专知会员服务
41+阅读 · 2023年8月31日
相关性≠因果:概率图模型和do-calculus
论智
31+阅读 · 2018年10月29日
现代情感分析方法
算法与数学之美
14+阅读 · 2018年1月12日
情感分析的新方法,使用word2vec对微博文本进行情感分析和分类
数据挖掘入门与实战
22+阅读 · 2018年1月6日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月6日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 今天15:00
21世纪的无人机战争
专知会员服务
2+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
2+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关资讯
相关性≠因果:概率图模型和do-calculus
论智
31+阅读 · 2018年10月29日
现代情感分析方法
算法与数学之美
14+阅读 · 2018年1月12日
情感分析的新方法,使用word2vec对微博文本进行情感分析和分类
数据挖掘入门与实战
22+阅读 · 2018年1月6日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员