Large language models (LLMs) increasingly operate in social contexts, motivating analysis of how they express and shift moral judgments. In this work, we investigate the moral response of LLMs to persona role-play, prompting a LLM to assume a specific character. Using the Moral Foundations Questionnaire (MFQ), we introduce a benchmark that quantifies two properties: moral susceptibility and moral robustness, defined from the variability of MFQ scores across and within personas, respectively. We find that, for moral robustness, model family accounts for most of the variance, while model size shows no systematic effect. The Claude family is, by a significant margin, the most robust, followed by Gemini and GPT-4 models, with other families exhibiting lower robustness. In contrast, moral susceptibility exhibits a mild family effect but a clear within-family size effect, with larger variants being more susceptible. Moreover, robustness and susceptibility are positively correlated, an association that is more pronounced at the family level. Additionally, we present moral foundation profiles for models without persona role-play and for personas averaged across models. Together, these analyses provide a systematic view of how persona conditioning shapes moral behavior in LLMs.


翻译:大语言模型(LLMs)日益广泛地应用于社会语境中,这促使我们对其道德判断的表达与变化机制进行分析。本研究探讨了LLMs在角色扮演情境下的道德响应,即通过提示使LLM扮演特定人物角色。基于道德基础问卷(MFQ),我们构建了一个量化两项特性的基准:道德易感性与道德鲁棒性,分别定义为不同角色间与同一角色内MFQ得分的变异程度。研究发现,在道德鲁棒性方面,模型系列是方差的主要来源,而模型规模未呈现系统性影响。Claude系列模型的鲁棒性显著最高,其次为Gemini和GPT-4系列,其他模型系列则表现出较低的鲁棒性。相比之下,道德易感性虽呈现较弱的系列效应,但在同一系列内存在明显的规模效应——更大规模的变体表现出更高的易感性。此外,鲁棒性与易感性呈正相关,这种关联在系列层面更为显著。本研究还提供了未经角色扮演的模型道德基础画像,以及跨模型平均的角色道德画像。这些分析共同揭示了角色设定如何系统性地塑造LLMs的道德行为模式。

0
下载
关闭预览

相关内容

大型语言模型中隐性与显性偏见的综合研究
专知会员服务
17+阅读 · 2025年11月25日
《以人为中心的大型语言模型(LLM)研究综述》
专知会员服务
41+阅读 · 2024年11月25日
《大型语言模型情感认知》最新进展
专知会员服务
43+阅读 · 2024年10月3日
大型语言模型(LLMs),附Slides与视频
专知会员服务
71+阅读 · 2024年6月30日
大型语言模型中的人格综述
专知会员服务
42+阅读 · 2024年6月30日
大规模语言模型的人类偏好学习综述
专知会员服务
42+阅读 · 2024年6月19日
GPT系列大模型在自然语言处理任务中的鲁棒性研究
专知会员服务
30+阅读 · 2024年3月22日
天大最新《大型语言模型评估》全面综述,111页pdf
专知会员服务
88+阅读 · 2023年10月31日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
《新兴技术武器化及其对全球风险的影响》
专知会员服务
4+阅读 · 今天4:27
《帕兰泰尔平台介绍:信息分析平台》
专知会员服务
13+阅读 · 今天4:20
智能体化世界建模:基础、能力、规律及展望
专知会员服务
8+阅读 · 4月28日
美海警海上态势感知无人系统
专知会员服务
6+阅读 · 4月28日
《复杂系统数据驱动预测建模的数值框架》报告
专知会员服务
12+阅读 · 4月28日
从“会话式人工智能”角度看“Maven智能系统”
专知会员服务
11+阅读 · 4月28日
相关VIP内容
大型语言模型中隐性与显性偏见的综合研究
专知会员服务
17+阅读 · 2025年11月25日
《以人为中心的大型语言模型(LLM)研究综述》
专知会员服务
41+阅读 · 2024年11月25日
《大型语言模型情感认知》最新进展
专知会员服务
43+阅读 · 2024年10月3日
大型语言模型(LLMs),附Slides与视频
专知会员服务
71+阅读 · 2024年6月30日
大型语言模型中的人格综述
专知会员服务
42+阅读 · 2024年6月30日
大规模语言模型的人类偏好学习综述
专知会员服务
42+阅读 · 2024年6月19日
GPT系列大模型在自然语言处理任务中的鲁棒性研究
专知会员服务
30+阅读 · 2024年3月22日
天大最新《大型语言模型评估》全面综述,111页pdf
专知会员服务
88+阅读 · 2023年10月31日
相关资讯
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员