Large Language Models (LLMs) behave non-deterministically, and prompting has become a common method for steering their outputs. A popular strategy is to assign a persona to the model to produce more varied, context-sensitive responses, similar to how responses vary across human individuals. Against the expectation that persona prompting yields a wide range of opinions, our experiments show that LLMs keep consistent value orientations. We observe a persistent inertia in their responses, where certain moral and value dimensions (especially harm avoidance and fairness) stay skewed in one direction across persona settings. To study this, we use role-play at scale, which pairs randomized persona prompts with a macro-level analysis of model outputs. Our results point to strong internal biases and value preferences in LLMs, which we call value orientation and inertia. These models warrant scrutiny and adjustment before use in applications where balanced outputs matter.


翻译:大语言模型(LLMs)的行为具有非确定性,提示已成为引导其输出的常用方法。一种常见策略是为模型分配角色,使其生成更具多样性、更贴合语境的回答,类似于不同个体间回答的差异性。与角色提示能产生广泛观点多样性的预期相反,我们的实验表明,LLMs始终保持着一致的价值取向。我们观察到其回答存在持久惯性——特定的道德与价值维度(尤其是伤害回避与公平性)在不同角色设定下始终偏向同一方向。为探究此现象,我们大规模运用角色扮演方法,将随机化角色提示与模型输出宏观分析相结合。研究结果表明,LLMs存在强烈的内在偏见与价值偏好,我们将其定义为价值取向与惯性。在需要输出平衡性的应用场景中投入使用前,这些模型需经过严格审查与调整。

0
下载
关闭预览

相关内容

大型语言模型系统中提示缺陷的分类学
专知会员服务
8+阅读 · 2025年9月19日
个性化大型语言模型综述:进展与未来方向
专知会员服务
43+阅读 · 2025年2月18日
《多模态大语言模型视觉提示》综述
专知会员服务
36+阅读 · 2024年9月25日
迈向大语言模型偏好学习的统一视角综述
专知会员服务
24+阅读 · 2024年9月7日
大型语言模型中的人格综述
专知会员服务
42+阅读 · 2024年6月30日
大规模语言模型的人类偏好学习综述
专知会员服务
42+阅读 · 2024年6月19日
《大型语言模型持续学习》综述
专知会员服务
93+阅读 · 2024年4月26日
大型语言模型的高效提示方法综述
专知会员服务
75+阅读 · 2024年4月2日
天大最新《大型语言模型评估》全面综述,111页pdf
专知会员服务
88+阅读 · 2023年10月31日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
18+阅读 · 2023年9月2日
Arxiv
21+阅读 · 2023年7月12日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
2+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
2+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
相关VIP内容
大型语言模型系统中提示缺陷的分类学
专知会员服务
8+阅读 · 2025年9月19日
个性化大型语言模型综述:进展与未来方向
专知会员服务
43+阅读 · 2025年2月18日
《多模态大语言模型视觉提示》综述
专知会员服务
36+阅读 · 2024年9月25日
迈向大语言模型偏好学习的统一视角综述
专知会员服务
24+阅读 · 2024年9月7日
大型语言模型中的人格综述
专知会员服务
42+阅读 · 2024年6月30日
大规模语言模型的人类偏好学习综述
专知会员服务
42+阅读 · 2024年6月19日
《大型语言模型持续学习》综述
专知会员服务
93+阅读 · 2024年4月26日
大型语言模型的高效提示方法综述
专知会员服务
75+阅读 · 2024年4月2日
天大最新《大型语言模型评估》全面综述,111页pdf
专知会员服务
88+阅读 · 2023年10月31日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员