For socially sensitive tasks like hate speech detection, the quality of explanations from Large Language Models (LLMs) is crucial for factors like user trust and model alignment. While Persona prompting (PP) is increasingly used as a way to steer model towards user-specific generation, its effect on model rationales remains underexplored. We investigate how LLM-generated rationales vary when conditioned on different simulated demographic personas. Using datasets annotated with word-level rationales, we measure agreement with human annotations from different demographic groups, and assess the impact of PP on model bias and human alignment. Our evaluation across three LLMs results reveals three key findings: (1) PP improving classification on the most subjective task (hate speech) but degrading rationale quality. (2) Simulated personas fail to align with their real-world demographic counterparts, and high inter-persona agreement shows models are resistant to significant steering. (3) Models exhibit consistent demographic biases and a strong tendency to over-flag content as harmful, regardless of PP. Our findings reveal a critical trade-off: while PP can improve classification in socially-sensitive tasks, it often comes at the cost of rationale quality and fails to mitigate underlying biases, urging caution in its application.


翻译:在仇恨言论检测等社会敏感性任务中,大语言模型(LLMs)生成解释的质量对于用户信任和模型对齐等因素至关重要。尽管人物角色提示(PP)作为一种引导模型进行用户定制生成的方法日益普及,但其对模型推理过程的影响仍未得到充分探究。本研究探讨了当大语言模型基于不同模拟人口统计角色生成解释时,其推理依据如何变化。通过使用带有词级标注依据的数据集,我们测量了模型解释与不同人口统计群体人工标注之间的一致性,并评估了PP对模型偏见和人类对齐的影响。我们在三种大语言模型上的评估结果揭示了三个关键发现:(1)PP在最具主观性的任务(仇恨言论检测)上改善了分类性能,但降低了推理依据的质量。(2)模拟角色未能与其真实世界的人口统计对应群体对齐,且高跨角色一致性表明模型对显著引导具有抵抗性。(3)无论是否使用PP,模型都表现出持续的人口统计偏见和过度标记内容为有害的强烈倾向。我们的研究揭示了一个关键权衡:虽然PP能提升社会敏感性任务的分类性能,但这往往以牺牲推理质量为代价,且无法缓解深层偏见,这警示我们需要谨慎应用该方法。

0
下载
关闭预览

相关内容

大型语言模型中隐性与显性偏见的综合研究
专知会员服务
16+阅读 · 2025年11月25日
高效大语言模型推理服务综述
专知会员服务
18+阅读 · 2025年4月30日
《大型语言模型情感认知》最新进展
专知会员服务
43+阅读 · 2024年10月3日
《多模态大语言模型视觉提示》综述
专知会员服务
36+阅读 · 2024年9月25日
大语言模型中的提示隐私保护
专知会员服务
24+阅读 · 2024年7月24日
大型语言模型中的人格综述
专知会员服务
42+阅读 · 2024年6月30日
大型语言模型高效推理综述
专知会员服务
64+阅读 · 2024年4月23日
大型语言模型的高效提示方法综述
专知会员服务
75+阅读 · 2024年4月2日
如何提示?浙大最新《大型语言模型提示框架》综述
专知会员服务
83+阅读 · 2023年11月23日
什么是语义角色标注?
人工智能头条
18+阅读 · 2019年4月28日
深入理解BERT Transformer ,不仅仅是注意力机制
大数据文摘
22+阅读 · 2019年3月19日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
大型语言模型中隐性与显性偏见的综合研究
专知会员服务
16+阅读 · 2025年11月25日
高效大语言模型推理服务综述
专知会员服务
18+阅读 · 2025年4月30日
《大型语言模型情感认知》最新进展
专知会员服务
43+阅读 · 2024年10月3日
《多模态大语言模型视觉提示》综述
专知会员服务
36+阅读 · 2024年9月25日
大语言模型中的提示隐私保护
专知会员服务
24+阅读 · 2024年7月24日
大型语言模型中的人格综述
专知会员服务
42+阅读 · 2024年6月30日
大型语言模型高效推理综述
专知会员服务
64+阅读 · 2024年4月23日
大型语言模型的高效提示方法综述
专知会员服务
75+阅读 · 2024年4月2日
如何提示?浙大最新《大型语言模型提示框架》综述
专知会员服务
83+阅读 · 2023年11月23日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员