People are increasingly using technologies equipped with large language models (LLM) to write texts for formal communication, which raises two important questions at the intersection of technology and society: Who do LLMs write like (model alignment); and can LLMs be prompted to change who they write like (model steerability). We investigate these questions in the high-stakes context of undergraduate admissions at a selective university by comparing lexical and sentence variation between essays written by 30,000 applicants to two types of LLM-generated essays: one prompted with only the essay question used by the human applicants; and another with additional demographic information about each applicant. We consistently find that both types of LLM-generated essays are linguistically distinct from human-authored essays, regardless of the specific model and analytical approach. Further, prompting a specific sociodemographic identity is remarkably ineffective in aligning the model with the linguistic patterns observed in human writing from this identity group. This holds along the key dimensions of sex, race, first-generation status, and geographic location. The demographically prompted and unprompted synthetic texts were also more similar to each other than to the human text, meaning that prompting did not alleviate homogenization. These issues of model alignment and steerability in current LLMs raise concerns about the use of LLMs in high-stakes contexts.


翻译:随着越来越多的人使用搭载大型语言模型(LLM)的技术来撰写正式沟通文本,这引发了技术与社会交叉领域的两个重要问题:LLM的写作风格趋近于谁(模型对齐性);以及能否通过提示词引导LLM改变其拟似对象(模型可控性)。我们通过比较30,000名申请者撰写的文书与两类LLM生成文书(一类仅使用人类申请者所用的文书题目作为提示,另一类则额外添加每位申请者的人口统计信息)在词汇和句子层面的变异,在选拔性大学本科招生的高风险情境下对这些问题展开研究。我们一致发现,无论使用何种具体模型或分析方法,两类LLM生成文书在语言特征上都与人类撰写的文书存在显著差异。更重要的是,即使提示特定的社会人口身份信息,模型也极难与该身份群体在人类写作中观察到的语言模式实现对齐——这在性别、种族、第一代大学生身份和地理位置等关键维度上均成立。添加人口统计提示与未添加提示的合成文本之间的相似度,反而高于它们与人类文本的相似度,这意味着提示词并未缓解文本同质化问题。当前LLM在模型对齐性和可控性方面存在的这些缺陷,引发了对其在高风险情境中应用的担忧。

0
下载
关闭预览

相关内容

大规模语言模型的个性化:综述
专知会员服务
43+阅读 · 2024年11月4日
大型语言模型中的人格综述
专知会员服务
42+阅读 · 2024年6月30日
【UIUC博士论文】迈向可信的大型语言模型,312页pdf
专知会员服务
41+阅读 · 2024年6月8日
大型语言模型对齐
专知会员服务
119+阅读 · 2023年9月27日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员