Large Language Models (LLMs) are increasingly deployed in resume screening pipelines. Although explicit PII (e.g., names) is commonly redacted, resumes typically retain subtle sociocultural markers (languages, co-curricular activities, volunteering, hobbies) that can act as demographic proxies. We introduce a generalisable stress-test framework for hiring fairness, instantiated in the Singapore context: 100 neutral job-aligned resumes are augmented into 4100 variants spanning four ethnicities and two genders, differing only in job-irrelevant markers. We evaluate 18 LLMs in two realistic settings: (i) Direct Comparison (1v1) and (ii) Score & Shortlist (top-scoring rate), each with and without rationale prompting. Even without explicit identifiers, models recover demographic attributes with high F1 and exhibit systematic disparities, with models favouring markers associated with Chinese and Caucasian males. Ablations show language markers suffice for ethnicity inference, whereas gender relies on hobbies and activities. Furthermore, prompting for explanations tends to amplify bias. Our findings suggest that seemingly innocuous markers surviving anonymisation can materially skew automated hiring outcomes.


翻译:大语言模型(LLMs)正越来越多地被部署于简历筛选流程中。尽管显式的个人身份信息(例如姓名)通常会被隐去,但简历通常保留着微妙的社会文化标记(语言、课外活动、志愿服务、兴趣爱好),这些标记可以作为人口统计特征的代理变量。我们引入了一个可推广的招聘公平性压力测试框架,并在新加坡语境下进行了实例化:将100份中性的、与职位相符的简历,扩充为覆盖四种民族和两种性别的4100个变体,这些变体仅在无关工作的标记上存在差异。我们在两种现实场景下评估了18个大语言模型:(i)直接比较(1对1)和(ii)评分与筛选(最高分率),每种场景均在有和没有理由提示的情况下进行。即使没有显式标识符,模型也能以较高的F1值恢复人口统计属性,并表现出系统性差异,模型倾向于青睐与华裔和白人男性相关的标记。消融实验表明,语言标记足以推断民族,而性别推断则依赖于兴趣爱好和活动。此外,要求提供解释的提示往往会放大偏见。我们的研究结果表明,在匿名化后幸存下来的看似无害的标记,可能会实质性地扭曲自动化招聘的结果。

0
下载
关闭预览

相关内容

招聘是人力资源管理的一项职能,包括职位分析、职位发布、简历筛选、候选人面试、录用决策等。
大型语言模型中隐性与显性偏见的综合研究
专知会员服务
17+阅读 · 2025年11月25日
【CMU博士论文】大型语言模型的隐性特性
专知会员服务
15+阅读 · 2025年10月18日
投大模型岗?50道大型语言模型(LLM)面试问题汇总
专知会员服务
24+阅读 · 2025年6月7日
面向统计学家的大型语言模型概述
专知会员服务
32+阅读 · 2025年3月16日
《LLM 时代小模型的作用》综述
专知会员服务
49+阅读 · 2024年9月12日
【ICML2024】理解大型语言模型在规划中的作用,138页pdf
专知会员服务
49+阅读 · 2024年7月24日
大规模语言模型的人类偏好学习综述
专知会员服务
42+阅读 · 2024年6月19日
小样本学习(Few-shot Learning)综述
云栖社区
22+阅读 · 2019年4月6日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
DeepSeek 版Claude Code,免费小白安装教程来了!
专知会员服务
7+阅读 · 5月5日
《美空军条令出版物 2-0:情报(2026版)》
专知会员服务
12+阅读 · 5月5日
帕兰提尔 Gotham:一个游戏规则改变器
专知会员服务
6+阅读 · 5月5日
【综述】 机器人学习中的世界模型:全面综述
专知会员服务
11+阅读 · 5月4日
伊朗的导弹-无人机行动及其对美国威慑的影响
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员