Large language model (LLM) agents increasingly take actions (screening applicants, recommending credit, triaging patients), yet fairness for LLMs is still measured by grading answers. We introduce AgentFairBench, a cheap, reproducible, multi-domain benchmark for demographic disparity in the actions of LLM agents. Grounded in a companion framework, the Bias Conduction Framework (BCF, restated here), it spans three regulator-anchored domains: hiring, lending, and medical triage. Synthetic, demographic-neutral profiles are evaluated in counterfactual matched sets that vary only a name-coded race x gender signal (in the Bertrand Mullainathan tradition), under four agent scaffolds of increasing agency (direct, chain-of-thought, multi-agent deliberation, tool-augmented). A NumPy-only harness computes counterfactual flip rate, mean absolute score difference (MASD), action-rate disparity, and tool-invocation disparity, with bootstrap confidence intervals, paired tests, and false-discovery-rate control, for single-digit dollars per model. A live leaderboard with a held-out private split and a contamination canary admits external models by submission. Our pilot (864 decisions plus a test-retest replication) carries a methodological lesson: comparing a six-group score spread against a two-run noise difference overstates disparity by ~ 2.4X through statistic arity alone. Against an arity matched noise floor and an omnibus group test, claude haiku 4 5 shows no demographic effect above sampling noise (0 of 120 pairwise and 0 of 9 omnibus contrasts survive correction); a planted-bias test confirms the instrument detects disparity when present. The contribution is a sound, sensitive, adoption-ready instrument, the arity matched null methodology, and open artifacts to scale it. Code, data, and harness are released under open licenses, with an anonymized review artifact.


翻译:大型语言模型(LLM)Agent越来越多地承担实际行动(如筛选申请者、推荐信贷额度、分诊患者),然而目前对LLM公平性的评估仍停留在对回答评分的层面。我们提出AgentFairBench,这是一个低成本、可复现、多领域的基准测试,用于衡量LLM Agent在实际行动中的人口统计差异。该基准测试基于配套框架——偏差传导框架(Bias Conduction Framework,简称BCF,本文中重述),涵盖三个受监管领域:招聘、信贷和医疗分诊。研究采用合成且人口统计中性的档案,在仅改变姓名编码的种族与性别信号(继承Bertrand-Mullainathan研究范式)的反事实匹配组中进行评估,测试四种代理增强程度递增的Agent架构(直接回答、思维链、多Agent协商、工具增强)的表现。基于NumPy的测试框架可计算反事实翻转率、平均绝对分数差(MASD)、行动率差异和工具调用差异,并配有自助法置信区间、配对检验和错误发现率控制,每次模型测试成本仅需数美元。我们提供实时排行榜,包含保留的私有数据划分和污染检测机制,支持外部模型通过提交方式参与。初步试验(864次决策及重复测试验证)揭示一个方法论启示:将六组分数分散度与两次运行的噪声差异直接比较,会因统计元数差异将偏差高估约2.4倍。在与元数匹配的噪声基准和全面组别检验下,Claude Haiku 4.5未显示超出采样噪声的人口统计效应(120组成对检验中无显著结果,9组全面对比中无显著结果);植入偏差测试证实该工具能在存在差异时有效检测。核心贡献包括:可靠、灵敏且即用即得的评测工具、元数匹配的零假设方法论,以及可扩展的开源制品。我们以开放许可协议发布代码、数据和测试框架,并提供匿名评审制品。

0
下载
关闭预览

相关内容

智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
LLM/智能体作为数据分析师:综述
专知会员服务
38+阅读 · 2025年9月30日
投大模型岗?50道大型语言模型(LLM)面试问题汇总
专知会员服务
24+阅读 · 2025年6月7日
Al Agent--大模型时代重要落地方向
专知会员服务
107+阅读 · 2024年4月8日
AI Agent,大模型时代重要落地方向, 42页ppt
专知会员服务
291+阅读 · 2023年10月12日
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
深入理解BERT Transformer ,不仅仅是注意力机制
大数据文摘
22+阅读 · 2019年3月19日
关于OKR的反思:OKR是给员工挖坑用的,是变相的KPI?
人人都是产品经理
10+阅读 · 2019年3月5日
放弃 RNN/LSTM 吧,因为真的不好用!望周知~
人工智能头条
19+阅读 · 2018年4月24日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
原创 | Attention Modeling for Targeted Sentiment
黑龙江大学自然语言处理实验室
25+阅读 · 2017年11月5日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Arxiv
14+阅读 · 2023年8月7日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关资讯
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
深入理解BERT Transformer ,不仅仅是注意力机制
大数据文摘
22+阅读 · 2019年3月19日
关于OKR的反思:OKR是给员工挖坑用的,是变相的KPI?
人人都是产品经理
10+阅读 · 2019年3月5日
放弃 RNN/LSTM 吧,因为真的不好用!望周知~
人工智能头条
19+阅读 · 2018年4月24日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
原创 | Attention Modeling for Targeted Sentiment
黑龙江大学自然语言处理实验室
25+阅读 · 2017年11月5日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员