Red-teaming, where adversarial prompts are crafted to expose harmful behaviors and assess risks, offers a dynamic approach to surfacing underlying stereotypical bias in large language models. Because such subtle harms are best recognized by those with lived experience, involving targets of stereotyping as red-teamers is essential. However, critical challenges remain in leveraging their lived experience for red-teaming while safeguarding psychological well-being. We conducted an empirical study of participatory red-teaming with 20 individuals stigmatized by stereotypes against nonprestigious college graduates in South Korea. Through mixed methods analysis, we found participants transformed experienced discrimination into strategic expertise for identifying biases, while facing psychological costs such as stress and negative reflections on group identity. Notably, red-team participation enhanced their sense of agency and empowerment through their role as guardians of the AI ecosystem. We discuss implications for designing participatory red-teaming that prioritizes both the ethical treatment and empowerment of stigmatized groups.


翻译:红队测试通过构建对抗性提示来暴露有害行为并评估风险,为揭示大型语言模型中潜在的刻板偏见提供了动态方法。由于此类隐性危害最易被具有切身经历者识别,让刻板印象的目标群体作为红队测试者至关重要。然而,在利用其生活经验进行红队测试的同时保障心理健康仍存在关键挑战。我们针对韩国20名因非名牌大学毕业生刻板印象而遭受污名化的个体开展了参与式红队测试实证研究。通过混合方法分析发现:参与者将亲身经历的歧视转化为识别偏见的策略性专长,但同时面临压力与群体身份负面反思等心理代价。值得注意的是,红队测试参与通过扮演AI生态系统守护者的角色,增强了参与者的能动性与赋权感。本文探讨了设计参与式红队测试的启示,强调应同时重视对被污名化群体的伦理对待与能力赋能。

0
下载
关闭预览

相关内容

《大语言模型驱动的智能红队测试》
专知会员服务
17+阅读 · 2025年11月26日
大型语言模型中隐性与显性偏见的综合研究
专知会员服务
17+阅读 · 2025年11月25日
《人工智能红队测试的再审视》
专知会员服务
15+阅读 · 2025年9月2日
《人工智能红队中的人为因素:社会与协作计算的视角》
《评估生成式人工智能的红队方法》最新37页长综述
专知会员服务
56+阅读 · 2024年5月27日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
编辑推荐 | 红外弱小目标检测算法综述
中国图象图形学报
21+阅读 · 2020年10月12日
干货 | 视频显著性目标检测(文末附有完整源码)
计算机视觉战队
14+阅读 · 2019年4月29日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
原创 | Attention Modeling for Targeted Sentiment
黑龙江大学自然语言处理实验室
25+阅读 · 2017年11月5日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
美国与以色列如何在攻击伊朗中使用人工智能
专知会员服务
2+阅读 · 今天16:20
《自动化战略情报管控》
专知会员服务
2+阅读 · 今天14:31
得失评估:审视对伊朗战争的轨迹(简报)
专知会员服务
2+阅读 · 今天14:19
【CMU博士论文】迈向可解释机器学习的理论基础
专知会员服务
2+阅读 · 今天12:23
基于数据优化的人机协同与机器人僚机
专知会员服务
6+阅读 · 今天2:08
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员