As generative AI technologies find more and more real-world applications, the importance of testing their performance and safety seems paramount. "Red-teaming" has quickly become the primary approach to test AI models--prioritized by AI companies, and enshrined in AI policy and regulation. Members of red teams act as adversaries, probing AI systems to test their safety mechanisms and uncover vulnerabilities. Yet we know far too little about this work or its implications. This essay calls for collaboration between computer scientists and social scientists to study the sociotechnical systems surrounding AI technologies, including the work of red-teaming, to avoid repeating the mistakes of the recent past. We highlight the importance of understanding the values and assumptions behind red-teaming, the labor arrangements involved, and the psychological impacts on red-teamers, drawing insights from the lessons learned around the work of content moderation.


翻译:随着生成式人工智能技术在现实世界中的应用日益广泛,测试其性能与安全性显得至关重要。"红队测试"已迅速成为评估AI模型的主要方法——既受到AI公司的优先重视,也被纳入人工智能政策与法规体系。红队成员扮演对抗者角色,通过探测AI系统来检验其安全机制并发现潜在漏洞。然而,我们对此项工作及其影响知之甚少。本文呼吁计算机科学家与社会科学家开展合作,共同研究围绕人工智能技术的社会技术系统(包括红队测试工作),以避免重蹈近年来的覆辙。借鉴内容审核工作中获得的经验教训,我们着重强调理解红队测试背后的价值观与假设、所涉及的劳动组织形式以及对红队成员心理影响的重要性。

0
下载
关闭预览

相关内容

人工智能杂志AI(Artificial Intelligence)是目前公认的发表该领域最新研究成果的主要国际论坛。该期刊欢迎有关AI广泛方面的论文,这些论文构成了整个领域的进步,也欢迎介绍人工智能应用的论文,但重点应该放在新的和新颖的人工智能方法如何提高应用领域的性能,而不是介绍传统人工智能方法的另一个应用。关于应用的论文应该描述一个原则性的解决方案,强调其新颖性,并对正在开发的人工智能技术进行深入的评估。 官网地址:http://dblp.uni-trier.de/db/journals/ai/
《大语言模型驱动的智能红队测试》
专知会员服务
16+阅读 · 2025年11月26日
《人工智能红队测试的再审视》
专知会员服务
14+阅读 · 2025年9月2日
【新书】AI红队演练:智能系统的攻击与防御
专知会员服务
28+阅读 · 2025年7月6日
《人工智能红队中的人为因素:社会与协作计算的视角》
《评估生成式人工智能的红队方法》最新37页长综述
专知会员服务
56+阅读 · 2024年5月27日
利用人工智能测试军事认知系统
专知会员服务
88+阅读 · 2023年9月17日
【AI与警务】人工智能在打击组织性犯罪方面的挑战
专知会员服务
24+阅读 · 2022年6月28日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
45K!刚面完 AI 岗,这几点分享给你!
AI100
17+阅读 · 2018年12月18日
AI综述专栏 | 基于深度学习的目标检测算法综述
人工智能前沿讲习班
12+阅读 · 2018年12月7日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
50+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
50+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员