Current AI safety frameworks, which often treat harmfulness as binary, lack the flexibility to handle borderline cases where humans meaningfully disagree. To build more pluralistic systems, it is essential to move beyond consensus and instead understand where and why disagreements arise. We introduce PluriHarms, a benchmark designed to systematically study human harm judgments across two key dimensions -- the harm axis (benign to harmful) and the agreement axis (agreement to disagreement). Our scalable framework generates prompts that capture diverse AI harms and human values while targeting cases with high disagreement rates, validated by human data. The benchmark includes 150 prompts with 15,000 ratings from 100 human annotators, enriched with demographic and psychological traits and prompt-level features of harmful actions, effects, and values. Our analyses show that prompts that relate to imminent risks and tangible harms amplify perceived harmfulness, while annotator traits (e.g., toxicity experience, education) and their interactions with prompt content explain systematic disagreement. We benchmark AI safety models and alignment methods on PluriHarms, finding that while personalization significantly improves prediction of human harm judgments, considerable room remains for future progress. By explicitly targeting value diversity and disagreement, our work provides a principled benchmark for moving beyond "one-size-fits-all" safety toward pluralistically safe AI.


翻译:当前的人工智能安全框架通常将危害性视为二元对立,缺乏处理人类存在显著分歧的边缘案例的灵活性。要构建更具多元性的系统,必须超越共识,转而理解分歧在何处以及为何产生。我们提出了PluriHarms,这是一个旨在系统研究人类危害判断的基准测试,涵盖两个关键维度——危害轴(从良性到有害)与共识轴(从一致到分歧)。我们可扩展的框架能够生成捕捉多样化人工智能危害与人类价值观的提示,同时针对具有高分歧率的案例,并通过人类数据进行验证。该基准包含150个提示,来自100位人类标注者的15,000个评分,并丰富了人口统计与心理特征以及提示层面的有害行为、影响与价值观特征。我们的分析表明,涉及紧迫风险与有形危害的提示会放大感知到的危害性,而标注者特征(如毒性经历、教育水平)及其与提示内容的交互则解释了系统性分歧。我们在PluriHarms上对人工智能安全模型与对齐方法进行了基准测试,发现虽然个性化显著提升了人类危害判断的预测能力,但未来仍有相当大的进步空间。通过明确关注价值多样性与分歧,我们的工作为超越“一刀切”的安全范式、迈向多元安全的人工智能提供了一个原则性的基准。

0
下载
关闭预览

相关内容

《人工智能对抗认知战的基本风险​​》最新报告30页
专知会员服务
25+阅读 · 2025年7月8日
《人工智能安全标准体系(V1.0)》(征求意见稿)
专知会员服务
29+阅读 · 2025年3月23日
可解释人工智能中的对抗攻击和防御
专知会员服务
43+阅读 · 2023年6月20日
《人工智能安全测评白皮书》,99页pdf
专知会员服务
378+阅读 · 2022年2月26日
《人工智能安全框架(2020年)》白皮书,68页pdf
专知会员服务
167+阅读 · 2021年1月9日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
人工智能对网络空间安全的影响
走向智能论坛
21+阅读 · 2018年6月7日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
非对称优势:美海军开发低成本反无人机技术
专知会员服务
4+阅读 · 今天4:39
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
5+阅读 · 今天2:48
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
8+阅读 · 今天2:43
【NTU博士论文】3D人体动作生成
专知会员服务
6+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
8+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
13+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
9+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
4+阅读 · 4月24日
相关基金
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员