Decoding Safety Feedback from Diverse Raters: A Data-driven Lens on Responsiveness to Severity - 专知论文

会员服务 ·

0

分析 · 数据驱动 · 解码 · 对齐 · 统计学 ·

Decoding Safety Feedback from Diverse Raters: A Data-driven Lens on Responsiveness to Severity

翻译：解码多元评分者的安全反馈：基于数据驱动的严重性响应分析视角

Pushkar Mishra,Charvi Rastogi,Stephen R. Pfohl,Alicia Parrish,Tian Huey Teh,Roma Patel,Mark Diaz,Ding Wang,Michela Paganini,Vinodkumar Prabhakaran,Lora Aroyo,Verena Rieser

Ensuring the safety of Generative AI requires a nuanced understanding of pluralistic viewpoints. In this paper, we introduce a novel data-driven approach for analyzing ordinal safety ratings in pluralistic settings. Specifically, we address the challenge of interpreting nuanced differences in safety feedback from a diverse population expressed via ordinal scales (e.g., a Likert scale). We define non-parametric responsiveness metrics that quantify how raters convey broader distinctions and granular variations in the severity of safety violations. Leveraging publicly available datasets of pluralistic safety feedback as our case studies, we investigate how raters from different demographic groups use an ordinal scale to express their perceptions of the severity of violations. We apply our metrics across violation types, demonstrating their utility in extracting nuanced insights that are crucial for aligning AI systems reliably in multi-cultural contexts. We show that our approach can inform rater selection and feedback interpretation by capturing nuanced viewpoints across different demographic groups, hence improving the quality of pluralistic data collection and in turn contributing to more robust AI alignment.

翻译：确保生成式人工智能的安全性需要深入理解多元化的观点。本文提出了一种新颖的数据驱动方法，用于分析多元环境中的序数安全评分。具体而言，我们解决了如何解读来自不同人群通过序数量表（如李克特量表）表达的安全反馈中细微差异的挑战。我们定义了非参数响应度指标，用于量化评分者在传达安全违规严重性时如何体现更广泛的区分度和粒度变化。利用公开可用的多元安全反馈数据集作为案例研究，我们探究了来自不同人口统计学群体的评分者如何使用序数量表表达其对违规严重性的感知。我们将所提出的指标应用于多种违规类型，证明了其在提取细微洞察方面的实用性，这对于在多文化背景下可靠地对齐人工智能系统至关重要。研究表明，我们的方法能够通过捕捉不同人口统计学群体的细致观点，为评分者选择和反馈解读提供依据，从而提升多元数据收集的质量，并最终促进更稳健的人工智能对齐。

0

相关内容

《数据创新：桥接传统方法与大型语言模型以应对罕见高影响事件》最新报告

《数据创新：桥接传统方法与大型语言模型以应对罕见高影响事件》最新报告

专知会员服务

17+阅读 · 2月25日

【博士论文】数据驱动决策：通过数据集成与预测性决策支持优化重症监护

【博士论文】数据驱动决策：通过数据集成与预测性决策支持优化重症监护

专知会员服务

20+阅读 · 2月10日

《人工智能增强监视分析：利用跨网络、陆地、空中及海上领域的威胁向量实时建模》

《人工智能增强监视分析：利用跨网络、陆地、空中及海上领域的威胁向量实时建模》

专知会员服务

28+阅读 · 2025年12月11日

【CMU博士论文】重新思考面向风险感知的社会型具身智能的安全保障体系

【CMU博士论文】重新思考面向风险感知的社会型具身智能的安全保障体系

专知会员服务

15+阅读 · 2025年5月9日

大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

专知会员服务

29+阅读 · 2024年9月22日

《人类-人工智能安全：生成式人工智能和控制系统安全的后继者》

《人类-人工智能安全：生成式人工智能和控制系统安全的后继者》

专知会员服务

43+阅读 · 2024年5月27日

《数字安全产业大数据白皮书》发布，53页pdf解析安全产业变化

《数字安全产业大数据白皮书》发布，53页pdf解析安全产业变化

专知会员服务

50+阅读 · 2022年6月7日

《数据安全风险分析及应对策略研究（2022年）》

《数据安全风险分析及应对策略研究（2022年）》

专知会员服务

44+阅读 · 2022年2月5日

安全多方计算及其在机器学习中的应用

专知会员服务

38+阅读 · 2021年10月19日

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

专知会员服务

31+阅读 · 2020年1月11日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

32+阅读 · 2022年10月17日

数据受限条件下的多模态处理技术综述

数据受限条件下的多模态处理技术综述

专知

22+阅读 · 2022年7月16日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

推荐策略产品经理：剖析协同过滤（千人千面推荐的核心）

推荐策略产品经理：剖析协同过滤（千人千面推荐的核心）

PMCAFF

10+阅读 · 2019年3月14日

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

大数据文摘

19+阅读 · 2018年4月29日

AAAI 2018 行为识别论文概览

AAAI 2018 行为识别论文概览

极市平台

18+阅读 · 2018年3月20日

网络安全态势感知浅析

网络安全态势感知浅析

计算机与网络安全

18+阅读 · 2017年10月13日

基于信号理论和众包的社交媒体平台安全性和可信度群体评估方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

流程监控与评估中多元数据整合研究

国家自然科学基金

1+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

面向生物威胁快速反应的大数据分析关键技术

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

ForesightSafety Bench: A Frontier Risk Evaluation and Governance Framework towards Safe AI

Arxiv

0+阅读 · 2月15日

Unsafer in Many Turns: Benchmarking and Defending Multi-Turn Safety Risks in Tool-Using Agents

Arxiv

0+阅读 · 2月13日

WaymoQA: A Multi-View Visual Question Answering Dataset for Safety-Critical Reasoning in Autonomous Driving

Arxiv

0+阅读 · 2月11日

Reducing Aleatoric and Epistemic Uncertainty through Multi-modal Data Acquisition

Arxiv

0+阅读 · 2月9日

Do Large Language Models Reflect Demographic Pluralism in Safety?

Arxiv

0+阅读 · 2月7日

SafeDialBench: A Fine-Grained Safety Evaluation Benchmark for Large Language Models in Multi-Turn Dialogues with Diverse Jailbreak Attacks

Arxiv

0+阅读 · 2月7日

VEXA: Evidence-Grounded and Persona-Adaptive Explanations for Scam Risk Sensemaking

Arxiv

0+阅读 · 2月4日

Diverse, not Short: A Length-Controlled Data Selection Strategy for Improving Response Diversity of Language Models

Arxiv

0+阅读 · 1月30日

InspecSafe-V1: A Multimodal Benchmark for Safety Assessment in Industrial Inspection Scenarios

Arxiv

0+阅读 · 1月29日

Trust Me on This: A User Study of Trustworthiness for RAG Responses

Arxiv

0+阅读 · 1月20日

VIP会员

文章信息

相关主题

最新内容

2026“人工智能+”行业发展蓝皮书（附下载）

2026“人工智能+”行业发展蓝皮书（附下载）

专知会员服务

9+阅读 · 4月26日

《强化学习数学基础》

《强化学习数学基础》

专知会员服务

5+阅读 · 4月26日

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

专知会员服务

7+阅读 · 4月26日

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

专知会员服务

5+阅读 · 4月26日

深入Maven智能系统：Palantir基于Claude打造的军事大脑

深入Maven智能系统：Palantir基于Claude打造的军事大脑

专知会员服务

12+阅读 · 4月26日

“Maven计划”的发展演变之“Maven智能系统”应用

“Maven计划”的发展演变之“Maven智能系统”应用

专知会员服务

10+阅读 · 4月26日

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

专知会员服务

7+阅读 · 4月26日

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

专知会员服务

7+阅读 · 4月26日

加拿大国防部发布项目需求：用于高级态势决策的多模态人工智能

加拿大国防部发布项目需求：用于高级态势决策的多模态人工智能

专知会员服务

6+阅读 · 4月26日

《无人机革命：来自俄乌战场的启示》（报告）

《无人机革命：来自俄乌战场的启示》（报告）

专知会员服务

9+阅读 · 4月26日

《实现联合作战能力所需的技术》58页报告

《实现联合作战能力所需的技术》58页报告

专知会员服务

7+阅读 · 4月26日

《算法化目标定位：人工智能在以色列加沙打击行动中的作用及其伦理影响》（中文版）

《算法化目标定位：人工智能在以色列加沙打击行动中的作用及其伦理影响》（中文版）

专知会员服务

8+阅读 · 4月26日

以色列运用人工智能优化空袭警报系统

以色列运用人工智能优化空袭警报系统

专知会员服务

5+阅读 · 4月26日

以色列在多条战线部署AI智能体

以色列在多条战线部署AI智能体

专知会员服务

7+阅读 · 4月26日

《将形式化方法工具应用于电子战代码库（经验报告）》

《将形式化方法工具应用于电子战代码库（经验报告）》

专知会员服务

7+阅读 · 4月26日

相关VIP内容

《数据创新：桥接传统方法与大型语言模型以应对罕见高影响事件》最新报告

《数据创新：桥接传统方法与大型语言模型以应对罕见高影响事件》最新报告

专知会员服务

17+阅读 · 2月25日

【博士论文】数据驱动决策：通过数据集成与预测性决策支持优化重症监护

【博士论文】数据驱动决策：通过数据集成与预测性决策支持优化重症监护

专知会员服务

20+阅读 · 2月10日

《人工智能增强监视分析：利用跨网络、陆地、空中及海上领域的威胁向量实时建模》

《人工智能增强监视分析：利用跨网络、陆地、空中及海上领域的威胁向量实时建模》

专知会员服务

28+阅读 · 2025年12月11日

【CMU博士论文】重新思考面向风险感知的社会型具身智能的安全保障体系

【CMU博士论文】重新思考面向风险感知的社会型具身智能的安全保障体系

专知会员服务

15+阅读 · 2025年5月9日

大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

专知会员服务

29+阅读 · 2024年9月22日

《人类-人工智能安全：生成式人工智能和控制系统安全的后继者》

《人类-人工智能安全：生成式人工智能和控制系统安全的后继者》

专知会员服务

43+阅读 · 2024年5月27日

《数字安全产业大数据白皮书》发布，53页pdf解析安全产业变化

《数字安全产业大数据白皮书》发布，53页pdf解析安全产业变化

专知会员服务

50+阅读 · 2022年6月7日

《数据安全风险分析及应对策略研究（2022年）》

《数据安全风险分析及应对策略研究（2022年）》

专知会员服务

44+阅读 · 2022年2月5日

安全多方计算及其在机器学习中的应用

专知会员服务

38+阅读 · 2021年10月19日

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

专知会员服务

31+阅读 · 2020年1月11日

热门VIP内容

开通专知VIP会员享更多权益服务

《强化学习数学基础》

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

2026“人工智能+”行业发展蓝皮书（附下载）

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

相关资讯

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

32+阅读 · 2022年10月17日

数据受限条件下的多模态处理技术综述

数据受限条件下的多模态处理技术综述

专知

22+阅读 · 2022年7月16日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

推荐策略产品经理：剖析协同过滤（千人千面推荐的核心）

推荐策略产品经理：剖析协同过滤（千人千面推荐的核心）

PMCAFF

10+阅读 · 2019年3月14日

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

大数据文摘

19+阅读 · 2018年4月29日

AAAI 2018 行为识别论文概览

AAAI 2018 行为识别论文概览

极市平台

18+阅读 · 2018年3月20日

网络安全态势感知浅析

网络安全态势感知浅析

计算机与网络安全

18+阅读 · 2017年10月13日

相关论文

ForesightSafety Bench: A Frontier Risk Evaluation and Governance Framework towards Safe AI

Arxiv

0+阅读 · 2月15日

Unsafer in Many Turns: Benchmarking and Defending Multi-Turn Safety Risks in Tool-Using Agents

Arxiv

0+阅读 · 2月13日

WaymoQA: A Multi-View Visual Question Answering Dataset for Safety-Critical Reasoning in Autonomous Driving

Arxiv

0+阅读 · 2月11日

Reducing Aleatoric and Epistemic Uncertainty through Multi-modal Data Acquisition

Arxiv

0+阅读 · 2月9日

Do Large Language Models Reflect Demographic Pluralism in Safety?

Arxiv

0+阅读 · 2月7日

SafeDialBench: A Fine-Grained Safety Evaluation Benchmark for Large Language Models in Multi-Turn Dialogues with Diverse Jailbreak Attacks

Arxiv

0+阅读 · 2月7日

VEXA: Evidence-Grounded and Persona-Adaptive Explanations for Scam Risk Sensemaking

Arxiv

0+阅读 · 2月4日

Diverse, not Short: A Length-Controlled Data Selection Strategy for Improving Response Diversity of Language Models

Arxiv

0+阅读 · 1月30日

InspecSafe-V1: A Multimodal Benchmark for Safety Assessment in Industrial Inspection Scenarios

Arxiv

0+阅读 · 1月29日

Trust Me on This: A User Study of Trustworthiness for RAG Responses

Arxiv

0+阅读 · 1月20日

相关基金

基于信号理论和众包的社交媒体平台安全性和可信度群体评估方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

流程监控与评估中多元数据整合研究

国家自然科学基金

1+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

面向生物威胁快速反应的大数据分析关键技术

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员