意图漂白：AI安全数据集名不副实 (Intent Laundering: AI Safety Datasets Are Not What They Seem) - 专知论文

会员服务 ·

0

攻击 · 数据集 · AI · 系统 · 属性 ·

Intent Laundering: AI Safety Datasets Are Not What They Seem

翻译：意图漂白：AI安全数据集名不副实

Shahriar Golchin,Marc Wetter

from arxiv, v1 preprint

We systematically evaluate the quality of widely used AI safety datasets from two perspectives: in isolation and in practice. In isolation, we examine how well these datasets reflect real-world attacks based on three key properties: driven by ulterior intent, well-crafted, and out-of-distribution. We find that these datasets overrely on "triggering cues": words or phrases with overt negative/sensitive connotations that are intended to trigger safety mechanisms explicitly, which is unrealistic compared to real-world attacks. In practice, we evaluate whether these datasets genuinely measure safety risks or merely provoke refusals through triggering cues. To explore this, we introduce "intent laundering": a procedure that abstracts away triggering cues from attacks (data points) while strictly preserving their malicious intent and all relevant details. Our results indicate that current AI safety datasets fail to faithfully represent real-world attacks due to their overreliance on triggering cues. In fact, once these cues are removed, all previously evaluated "reasonably safe" models become unsafe, including Gemini 3 Pro and Claude Sonnet 3.7. Moreover, when intent laundering is adapted as a jailbreaking technique, it consistently achieves high attack success rates, ranging from 90% to over 98%, under fully black-box access. Overall, our findings expose a significant disconnect between how model safety is evaluated and how real-world adversaries behave.

翻译：我们从孤立与实践两个维度，对广泛使用的AI安全数据集质量进行系统性评估。在孤立评估中，我们基于三个关键属性（受隐秘意图驱动、精心构建、分布外特性）检验这些数据集反映真实攻击的程度。研究发现，这些数据集过度依赖"触发线索"——即具有明显负面/敏感含义、旨在显式触发安全机制的词汇或短语，这与现实攻击模式存在显著差异。在实践评估中，我们检验这些数据集究竟是在真实衡量安全风险，还是仅通过触发线索引发拒绝响应。为此我们提出"意图漂白"方法：在严格保留恶意意图与所有相关细节的前提下，从攻击样本中抽象剥离触发线索。实验结果表明，当前AI安全数据集因过度依赖触发线索而无法真实反映现实攻击。实际上，当移除这些线索后，所有先前评估中"相对安全"的模型（包括Gemini 3 Pro和Claude Sonnet 3.7）均表现出安全隐患。此外，将意图漂白适配为越狱攻击技术时，在完全黑盒访问条件下持续实现90%至98%以上的高攻击成功率。总体而言，我们的研究揭示了模型安全评估方式与现实对抗行为之间存在严重脱节。

0

相关内容

《人工智能模型风险目录：开发者与研究者对现实世界AI危害的认知盲区》

《人工智能模型风险目录：开发者与研究者对现实世界AI危害的认知盲区》

专知会员服务

16+阅读 · 2025年8月28日

中文版 | 数据投毒：AI驱动战争中优势地位的隐蔽武器

中文版 | 数据投毒：AI驱动战争中优势地位的隐蔽武器

专知会员服务

23+阅读 · 2025年7月6日

【AI安全系列】从deepfakes深度伪造技术看AI安全，53页ppt

【AI安全系列】从deepfakes深度伪造技术看AI安全，53页ppt

专知会员服务

81+阅读 · 2023年6月27日

人工智能的安全性，公平性，可问责性，透明度，一致性，77页ppt

人工智能的安全性，公平性，可问责性，透明度，一致性，77页ppt

专知会员服务

51+阅读 · 2023年5月1日

《理解、评估和缓解人工智能系统中的安全风险》美海军67页论文

《理解、评估和缓解人工智能系统中的安全风险》美海军67页论文

专知会员服务

52+阅读 · 2023年3月25日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知会员服务

378+阅读 · 2022年2月26日

京东等学者发布《可信赖人工智能》综述论文，62页pdf449篇文献全面阐述可信赖AI的理论与方法

京东等学者发布《可信赖人工智能》综述论文，62页pdf449篇文献全面阐述可信赖AI的理论与方法

专知会员服务

107+阅读 · 2021年10月6日

首篇《后门学习综述》论文发布，阐述AI系统训练过程的安全性问题

专知会员服务

30+阅读 · 2020年11月21日

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

专知会员服务

31+阅读 · 2020年1月11日

《人工智能数据安全白皮书》（2019版）发布，51页PDF，中国信息通信研究院编

《人工智能数据安全白皮书》（2019版）发布，51页PDF，中国信息通信研究院编

专知会员服务

150+阅读 · 2019年11月8日

推荐！【系统工程顶点报告】《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

推荐！【系统工程顶点报告】《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

专知

19+阅读 · 2022年10月23日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

90+阅读 · 2022年4月17日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

机器学习数据集哪里找：优秀数据集来源盘点

机器学习数据集哪里找：优秀数据集来源盘点

云栖社区

12+阅读 · 2019年1月30日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知

137+阅读 · 2019年1月14日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

中国信通院：人工智能安全白皮书（2018年）（附解读及白皮书下载）

中国信通院：人工智能安全白皮书（2018年）（附解读及白皮书下载）

走向智能论坛

27+阅读 · 2018年9月18日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于负调查的云数据隐私保护关键问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于事件驱动的不完整信息耦合复杂网络群集动力学研究

国家自然科学基金

1+阅读 · 2015年12月31日

不确定知识图谱中面向结构查询的众包清洗研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向社交大数据的热点事件预测

国家自然科学基金

11+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

无线传感器网络中高效的虚假数据过滤方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

排序集抽样下随机删失数据的非参数估计

国家自然科学基金

1+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Protecting the Undeleted in Machine Unlearning

Arxiv

0+阅读 · 2月18日

ForesightSafety Bench: A Frontier Risk Evaluation and Governance Framework towards Safe AI

Arxiv

0+阅读 · 2月15日

RealHD: A High-Quality Dataset for Robust Detection of State-of-the-Art AI-Generated Images

Arxiv

0+阅读 · 2月11日

LLMs + Security = Trouble

Arxiv

0+阅读 · 2月9日

PluriHarms: Benchmarking the Full Spectrum of Human Judgments on AI Harm

Arxiv

0+阅读 · 2月3日

Phantom Transfer: Data-level Defences are Insufficient Against Data Poisoning

Arxiv

0+阅读 · 2月3日

Expected Harm: Rethinking Safety Evaluation of (Mis)Aligned LLMs

Arxiv

0+阅读 · 2月2日

Unseen but not Unknown: Using Dataset Concealment to Robustly Evaluate Speech Quality Estimation Models

Arxiv

0+阅读 · 1月28日

AI-in-the-Loop: Privacy Preserving Real-Time Scam Detection and Conversational Scambaiting by Leveraging LLMs and Federated Learning

Arxiv

0+阅读 · 1月20日

Show me the evidence: Evaluating the role of evidence and natural language explanations in AI-supported fact-checking

Arxiv

0+阅读 · 1月16日

VIP会员

文章信息

相关主题

相关VIP内容

《人工智能模型风险目录：开发者与研究者对现实世界AI危害的认知盲区》

《人工智能模型风险目录：开发者与研究者对现实世界AI危害的认知盲区》

专知会员服务

16+阅读 · 2025年8月28日

中文版 | 数据投毒：AI驱动战争中优势地位的隐蔽武器

中文版 | 数据投毒：AI驱动战争中优势地位的隐蔽武器

专知会员服务

23+阅读 · 2025年7月6日

【AI安全系列】从deepfakes深度伪造技术看AI安全，53页ppt

【AI安全系列】从deepfakes深度伪造技术看AI安全，53页ppt

专知会员服务

81+阅读 · 2023年6月27日

人工智能的安全性，公平性，可问责性，透明度，一致性，77页ppt

人工智能的安全性，公平性，可问责性，透明度，一致性，77页ppt

专知会员服务

51+阅读 · 2023年5月1日

《理解、评估和缓解人工智能系统中的安全风险》美海军67页论文

《理解、评估和缓解人工智能系统中的安全风险》美海军67页论文

专知会员服务

52+阅读 · 2023年3月25日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知会员服务

378+阅读 · 2022年2月26日

京东等学者发布《可信赖人工智能》综述论文，62页pdf449篇文献全面阐述可信赖AI的理论与方法

京东等学者发布《可信赖人工智能》综述论文，62页pdf449篇文献全面阐述可信赖AI的理论与方法

专知会员服务

107+阅读 · 2021年10月6日

首篇《后门学习综述》论文发布，阐述AI系统训练过程的安全性问题

专知会员服务

30+阅读 · 2020年11月21日

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

专知会员服务

31+阅读 · 2020年1月11日

《人工智能数据安全白皮书》（2019版）发布，51页PDF，中国信息通信研究院编

《人工智能数据安全白皮书》（2019版）发布，51页PDF，中国信息通信研究院编

专知会员服务

150+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

美国防部门开始扩建金穹反导系统基础设施

《基于选择性深度神经网络分类的弹性无线通信》最新报告

《多域作战中融合网络、电子战与动能机动》

《在东欧磨砺反无人机技能》美陆军最新反无人机训练报告

相关资讯

推荐！【系统工程顶点报告】《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

推荐！【系统工程顶点报告】《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

专知

19+阅读 · 2022年10月23日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

90+阅读 · 2022年4月17日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

机器学习数据集哪里找：优秀数据集来源盘点

机器学习数据集哪里找：优秀数据集来源盘点

云栖社区

12+阅读 · 2019年1月30日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知

137+阅读 · 2019年1月14日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

中国信通院：人工智能安全白皮书（2018年）（附解读及白皮书下载）

中国信通院：人工智能安全白皮书（2018年）（附解读及白皮书下载）

走向智能论坛

27+阅读 · 2018年9月18日

相关论文

Protecting the Undeleted in Machine Unlearning

Arxiv

0+阅读 · 2月18日

ForesightSafety Bench: A Frontier Risk Evaluation and Governance Framework towards Safe AI

Arxiv

0+阅读 · 2月15日

RealHD: A High-Quality Dataset for Robust Detection of State-of-the-Art AI-Generated Images

Arxiv

0+阅读 · 2月11日

LLMs + Security = Trouble

Arxiv

0+阅读 · 2月9日

PluriHarms: Benchmarking the Full Spectrum of Human Judgments on AI Harm

Arxiv

0+阅读 · 2月3日

Phantom Transfer: Data-level Defences are Insufficient Against Data Poisoning

Arxiv

0+阅读 · 2月3日

Expected Harm: Rethinking Safety Evaluation of (Mis)Aligned LLMs

Arxiv

0+阅读 · 2月2日

Unseen but not Unknown: Using Dataset Concealment to Robustly Evaluate Speech Quality Estimation Models

Arxiv

0+阅读 · 1月28日

AI-in-the-Loop: Privacy Preserving Real-Time Scam Detection and Conversational Scambaiting by Leveraging LLMs and Federated Learning

Arxiv

0+阅读 · 1月20日

Show me the evidence: Evaluating the role of evidence and natural language explanations in AI-supported fact-checking

Arxiv

0+阅读 · 1月16日

相关基金

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于负调查的云数据隐私保护关键问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于事件驱动的不完整信息耦合复杂网络群集动力学研究

国家自然科学基金

1+阅读 · 2015年12月31日

不确定知识图谱中面向结构查询的众包清洗研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向社交大数据的热点事件预测

国家自然科学基金

11+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

无线传感器网络中高效的虚假数据过滤方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

排序集抽样下随机删失数据的非参数估计

国家自然科学基金

1+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员