Phantom Transfer: Data-level Defences are Insufficient Against Data Poisoning - 专知论文

会员服务 ·

0

攻击 · 投毒攻击 · 数据投毒 · 数据集 · 攻击方法 ·

Phantom Transfer: Data-level Defences are Insufficient Against Data Poisoning

翻译：幻影转移：数据层面防御不足以应对数据投毒攻击

Andrew Draganov,Tolga H. Dur,Anandmayi Bhongade,Mary Phuong

We present a data poisoning attack -- Phantom Transfer -- with the property that, even if you know precisely how the poison was placed into an otherwise benign dataset, you cannot filter it out. We achieve this by modifying subliminal learning to work in real-world contexts and demonstrate that the attack works across models, including GPT-4.1. Indeed, even fully paraphrasing every sample in the dataset using a different model does not stop the attack. We also discuss connections to steering vectors and show that one can plant password-triggered behaviours into models while still beating defences. This suggests that data-level defences are insufficient for stopping sophisticated data poisoning attacks. We suggest that future work should focus on model audits and white-box security methods.

翻译：我们提出一种数据投毒攻击方法——幻影转移（Phantom Transfer）——其特性在于，即使你确切知道毒害数据是如何被植入原本良性的数据集中，也无法将其过滤剔除。我们通过改进潜意识学习（subliminal learning）使其适用于现实场景，并证明该攻击可跨模型生效，包括GPT-4.1。事实上，即使使用不同模型对数据集中每个样本进行完全复述改写，仍无法阻止此攻击。我们还探讨了与导向向量（steering vectors）的关联，并证明攻击者能在突破防御的同时，将密码触发的特定行为植入模型中。这表明数据层面的防御措施不足以阻止复杂的数据投毒攻击。我们建议未来研究应聚焦于模型审计与白盒安全方法。

0

相关内容

计算机视觉领域的后门攻击与防御：综述

计算机视觉领域的后门攻击与防御：综述

专知会员服务

19+阅读 · 2025年9月13日

中文版 | 数据投毒：AI驱动战争中优势地位的隐蔽武器

中文版 | 数据投毒：AI驱动战争中优势地位的隐蔽武器

专知会员服务

24+阅读 · 2025年7月6日

中文版 | 数字战场：人工智能如何作为主动防护盾对抗网络欺凌

中文版 | 数字战场：人工智能如何作为主动防护盾对抗网络欺凌

专知会员服务

9+阅读 · 2025年5月22日

深度学习中的数据投毒：综述

深度学习中的数据投毒：综述

专知会员服务

29+阅读 · 2025年4月1日

深度生成模型如何对抗攻击？中国地大等《深度生成模型的对抗性攻击》综述全面阐述GAN和VAEs安全性和隐私保护

深度生成模型如何对抗攻击？中国地大等《深度生成模型的对抗性攻击》综述全面阐述GAN和VAEs安全性和隐私保护

专知会员服务

22+阅读 · 2021年12月3日

【WWW2021】对众包系统的数据中毒攻击和防御

【WWW2021】对众包系统的数据中毒攻击和防御

专知会员服务

21+阅读 · 2021年2月22日

【DeepMind】基于变换的大规模数据对抗视频预测，Transformation-based Adversarial Video Prediction on Large-Scale Data

【DeepMind】基于变换的大规模数据对抗视频预测，Transformation-based Adversarial Video Prediction on Large-Scale Data

专知会员服务

17+阅读 · 2020年3月9日

GeoffreyHinton-ICML2020投稿论文-偏转对抗攻击 Deflecting Adversarial Attacks

GeoffreyHinton-ICML2020投稿论文-偏转对抗攻击 Deflecting Adversarial Attacks

专知会员服务

24+阅读 · 2020年2月22日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

70+阅读 · 2020年1月17日

【IBM】在视觉和关系推理中迁移学习，Transfer Learning in Visual and Relational Reasoning

【IBM】在视觉和关系推理中迁移学习，Transfer Learning in Visual and Relational Reasoning

专知会员服务

45+阅读 · 2020年1月15日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

专知

14+阅读 · 2019年10月31日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

百闻不如一码！手把手教你用Python搭一个Transformer

百闻不如一码！手把手教你用Python搭一个Transformer

大数据文摘

18+阅读 · 2019年4月22日

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

专知

54+阅读 · 2019年4月12日

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

机器之心

16+阅读 · 2018年7月9日

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

GAN生成式对抗网络

11+阅读 · 2018年6月5日

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

专知

29+阅读 · 2017年12月12日

【迁移学习】中科院计算所王晋东：迁移学习的发展和现状

【迁移学习】中科院计算所王晋东：迁移学习的发展和现状

产业智能官

23+阅读 · 2017年11月21日

面向时空特性的社交网络推演攻击与隐私保护关键技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于密集快速特征提取的可视媒体篡改检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于被控物理对象监测的核电厂网络空间攻击的检测和响应

国家自然科学基金

2+阅读 · 2015年12月31日

分布式中继网络中的物理层攻击检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

无线传感器网络中高效的虚假数据过滤方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

移动云计算环境下密码计算可证安全负载迁移研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向生物威胁快速反应的大数据分析关键技术

国家自然科学基金

0+阅读 · 2014年12月31日

基于免疫的Rootkit隐遁攻击动态内存取证方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Unsupervised Corpus Poisoning Attacks in Continuous Space for Dense Retrieval

Arxiv

0+阅读 · 3月16日

Stealthy Poisoning Attacks Bypass Defenses in Regression Settings

Arxiv

0+阅读 · 3月2日

Towards Transferable Defense Against Malicious Image Edits

Arxiv

0+阅读 · 3月2日

Intent Laundering: AI Safety Datasets Are Not What They Seem

Arxiv

0+阅读 · 2月17日

Transferable Backdoor Attacks for Code Models via Sharpness-Aware Adversarial Perturbation

Arxiv

0+阅读 · 2月11日

CausalArmor: Efficient Indirect Prompt Injection Guardrails via Causal Attribution

Arxiv

0+阅读 · 2月8日

Attack Selection Reduces Safety in Concentrated AI Control Settings against Trusted Monitoring

Arxiv

0+阅读 · 2月4日

Defending Against Prompt Injection with DataFilter

Arxiv

0+阅读 · 2月4日

Safety-Efficacy Trade Off: Robustness against Data-Poisoning

Arxiv

0+阅读 · 1月31日

Detecting Instruction Fine-tuning Attacks using Influence Function

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

0+阅读 · 6分钟前

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

0+阅读 · 10分钟前

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

0+阅读 · 40分钟前

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

9+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

6+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

4+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

2+阅读 · 4月20日

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

专知会员服务

3+阅读 · 4月20日

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

2+阅读 · 4月20日

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

2+阅读 · 4月20日

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

7+阅读 · 4月20日

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

5+阅读 · 4月20日

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

10+阅读 · 4月20日

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

5+阅读 · 4月20日

《提升生成模型的安全性与保障》博士论文

《提升生成模型的安全性与保障》博士论文

专知会员服务

5+阅读 · 4月20日

相关VIP内容

计算机视觉领域的后门攻击与防御：综述

计算机视觉领域的后门攻击与防御：综述

专知会员服务

19+阅读 · 2025年9月13日

中文版 | 数据投毒：AI驱动战争中优势地位的隐蔽武器

中文版 | 数据投毒：AI驱动战争中优势地位的隐蔽武器

专知会员服务

24+阅读 · 2025年7月6日

中文版 | 数字战场：人工智能如何作为主动防护盾对抗网络欺凌

中文版 | 数字战场：人工智能如何作为主动防护盾对抗网络欺凌

专知会员服务

9+阅读 · 2025年5月22日

深度学习中的数据投毒：综述

深度学习中的数据投毒：综述

专知会员服务

29+阅读 · 2025年4月1日

深度生成模型如何对抗攻击？中国地大等《深度生成模型的对抗性攻击》综述全面阐述GAN和VAEs安全性和隐私保护

深度生成模型如何对抗攻击？中国地大等《深度生成模型的对抗性攻击》综述全面阐述GAN和VAEs安全性和隐私保护

专知会员服务

22+阅读 · 2021年12月3日

【WWW2021】对众包系统的数据中毒攻击和防御

【WWW2021】对众包系统的数据中毒攻击和防御

专知会员服务

21+阅读 · 2021年2月22日

【DeepMind】基于变换的大规模数据对抗视频预测，Transformation-based Adversarial Video Prediction on Large-Scale Data

【DeepMind】基于变换的大规模数据对抗视频预测，Transformation-based Adversarial Video Prediction on Large-Scale Data

专知会员服务

17+阅读 · 2020年3月9日

GeoffreyHinton-ICML2020投稿论文-偏转对抗攻击 Deflecting Adversarial Attacks

GeoffreyHinton-ICML2020投稿论文-偏转对抗攻击 Deflecting Adversarial Attacks

专知会员服务

24+阅读 · 2020年2月22日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

70+阅读 · 2020年1月17日

【IBM】在视觉和关系推理中迁移学习，Transfer Learning in Visual and Relational Reasoning

【IBM】在视觉和关系推理中迁移学习，Transfer Learning in Visual and Relational Reasoning

专知会员服务

45+阅读 · 2020年1月15日

热门VIP内容

开通专知VIP会员享更多权益服务

《军用自主人工智能系统的治理与安全》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《提升美军全域城市作战训练最佳实践的案例研究》366页

美海军数字作战负责人：如何利用数据快速生成战斗力

相关资讯

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

专知

14+阅读 · 2019年10月31日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

百闻不如一码！手把手教你用Python搭一个Transformer

百闻不如一码！手把手教你用Python搭一个Transformer

大数据文摘

18+阅读 · 2019年4月22日

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

专知

54+阅读 · 2019年4月12日

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

机器之心

16+阅读 · 2018年7月9日

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

GAN生成式对抗网络

11+阅读 · 2018年6月5日

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

专知

29+阅读 · 2017年12月12日

【迁移学习】中科院计算所王晋东：迁移学习的发展和现状

【迁移学习】中科院计算所王晋东：迁移学习的发展和现状

产业智能官

23+阅读 · 2017年11月21日

相关论文

Unsupervised Corpus Poisoning Attacks in Continuous Space for Dense Retrieval

Arxiv

0+阅读 · 3月16日

Stealthy Poisoning Attacks Bypass Defenses in Regression Settings

Arxiv

0+阅读 · 3月2日

Towards Transferable Defense Against Malicious Image Edits

Arxiv

0+阅读 · 3月2日

Intent Laundering: AI Safety Datasets Are Not What They Seem

Arxiv

0+阅读 · 2月17日

Transferable Backdoor Attacks for Code Models via Sharpness-Aware Adversarial Perturbation

Arxiv

0+阅读 · 2月11日

CausalArmor: Efficient Indirect Prompt Injection Guardrails via Causal Attribution

Arxiv

0+阅读 · 2月8日

Attack Selection Reduces Safety in Concentrated AI Control Settings against Trusted Monitoring

Arxiv

0+阅读 · 2月4日

Defending Against Prompt Injection with DataFilter

Arxiv

0+阅读 · 2月4日

Safety-Efficacy Trade Off: Robustness against Data-Poisoning

Arxiv

0+阅读 · 1月31日

Detecting Instruction Fine-tuning Attacks using Influence Function

Arxiv

0+阅读 · 1月30日

相关基金

面向时空特性的社交网络推演攻击与隐私保护关键技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于密集快速特征提取的可视媒体篡改检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于被控物理对象监测的核电厂网络空间攻击的检测和响应

国家自然科学基金

2+阅读 · 2015年12月31日

分布式中继网络中的物理层攻击检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

无线传感器网络中高效的虚假数据过滤方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

移动云计算环境下密码计算可证安全负载迁移研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向生物威胁快速反应的大数据分析关键技术

国家自然科学基金

0+阅读 · 2014年12月31日

基于免疫的Rootkit隐遁攻击动态内存取证方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员