Beyond Pass/Fail: Using Process Mining to Understand How LLMs Resist (and Fail) Red Team Attacks - 专知论文

会员服务 ·

0

攻击 · 过程挖掘 · 语言模型 · 对抗 · 结构 ·

Beyond Pass/Fail: Using Process Mining to Understand How LLMs Resist (and Fail) Red Team Attacks

翻译：超越通过/失败：利用过程挖掘理解大语言模型如何抵御（和失败于）红队攻击

Standard AI red teaming evaluations reduce adversarial campaigns to a single binary outcome, attack success rate (ASR), not taking into account the sequential structure of how models resist or yield to attacks. We propose applying process mining, a discipline for discovering and analyzing process models from event logs, to red teaming traces. We conduct a controlled experiment pitting 60 HarmBench prompts against two LLMs, GPT-OSS 120B and Llama 3.3 70B, using 10 prompt mutation strategies over up to 110 attempts per prompt. From the resulting 8,575 scored events we extract Directly-Follows Graphs (DFGs) and state transition matrices that reveal structurally distinct defense profiles invisible to ASR alone: GPT-OSS exhibits a near-absorbing refusal state, while Llama presents multiple porous escape routes from refusal to getting successfully jailbroken. We further show that mutator effectiveness is asymmetric across models and that time-to-jailbreak distributions differ by an order of magnitude.

翻译：标准AI红队评估将对抗性攻击简化为单一的二值化结果——攻击成功率（ASR），未能考虑模型在抵御或屈服于攻击时的序列化结构。我们提出将过程挖掘（一门从事件日志中挖掘和分析过程模型的学科）应用于红队攻击轨迹。我们通过受控实验，使用60条HarmBench提示词，对GPT-OSS 120B和Llama 3.3 70B两个大语言模型，采用10种提示变异策略（每条提示最多尝试110次）进行对抗。从产生的8,575个评分事件中，我们提取了直接跟随图（DFG）和状态转移矩阵，揭示了仅凭ASR无法观察到的结构迥异的防御轮廓：GPT-OSS呈现出接近吸收态的拒绝状态，而Llama则展示了从拒绝到成功越狱的多条多孔性逃逸路径。我们进一步证明，变异器有效性在模型间具有不对称性，且越狱时间分布相差一个数量级。

0

相关内容

《基于强化学习的自动化红队测试》

《基于强化学习的自动化红队测试》

专知会员服务

8+阅读 · 7月23日

《理解大语言模型在军事战术任务规划中的局限性》

《理解大语言模型在军事战术任务规划中的局限性》

专知会员服务

53+阅读 · 2025年12月30日

《大语言模型驱动的智能红队测试》

《大语言模型驱动的智能红队测试》

专知会员服务

18+阅读 · 2025年11月26日

《利用大语言模型（LLM）优化海军陆战队经验教训学习》2025年最新103页

《利用大语言模型（LLM）优化海军陆战队经验教训学习》2025年最新103页

专知会员服务

26+阅读 · 2025年10月8日

《人工智能红队测试的再审视》

《人工智能红队测试的再审视》

专知会员服务

16+阅读 · 2025年9月2日

《信息战中基于大语言模型的AI代理红蓝队对抗沙盒方法：探索反信息、提示注入与AI素养中的人类控制》最新报告

《信息战中基于大语言模型的AI代理红蓝队对抗沙盒方法：探索反信息、提示注入与AI素养中的人类控制》最新报告

专知会员服务

27+阅读 · 2025年5月29日

《探索大型语言模型在军事联盟网络红队中的应用潜力》最新论文

《探索大型语言模型在军事联盟网络红队中的应用潜力》最新论文

专知会员服务

31+阅读 · 2025年1月5日

《评估生成式人工智能的红队方法》最新37页长综述

《评估生成式人工智能的红队方法》最新37页长综述

专知会员服务

57+阅读 · 2024年5月27日

什么是大模型Red-teaming？大模型安全研究《结构大语言模型红蓝对抗》（含下载）

什么是大模型Red-teaming？大模型安全研究《结构大语言模型红蓝对抗》（含下载）

专知会员服务

56+阅读 · 2023年5月1日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知会员服务

80+阅读 · 2020年3月13日

推荐！《对抗性在线学习》【译文】美国海军研究实验室项目总结报告

推荐！《对抗性在线学习》【译文】美国海军研究实验室项目总结报告

专知

12+阅读 · 2022年9月29日

【完整译文】《在复杂陆基场景中对中间部队能力进行兵棋推演》加拿大国防研究与发展部技术报告

【完整译文】《在复杂陆基场景中对中间部队能力进行兵棋推演》加拿大国防研究与发展部技术报告

专知

32+阅读 · 2022年9月5日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

人工智能头条

10+阅读 · 2018年6月29日

讲透RCNN, Fast-RCNN, Faster-RCNN，将CNN用于目标检测

讲透RCNN, Fast-RCNN, Faster-RCNN，将CNN用于目标检测

数据挖掘入门与实战

18+阅读 · 2018年4月20日

学界 | 综述论文：对抗攻击的12种攻击方法和15种防御方法

学界 | 综述论文：对抗攻击的12种攻击方法和15种防御方法

机器之心

15+阅读 · 2018年3月5日

推荐算法：Match与Rank模型的交织配合

推荐算法：Match与Rank模型的交织配合

从0到1

15+阅读 · 2017年12月18日

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

专知

29+阅读 · 2017年12月12日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于多目标优化的约束模式挖掘方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

14+阅读 · 2015年12月31日

两类Markov排队模型的衰减性质

国家自然科学基金

1+阅读 · 2015年12月31日

通用时序逻辑表达下的视频时空行为理解研究与应用

国家自然科学基金

0+阅读 · 2015年12月31日

实时排队控制下超市网络的非线性马氏过程与超指数结构

国家自然科学基金

0+阅读 · 2014年12月31日

基于多特征融合的视频足球比赛中的团队行为识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向任务成功性的可修系统重要度分析及优化

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

Beyond Scalars: Evaluating and Understanding LLM Reasoning via Geometric Progress and Stability

Arxiv

0+阅读 · 6月14日

Beyond Correctness: Enhancing Architectural Reasoning in Code LLMs via Scalable Labeling with Agentic Judgment

Arxiv

0+阅读 · 6月12日

Beyond Attack Success Rate: Examining Trigger Leakage in Vision-Language Agentic Systems

Arxiv

0+阅读 · 6月10日

Defense Against Prompt Inversion Attacks: An Information-Theoretic Approach for LLM Collaborative Inference

Arxiv

0+阅读 · 6月10日

Learning to Attack and Defend: Adaptive Red Teaming of Language Models via GRPO

Arxiv

0+阅读 · 6月8日

SlotGCG: Exploiting the Positional Vulnerability in LLMs for Jailbreak Attacks

Arxiv

0+阅读 · 6月4日

Cross-Generational Transfer of Adversarial Attacks Reveals Non-Monotonic Safety Alignment in LLMs

Arxiv

0+阅读 · 5月30日

Quality-Diversity Evolution for Discovering Diverse Vulnerabilities in LLM Safety

Arxiv

0+阅读 · 5月30日

Evolve the Method, Not the Prompts: Evolutionary Synthesis of Jailbreak Attacks on LLMs

Arxiv

0+阅读 · 5月18日

Beyond Red-Teaming: Formal Guarantees of LLM Guardrail Classifiers

Arxiv

0+阅读 · 5月11日

VIP会员

文章信息

相关主题

最新内容

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

4+阅读 · 8月2日

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

1+阅读 · 8月2日

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

5+阅读 · 8月2日

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

6+阅读 · 8月2日

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

2+阅读 · 8月2日

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

6+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

4+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

8+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

8+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

6+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

9+阅读 · 7月31日

相关VIP内容

《基于强化学习的自动化红队测试》

《基于强化学习的自动化红队测试》

专知会员服务

8+阅读 · 7月23日

《理解大语言模型在军事战术任务规划中的局限性》

《理解大语言模型在军事战术任务规划中的局限性》

专知会员服务

53+阅读 · 2025年12月30日

《大语言模型驱动的智能红队测试》

《大语言模型驱动的智能红队测试》

专知会员服务

18+阅读 · 2025年11月26日

《利用大语言模型（LLM）优化海军陆战队经验教训学习》2025年最新103页

《利用大语言模型（LLM）优化海军陆战队经验教训学习》2025年最新103页

专知会员服务

26+阅读 · 2025年10月8日

《人工智能红队测试的再审视》

《人工智能红队测试的再审视》

专知会员服务

16+阅读 · 2025年9月2日

《信息战中基于大语言模型的AI代理红蓝队对抗沙盒方法：探索反信息、提示注入与AI素养中的人类控制》最新报告

《信息战中基于大语言模型的AI代理红蓝队对抗沙盒方法：探索反信息、提示注入与AI素养中的人类控制》最新报告

专知会员服务

27+阅读 · 2025年5月29日

《探索大型语言模型在军事联盟网络红队中的应用潜力》最新论文

《探索大型语言模型在军事联盟网络红队中的应用潜力》最新论文

专知会员服务

31+阅读 · 2025年1月5日

《评估生成式人工智能的红队方法》最新37页长综述

《评估生成式人工智能的红队方法》最新37页长综述

专知会员服务

57+阅读 · 2024年5月27日

什么是大模型Red-teaming？大模型安全研究《结构大语言模型红蓝对抗》（含下载）

什么是大模型Red-teaming？大模型安全研究《结构大语言模型红蓝对抗》（含下载）

专知会员服务

56+阅读 · 2023年5月1日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知会员服务

80+阅读 · 2020年3月13日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

推荐！《对抗性在线学习》【译文】美国海军研究实验室项目总结报告

推荐！《对抗性在线学习》【译文】美国海军研究实验室项目总结报告

专知

12+阅读 · 2022年9月29日

【完整译文】《在复杂陆基场景中对中间部队能力进行兵棋推演》加拿大国防研究与发展部技术报告

【完整译文】《在复杂陆基场景中对中间部队能力进行兵棋推演》加拿大国防研究与发展部技术报告

专知

32+阅读 · 2022年9月5日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

人工智能头条

10+阅读 · 2018年6月29日

讲透RCNN, Fast-RCNN, Faster-RCNN，将CNN用于目标检测

讲透RCNN, Fast-RCNN, Faster-RCNN，将CNN用于目标检测

数据挖掘入门与实战

18+阅读 · 2018年4月20日

学界 | 综述论文：对抗攻击的12种攻击方法和15种防御方法

学界 | 综述论文：对抗攻击的12种攻击方法和15种防御方法

机器之心

15+阅读 · 2018年3月5日

推荐算法：Match与Rank模型的交织配合

推荐算法：Match与Rank模型的交织配合

从0到1

15+阅读 · 2017年12月18日

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

专知

29+阅读 · 2017年12月12日

相关论文

Beyond Scalars: Evaluating and Understanding LLM Reasoning via Geometric Progress and Stability

Arxiv

0+阅读 · 6月14日

Beyond Correctness: Enhancing Architectural Reasoning in Code LLMs via Scalable Labeling with Agentic Judgment

Arxiv

0+阅读 · 6月12日

Beyond Attack Success Rate: Examining Trigger Leakage in Vision-Language Agentic Systems

Arxiv

0+阅读 · 6月10日

Defense Against Prompt Inversion Attacks: An Information-Theoretic Approach for LLM Collaborative Inference

Arxiv

0+阅读 · 6月10日

Learning to Attack and Defend: Adaptive Red Teaming of Language Models via GRPO

Arxiv

0+阅读 · 6月8日

SlotGCG: Exploiting the Positional Vulnerability in LLMs for Jailbreak Attacks

Arxiv

0+阅读 · 6月4日

Cross-Generational Transfer of Adversarial Attacks Reveals Non-Monotonic Safety Alignment in LLMs

Arxiv

0+阅读 · 5月30日

Quality-Diversity Evolution for Discovering Diverse Vulnerabilities in LLM Safety

Arxiv

0+阅读 · 5月30日

Evolve the Method, Not the Prompts: Evolutionary Synthesis of Jailbreak Attacks on LLMs

Arxiv

0+阅读 · 5月18日

Beyond Red-Teaming: Formal Guarantees of LLM Guardrail Classifiers

Arxiv

0+阅读 · 5月11日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于多目标优化的约束模式挖掘方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

14+阅读 · 2015年12月31日

两类Markov排队模型的衰减性质

国家自然科学基金

1+阅读 · 2015年12月31日

通用时序逻辑表达下的视频时空行为理解研究与应用

国家自然科学基金

0+阅读 · 2015年12月31日

实时排队控制下超市网络的非线性马氏过程与超指数结构

国家自然科学基金

0+阅读 · 2014年12月31日

基于多特征融合的视频足球比赛中的团队行为识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向任务成功性的可修系统重要度分析及优化

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员