Analyzing Defensive Misdirection Against Model-Guided Automated Attacks on Agentic AI Systems - 专知论文

会员服务 ·

0

Automator · AI · Agent AI · 语音识别 · Agent ·

Analyzing Defensive Misdirection Against Model-Guided Automated Attacks on Agentic AI Systems

翻译：暂无翻译

Reza Soosahabi,Vivek Namsani

Agentic AI systems increasingly rely on language-model components to interpret instructions, process external data, invoke tools, and coordinate with other agents. These capabilities make prompt-injection and jailbreak attacks more consequential, especially as attackers adopt model-guided automation to scale probing, prompt refinement, and response evaluation. This work analyzes the resulting attack-defense setting through a probabilistic model of a target system, its defense mechanism, and the attacker's automated judge. Our analysis shows that conventional detect-and-block defenses can allow attacker success rate (ASR) to approach one as the query budget grows, since predictable refusals provide useful feedback to automated search. We then examine detect-and-misdirect, where detected malicious interactions receive controlled, non-operational responses designed to induce false-positive errors in the attacker's judge. This strategy reduces the positive predictive value of attacker-selected candidates and yields a bounded asymptotic ASR. We evaluate a proof-of-concept realization of this strategy through Contextual Misdirection via Progressive Engagement (CMPE), a lightweight conversational misdirection method designed to replace predictable refusal text with safe but strategically misleading responses in automated jailbreak settings. On jailbreak benchmarks, CMPE reduces estimated ASR upper bounds by up to two orders of magnitude and nearly eliminates verified attack success in end-to-end PAIR and GPTFuzz attack runs.

翻译：暂无翻译

0

相关内容

Automator

Automator是苹果公司为他们的Mac OS X系统开发的一款软件。 只要通过点击拖拽鼠标等操作就可以将一系列动作组合成一个工作流，从而帮助你自动的（可重复的）完成一些复杂的工作。Automator还能横跨很多不同种类的程序，包括：查找器、Safari网络浏览器、iCal、地址簿或者其他的一些程序。它还能和一些第三方的程序一起工作，如微软的Office、Adobe公司的Photoshop或者Pixelmator等。

2026 年 Agentic AI 工程师完全指南：一份系统化的学习路线图

2026 年 Agentic AI 工程师完全指南：一份系统化的学习路线图

专知会员服务

48+阅读 · 4月14日

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

专知会员服务

32+阅读 · 2月26日

AI 智能体系统：体系架构、应用场景及评估范式

AI 智能体系统：体系架构、应用场景及评估范式

专知会员服务

70+阅读 · 1月6日

Agent AI：多模态交互的新地平线

Agent AI：多模态交互的新地平线

专知会员服务

22+阅读 · 2025年5月26日

AI专题·Agent：智能体基建厚积薄发，商业化应用曙光乍现

AI专题·Agent：智能体基建厚积薄发，商业化应用曙光乍现

专知会员服务

34+阅读 · 2025年4月24日

再谈工业AI：立足跨模型架构AI中台，落地垂类Agent场景

再谈工业AI：立足跨模型架构AI中台，落地垂类Agent场景

专知会员服务

46+阅读 · 2025年3月9日

Agent视域下的人工智能赋能作战系统

Agent视域下的人工智能赋能作战系统

专知会员服务

58+阅读 · 2024年12月15日

针对自动驾驶智能模型的攻击与防御

针对自动驾驶智能模型的攻击与防御

专知会员服务

19+阅读 · 2024年6月25日

2024中国AI Agent行业研究报告｜附60页PDF文件下载

2024中国AI Agent行业研究报告｜附60页PDF文件下载

专知会员服务

127+阅读 · 2024年4月30日

AI Agent：基于大模型的自主智能体

AI Agent：基于大模型的自主智能体

专知会员服务

250+阅读 · 2023年9月9日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

专知

40+阅读 · 2022年10月19日

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

专知

102+阅读 · 2022年10月17日

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

专知

118+阅读 · 2022年9月1日

美国海军研究生院《人工智能系统：国防应用的独特挑战》中文版（含16页PDF、23页讲解ppt）

美国海军研究生院《人工智能系统：国防应用的独特挑战》中文版（含16页PDF、23页讲解ppt）

专知

31+阅读 · 2022年4月19日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

92+阅读 · 2022年4月17日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

AI新方向：对抗攻击

AI新方向：对抗攻击

网易智能菌

10+阅读 · 2018年11月14日

Deepmind 新成果，让机器挑战更复杂阅读理解问题

Deepmind 新成果，让机器挑战更复杂阅读理解问题

AI掘金志

11+阅读 · 2018年1月3日

基于子模优化的远程预警传感器管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

定位系统细胞启发的机器人情景认知地图构建与行为规划研究

国家自然科学基金

3+阅读 · 2015年12月31日

神经形态多核处理器的架构模型研究

国家自然科学基金

3+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

Deontic Policies for Runtime Governance of Agentic AI Systems

Arxiv

0+阅读 · 6月17日

Runtime Compliance Verification for AI Agents

Arxiv

0+阅读 · 6月17日

Notation Matters: A Benchmark Study of Token-Optimized Formats in Agentic AI Systems

Arxiv

0+阅读 · 6月17日

AI Sandboxes: A Threat Model, Taxonomy, and Measurement Framework

Arxiv

0+阅读 · 6月16日

On the Reliability of Networks of AI Agents: Density Evolution, Stopping Sets, and Architecture Optimization

Arxiv

0+阅读 · 6月16日

The Internet of Agentic AI: Communication, Coordination, and Collective Intelligence at Scale

Arxiv

0+阅读 · 6月11日

Insurance of Agentic AI

Arxiv

0+阅读 · 6月3日

Beyond Benchmark Islands: Toward Representative Trustworthiness Evaluation for Agentic AI

Arxiv

0+阅读 · 5月21日

From Agent Loops to Deterministic Graphs: Execution Lineage for Reproducible AI-Native Work

Arxiv

0+阅读 · 5月7日

A Systematic Survey of Security Threats and Defenses in LLM-Based AI Agents: A Layered Attack Surface Framework

Arxiv

0+阅读 · 5月6日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

0+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

1+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

4+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

5+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

9+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

6+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

9+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

13+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

9+阅读 · 6月17日

相关VIP内容

2026 年 Agentic AI 工程师完全指南：一份系统化的学习路线图

2026 年 Agentic AI 工程师完全指南：一份系统化的学习路线图

专知会员服务

48+阅读 · 4月14日

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

专知会员服务

32+阅读 · 2月26日

AI 智能体系统：体系架构、应用场景及评估范式

AI 智能体系统：体系架构、应用场景及评估范式

专知会员服务

70+阅读 · 1月6日

Agent AI：多模态交互的新地平线

Agent AI：多模态交互的新地平线

专知会员服务

22+阅读 · 2025年5月26日

AI专题·Agent：智能体基建厚积薄发，商业化应用曙光乍现

AI专题·Agent：智能体基建厚积薄发，商业化应用曙光乍现

专知会员服务

34+阅读 · 2025年4月24日

再谈工业AI：立足跨模型架构AI中台，落地垂类Agent场景

再谈工业AI：立足跨模型架构AI中台，落地垂类Agent场景

专知会员服务

46+阅读 · 2025年3月9日

Agent视域下的人工智能赋能作战系统

Agent视域下的人工智能赋能作战系统

专知会员服务

58+阅读 · 2024年12月15日

针对自动驾驶智能模型的攻击与防御

针对自动驾驶智能模型的攻击与防御

专知会员服务

19+阅读 · 2024年6月25日

2024中国AI Agent行业研究报告｜附60页PDF文件下载

2024中国AI Agent行业研究报告｜附60页PDF文件下载

专知会员服务

127+阅读 · 2024年4月30日

AI Agent：基于大模型的自主智能体

AI Agent：基于大模型的自主智能体

专知会员服务

250+阅读 · 2023年9月9日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

专知

40+阅读 · 2022年10月19日

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

专知

102+阅读 · 2022年10月17日

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

专知

118+阅读 · 2022年9月1日

美国海军研究生院《人工智能系统：国防应用的独特挑战》中文版（含16页PDF、23页讲解ppt）

美国海军研究生院《人工智能系统：国防应用的独特挑战》中文版（含16页PDF、23页讲解ppt）

专知

31+阅读 · 2022年4月19日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

92+阅读 · 2022年4月17日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

AI新方向：对抗攻击

AI新方向：对抗攻击

网易智能菌

10+阅读 · 2018年11月14日

Deepmind 新成果，让机器挑战更复杂阅读理解问题

Deepmind 新成果，让机器挑战更复杂阅读理解问题

AI掘金志

11+阅读 · 2018年1月3日

相关论文

Deontic Policies for Runtime Governance of Agentic AI Systems

Arxiv

0+阅读 · 6月17日

Runtime Compliance Verification for AI Agents

Arxiv

0+阅读 · 6月17日

Notation Matters: A Benchmark Study of Token-Optimized Formats in Agentic AI Systems

Arxiv

0+阅读 · 6月17日

AI Sandboxes: A Threat Model, Taxonomy, and Measurement Framework

Arxiv

0+阅读 · 6月16日

On the Reliability of Networks of AI Agents: Density Evolution, Stopping Sets, and Architecture Optimization

Arxiv

0+阅读 · 6月16日

The Internet of Agentic AI: Communication, Coordination, and Collective Intelligence at Scale

Arxiv

0+阅读 · 6月11日

Insurance of Agentic AI

Arxiv

0+阅读 · 6月3日

Beyond Benchmark Islands: Toward Representative Trustworthiness Evaluation for Agentic AI

Arxiv

0+阅读 · 5月21日

From Agent Loops to Deterministic Graphs: Execution Lineage for Reproducible AI-Native Work

Arxiv

0+阅读 · 5月7日

A Systematic Survey of Security Threats and Defenses in LLM-Based AI Agents: A Layered Attack Surface Framework

Arxiv

0+阅读 · 5月6日

相关基金

基于子模优化的远程预警传感器管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

定位系统细胞启发的机器人情景认知地图构建与行为规划研究

国家自然科学基金

3+阅读 · 2015年12月31日

神经形态多核处理器的架构模型研究

国家自然科学基金

3+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员