AIR: Improving Agent Safety through Incident Response - 专知论文

会员服务 ·

0

事件 · 清华大学智能产业研究院 · 智能体 · 智能体安全 · IR ·

AIR: Improving Agent Safety through Incident Response

翻译：AIR：通过事件响应提升智能体安全性

Zibo Xiao,Jun Sun,Junjie Chen

Large Language Model (LLM) agents are increasingly deployed in practice across a wide range of autonomous applications. Yet current safety mechanisms for LLM agents focus almost exclusively on preventing failures in advance, providing limited capabilities for responding to, containing, or recovering from incidents after they inevitably arise. In this work, we introduce AIR, the first incident response framework for LLM agent systems. AIR defines a domain-specific language for managing the incident response lifecycle autonomously in LLM agent systems, and integrates it into the agent's execution loop to (1) detect incidents via semantic checks grounded in the current environment state and recent context, (2) guide the agent to execute containment and recovery actions via its tools, and (3) synthesize guardrail rules during eradication to block similar incidents in future executions. We evaluate AIR on three representative agent types. Results show that AIR achieves detection, remediation, and eradication success rates all exceeding 90%. Extensive experiments further confirm the necessity of AIR's key design components, show the timeliness and moderate overhead of AIR, and demonstrate that LLM-generated rules can approach the effectiveness of developer-authored rules across domains. These results show that incident response is both feasible and essential as a first-class mechanism for improving agent safety.

翻译：大型语言模型（LLM）智能体正日益广泛地部署于各类自主应用中。然而，当前LLM智能体的安全机制几乎完全专注于事前预防故障，对于不可避免发生的事件，其响应、遏制或恢复能力十分有限。本研究提出了AIR，首个面向LLM智能体系统的事件响应框架。AIR定义了一种领域特定语言，用于在LLM智能体系统中自主管理事件响应生命周期，并将其集成至智能体执行循环中，以实现：（1）基于当前环境状态与近期上下文进行语义检查以检测事件；（2）引导智能体通过其工具执行遏制与恢复操作；（3）在根除阶段合成防护规则以阻断未来执行中的类似事件。我们在三种代表性智能体类型上评估了AIR。结果表明，AIR在检测、修复与根除方面的成功率均超过90%。大量实验进一步证实了AIR关键设计组件的必要性，展示了其时效性与适度开销，并证明LLM生成的规则在不同领域可接近开发者编写规则的有效性。这些结果表明，事件响应作为一种提升智能体安全性的首要机制，既具备可行性又至关重要。

0

相关内容

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

专知会员服务

28+阅读 · 2月27日

法律领域中的大语言模型智能体：分类体系、应用场景与挑战

法律领域中的大语言模型智能体：分类体系、应用场景与挑战

专知会员服务

17+阅读 · 1月14日

智能体化人工智能 (Agentic AI) 的前行之路：挑战与机遇

智能体化人工智能 (Agentic AI) 的前行之路：挑战与机遇

专知会员服务

43+阅读 · 1月8日

智能体安全综述：应用、威胁与防御

智能体安全综述：应用、威胁与防御

专知会员服务

42+阅读 · 2025年10月12日

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

专知会员服务

32+阅读 · 2025年9月27日

基于大模型的智能体中由自主性引发的安全风险综述

基于大模型的智能体中由自主性引发的安全风险综述

专知会员服务

18+阅读 · 2025年7月1日

大语言模型驱动的AI智能体通信综述：协议、安全风险与防御对策

大语言模型驱动的AI智能体通信综述：协议、安全风险与防御对策

专知会员服务

29+阅读 · 2025年6月25日

上交大推出首个AI智能体协议全面综述：从碎片化到互联互通的智能体网络

上交大推出首个AI智能体协议全面综述：从碎片化到互联互通的智能体网络

专知会员服务

25+阅读 · 2025年4月30日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

走向通用虚拟智能体

走向通用虚拟智能体

专知会员服务

76+阅读 · 2023年11月26日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

专知

110+阅读 · 2022年4月28日

【AI与军事】人工智能浪潮与空中力量的未来

【AI与军事】人工智能浪潮与空中力量的未来

专知

42+阅读 · 2022年4月23日

AI如何促进态势感知？2022美国空军AFRL等「态势感知」万字综述论文，24也pdf阐述智能战场态势感知技术、挑战和前景

AI如何促进态势感知？2022美国空军AFRL等「态势感知」万字综述论文，24也pdf阐述智能战场态势感知技术、挑战和前景

专知

132+阅读 · 2022年3月19日

美空军即将试飞“天空博格人”智能程序，推动人工智能空战应用

美空军即将试飞“天空博格人”智能程序，推动人工智能空战应用

无人机

13+阅读 · 2019年7月24日

【预测性维护】预测性维护是边缘计算与人工智能，在工业落地的最短路径？

【预测性维护】预测性维护是边缘计算与人工智能，在工业落地的最短路径？

产业智能官

14+阅读 · 2019年5月5日

MBSE应用于航空产品研发的适航管理

MBSE应用于航空产品研发的适航管理

科技导报

14+阅读 · 2019年4月26日

人工智能对网络空间安全的影响

人工智能对网络空间安全的影响

走向智能论坛

21+阅读 · 2018年6月7日

【智能制造】见识一下某航空企业的智能制造技术架构！

【智能制造】见识一下某航空企业的智能制造技术架构！

产业智能官

13+阅读 · 2017年12月7日

面向空中智能交通的大规模飞行航迹处理与分析方法研究

国家自然科学基金

8+阅读 · 2015年12月31日

动态重构综合模块化航空电子系统适航安全性评估方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

运用无人机（UAV）技术搜集工程现场险兆事件减少事故风险

国家自然科学基金

6+阅读 · 2015年12月31日

亚健康理论方法在空管运行安全管理中的应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向踩踏事故防范的运动人群无人机协同航拍及风险演化态势计算

国家自然科学基金

0+阅读 · 2015年12月31日

网络空间安全关键技术研究

国家自然科学基金

20+阅读 · 2015年12月31日

面向航空机场运行信息系统的协同应急响应和弹性灾难恢复方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

ATCC: Adaptive Concurrency Control for Unforeseen Agentic Transactions

Arxiv

0+阅读 · 3月14日

AgentServe: Algorithm-System Co-Design for Efficient Agentic AI Serving on a Consumer-Grade GPU

Arxiv

0+阅读 · 3月11日

From Secure Agentic AI to Secure Agentic Web: Challenges, Threats, and Future Directions

Arxiv

0+阅读 · 3月2日

MagicAgent: Towards Generalized Agent Planning

Arxiv

0+阅读 · 3月1日

Agentic AI as a Cybersecurity Attack Surface: Threats, Exploits, and Defenses in Runtime Supply Chains

Arxiv

0+阅读 · 2月23日

Defining and Evaluating Physical Safety for Large Language Models

Arxiv

0+阅读 · 2月19日

AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents

Arxiv

1+阅读 · 2月16日

Agentic AI Security: Threats, Defenses, Evaluation, and Open Challenges

Arxiv

0+阅读 · 2月13日

MAPS: A Multilingual Benchmark for Agent Performance and Security

Arxiv

0+阅读 · 2月10日

AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents

Arxiv

0+阅读 · 2月6日

VIP会员

文章信息

相关主题

清华大学智能产业研究院

智能体安全

最新内容

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

专知会员服务

1+阅读 · 今天15:43

比利时发布用于实时战场军事装备识别的离线人工智能系统

比利时发布用于实时战场军事装备识别的离线人工智能系统

专知会员服务

1+阅读 · 今天15:41

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

专知会员服务

1+阅读 · 今天15:37

超越网格：作战环境对炮兵的影响

超越网格：作战环境对炮兵的影响

专知会员服务

1+阅读 · 今天15:35

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

专知会员服务

4+阅读 · 今天12:11

综述 | 推理时控制：可信大语言模型的运行时治理全景

综述 | 推理时控制：可信大语言模型的运行时治理全景

专知会员服务

3+阅读 · 今天12:10

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

4+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

6+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

4+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

5+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

14+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

8+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

8+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

9+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

13+阅读 · 5月29日

相关VIP内容

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

专知会员服务

28+阅读 · 2月27日

法律领域中的大语言模型智能体：分类体系、应用场景与挑战

法律领域中的大语言模型智能体：分类体系、应用场景与挑战

专知会员服务

17+阅读 · 1月14日

智能体化人工智能 (Agentic AI) 的前行之路：挑战与机遇

智能体化人工智能 (Agentic AI) 的前行之路：挑战与机遇

专知会员服务

43+阅读 · 1月8日

智能体安全综述：应用、威胁与防御

智能体安全综述：应用、威胁与防御

专知会员服务

42+阅读 · 2025年10月12日

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

专知会员服务

32+阅读 · 2025年9月27日

基于大模型的智能体中由自主性引发的安全风险综述

基于大模型的智能体中由自主性引发的安全风险综述

专知会员服务

18+阅读 · 2025年7月1日

大语言模型驱动的AI智能体通信综述：协议、安全风险与防御对策

大语言模型驱动的AI智能体通信综述：协议、安全风险与防御对策

专知会员服务

29+阅读 · 2025年6月25日

上交大推出首个AI智能体协议全面综述：从碎片化到互联互通的智能体网络

上交大推出首个AI智能体协议全面综述：从碎片化到互联互通的智能体网络

专知会员服务

25+阅读 · 2025年4月30日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

走向通用虚拟智能体

走向通用虚拟智能体

专知会员服务

76+阅读 · 2023年11月26日

热门VIP内容

开通专知VIP会员享更多权益服务

比利时发布用于实时战场军事装备识别的离线人工智能系统

超越网格：作战环境对炮兵的影响

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

专知

110+阅读 · 2022年4月28日

【AI与军事】人工智能浪潮与空中力量的未来

【AI与军事】人工智能浪潮与空中力量的未来

专知

42+阅读 · 2022年4月23日

AI如何促进态势感知？2022美国空军AFRL等「态势感知」万字综述论文，24也pdf阐述智能战场态势感知技术、挑战和前景

AI如何促进态势感知？2022美国空军AFRL等「态势感知」万字综述论文，24也pdf阐述智能战场态势感知技术、挑战和前景

专知

132+阅读 · 2022年3月19日

美空军即将试飞“天空博格人”智能程序，推动人工智能空战应用

美空军即将试飞“天空博格人”智能程序，推动人工智能空战应用

无人机

13+阅读 · 2019年7月24日

【预测性维护】预测性维护是边缘计算与人工智能，在工业落地的最短路径？

【预测性维护】预测性维护是边缘计算与人工智能，在工业落地的最短路径？

产业智能官

14+阅读 · 2019年5月5日

MBSE应用于航空产品研发的适航管理

MBSE应用于航空产品研发的适航管理

科技导报

14+阅读 · 2019年4月26日

人工智能对网络空间安全的影响

人工智能对网络空间安全的影响

走向智能论坛

21+阅读 · 2018年6月7日

【智能制造】见识一下某航空企业的智能制造技术架构！

【智能制造】见识一下某航空企业的智能制造技术架构！

产业智能官

13+阅读 · 2017年12月7日

相关论文

ATCC: Adaptive Concurrency Control for Unforeseen Agentic Transactions

Arxiv

0+阅读 · 3月14日

AgentServe: Algorithm-System Co-Design for Efficient Agentic AI Serving on a Consumer-Grade GPU

Arxiv

0+阅读 · 3月11日

From Secure Agentic AI to Secure Agentic Web: Challenges, Threats, and Future Directions

Arxiv

0+阅读 · 3月2日

MagicAgent: Towards Generalized Agent Planning

Arxiv

0+阅读 · 3月1日

Agentic AI as a Cybersecurity Attack Surface: Threats, Exploits, and Defenses in Runtime Supply Chains

Arxiv

0+阅读 · 2月23日

Defining and Evaluating Physical Safety for Large Language Models

Arxiv

0+阅读 · 2月19日

AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents

Arxiv

1+阅读 · 2月16日

Agentic AI Security: Threats, Defenses, Evaluation, and Open Challenges

Arxiv

0+阅读 · 2月13日

MAPS: A Multilingual Benchmark for Agent Performance and Security

Arxiv

0+阅读 · 2月10日

AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents

Arxiv

0+阅读 · 2月6日

相关基金

面向空中智能交通的大规模飞行航迹处理与分析方法研究

国家自然科学基金

8+阅读 · 2015年12月31日

动态重构综合模块化航空电子系统适航安全性评估方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

运用无人机（UAV）技术搜集工程现场险兆事件减少事故风险

国家自然科学基金

6+阅读 · 2015年12月31日

亚健康理论方法在空管运行安全管理中的应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向踩踏事故防范的运动人群无人机协同航拍及风险演化态势计算

国家自然科学基金

0+阅读 · 2015年12月31日

网络空间安全关键技术研究

国家自然科学基金

20+阅读 · 2015年12月31日

面向航空机场运行信息系统的协同应急响应和弹性灾难恢复方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员