可信智能体AI综述：安全、鲁棒性、隐私与系统安全

导读

大语言模型正在从“回答问题的模型”转向“能规划、能调用工具、能记忆、能长期交互的智能体系统”。这种转变带来更强的自动化能力，也带来更复杂的风险：一次提示注入可能不再只是生成错误文本，而是触发工具调用、泄露敏感数据，甚至在高风险场景中产生真实世界后果。这篇综述《Towards trustworthy agentic AI》围绕可信智能体AI展开，重点聚焦两个最关键维度：安全与鲁棒性，以及隐私与系统安全。论文不是把可信性停留在抽象原则层面，而是沿“感知-规划-行动-反思-学习”的智能体生命周期，系统梳理风险从哪里出现、缓解措施应在哪里介入、评估指标如何覆盖过程与结果。从工程落地角度看，本文的价值在于提供了一套可用于高风险部署的参考框架：既包括阶段对齐的风险分类，也包括度量字典、基准套件、发布关卡、日志轨迹和报告标准。对于正在构建企业智能体、医疗智能体、自动驾驶智能体或带工具调用的大模型应用团队，这篇综述可作为可信智能体系统设计与评估的结构化清单。

Abstract / 摘要

智能体AI系统——由大语言模型增强规划、工具使用、记忆和长周期交互的系统——可以自主执行复杂任务，但其多步轨迹引入了挑战可信性的新失败模式。本综述聚焦于可信智能体AI的两个核心维度——安全与鲁棒性、隐私与系统安全，这两个维度对于高风险部署至关重要。针对每个维度，我们澄清关键概念，识别风险沿智能体工作流出现的位置，并总结分阶段针对性的缓解策略。其他可信方面（价值对齐、透明性、公平性和问责性）作为相关上下文而非平行章节进行讨论。为了支持一致的比较和部署决策，我们将评估统一为一个度量和基准中心，强调结果和过程信号（例如约束违反、轨迹完整性和对抗成功率），并为发布关卡提供场景到度量的指导。最后，我们概述开放挑战，如自进化智能体、运行时监控与验证、隐私保护个性化以及信任-效用权衡，并展示真实世界安全失效案例研究（OpenClaw/Moltbook）。我们的目标是成为在高风险环境中构建可信智能体系统的研究人员和从业者的实用参考。

1 Introduction / 引言

动机

从静态大语言模型到智能体系统的范式转变——后者能够自主规划、工具调用和多步推理——已使其能够部署在关键的现实世界应用中。从自动化复杂软件开发周期到作为医疗和金融服务领域的智能中介，这些智能体利用其与外部环境交互的能力来实现高级目标[1-3]。这种不断增强的自主性将它们从纯粹的生产力工具转变为现代数字基础设施的核心节点。然而，随着基于LLM的助手越来越多地连接到企业数据和工具，故障可以直接转化为对现实世界的影响。例如，Microsoft 365 Copilot中的“零点击”提示注入漏洞（CVE-2025-32711，“EchoLeak”）已被公开报告和修复，暴露出精心构造的不可信输入（如电子邮件）可能在无显式用户交互的情况下触发意外行为并导致敏感数据泄露[4,5]。更广泛地，先前工作表明，间接提示注入模糊了LLM集成应用中数据和指令之间的界限，允许从网络或文档中检索的受攻击者控制的内容劫持使用工具的系统，导致数据泄露或意外行为[6-8]。这些事件强调，智能体AI的“可信性”必须在系统层面进行评估，超越单轮输出。在此背景下，大语言模型已迅速从纯文本生成器演变为能够在世界中行动的系统。现代“智能体AI”通过规划、工具使用（如网页浏览、API和代码执行）、记忆和长周期交互来增强LLM，使其能够将复杂目标分解为可执行步骤，并根据反馈迭代地优化行为[9]。代表性系统表明，此类智能体可以自主探索环境并持续获取技能（例如通过终身交互和自改进循环）[10-12]。这种从静态单轮模型到自主或半自主智能体的转变是一次能力飞跃，但也引入了性质上新的风险。与传统预测模型或聊天式LLM不同，智能体系统产生多步轨迹，其中间状态（计划、工具调用、检索到的证据和记忆更新）可以直接影响现实世界结果。轨迹早期的微小错误可能级联为高影响行动，智能体与工具的交互扩大了攻击面（提示注入、工具滥用和数据泄露），超出了传统LLM安全评估的范围。此外，智能体越来越多地在人类监督是间歇性而非持续性的场景中运行，这引发了关于智能体行为的问责性、可审计性和可中断性的基本问题[13,14]。随着智能体自主性的增长，“可信性”必须不仅通过最终输出来评估，还要通过过程信号来评估，如约束合规性、轨迹证据以及对抗性和长周期压力下的鲁棒性。同时，可信性本身不是一个单一属性。它跨越多个相互交互的维度：增强记忆可以提高有效性，但可能增加隐私风险；增加保障措施可以减少灾难性失败，但可能降低效用或增加成本；解释界面可以提高可审计性，但如果解释不可信，也可能过度增加信任。这些张力促使我们进行一项综述，将可信智能体AI视为一个系统级问题而非仅模型问题，并使评估在维度和部署场景之间具有可比性。

范围与视角

我们关注基于LLM的智能体系统，这些系统（i）跨扩展时域进行规划，（ii）使用外部工具和环境，（iii）可能包含记忆、自我反思或多智能体交互。为了结构化讨论，我们采用智能体工作流视角——感知→规划→行动→反思→学习——来精确定位风险产生的位置以及缓解措施介入的点。此工作流并非严格的架构要求；相反，它为跨不同智能体设计的威胁、防御和评估信号映射提供了一个一致接口。

与基于聊天的系统风险的关系

本综述中讨论的许多信任和安全问题——如有害内容生成、欺骗性输出或不适当建议——也在非智能体、基于聊天的LLM系统中出现。我们不排除这些基础风险；相反，我们强调智能体自主性以性质上新的方式放大并扩展了它们。例如，针对聊天系统的提示注入攻击可能产生误导性文本，但针对使用工具的智能体的相同攻击可能触发未经授权的代码执行、数据泄露或不可逆的现实世界行动。类似地，聊天环境中的有害说服受限于对话，而具有工具访问权限的智能体可以跨多步骤轨迹自主地对这种说服采取行动。因此，我们调查的风险和缓解措施并非智能体系统独有，但当智能体以现实世界能力运行时，其严重性、攻击面和级联潜力要大得多[15]。在适用的情况下，我们会注明风险或方法是否也适用于非智能体LLM部署。

说明性而非穷尽性范围

鉴于智能体AI的快速演变性质，本综述中讨论的风险和缓解方法应被理解为反映当前知识状态的说明性示例，而非可证明的穷尽枚举。随着智能体架构、工具生态系统和部署场景的持续演变，新的风险和解决方案方法很可能出现。在可能的情况下，我们会注意当前理解的边界，并指出覆盖仍不完整的方向。

与现有综述的比较

先前综述调查了通用AI系统的可信AI原则和要求（如[16]）以及大语言模型的可信性评估（如[17,18]）。近期工作开始关注基于LLM的智能体和多智能体系统的信任/安全问题（如[19,20]），或提供智能体AI的架构/应用中心概览（如[21,22]）。相比之下，本综述整合了多维信任分类与工作流视角，并进一步整合了过程感知评估和基于场景的发布关卡（表1）。 表1 • 与可信AI/大语言模型/智能体领域代表性相关综述的比较。

综述	范围	MDT	WL	EH	RG
[16]	通用TAI	✓	−	∼	−
[17]	可信LLM	✓	−	∼	−
[18]	LLM基准	✓	−	✓	−
[19]	LLM智能体/MAS	∼	∼	∼	−
[20]	LM和智能体（安全）	∼	−	✓	−
[21]	智能体AI（架构）	∼	∼	−	−
[22]	工具学习智能体	∼	∼	∼	−
本综述	可信智能体AI	✓	✓	✓	✓
列缩写：MDT：多维信任分类；WL：工作流视角（感知-规划-行动-反思-学习）；EH：评估中心（整合的度量和基准）；RG：发布关卡（场景到度量的指导）。符号：✓：明确主要关注；∼：部分覆盖；−：非主要关注。

贡献

我们的主要贡献如下：

聚焦性审视两个核心可信维度。我们重点关注安全与鲁棒性以及隐私与系统安全——这两个维度对于高风险智能体AI部署尤为关键。其他可信方面（价值对齐、透明性、公平性和问责性）作为相关上下文而非平行章节进行讨论。
沿智能体工作流的风险到方法映射。针对每个核心维度，我们提供一致的定义→风险→方法结构，说明失败在智能体生命周期中可能发生的位置，并总结代表性的阶段定向缓解措施（例如约束优化、红队测试、运行时屏蔽和沙箱化）。这些映射旨在说明当前格局而非穷尽。
评估度量与基准的整合中心。由于评估内容通常分散在不同子领域，我们将跨维度度量和代表性基准系列整合到第4节。我们强调结果度量（如成功率和灾难性风险）和过程度量（如约束违反率和轨迹覆盖率），并为高风险场景下的实际发布关卡提供场景到度量的指导。
开放挑战与解决方案。我们识别研究前沿，如概念漂移下的自进化智能体、罕见事件和交互场景的验证和运行时监控、隐私保护个性化以及信任-效用权衡。

论文结构

图1：论文结构与阅读指南。综述从动机和预备知识出发，进入安全与鲁棒性、隐私与系统安全两大核心维度，再汇总评估度量与基准，最后讨论挑战与解决方案。图1说明了整体结构并提供了阅读指南。本综述分为四个主要部分：

预备知识（第2节）：定义智能体AI及其沿五阶段工作流（感知-规划-行动-反思-学习；系统架构见图2）的组成部分，回顾与可信训练相关的强化学习和偏好优化基础，并概述构成后续讨论基础的攻击面和保证栈。
核心维度（第3节）：审视两个核心可信维度——安全与鲁棒性以及隐私与系统安全——每个维度遵循一致的定义→风险→方法结构，与智能体生命周期对齐（阶段特定缓解方法和关键参考文献的层次分类见图3）。
评估中心（第4节）：将度量、基准系列、发布关卡场景到度量映射以及推荐的评估流程和报告标准整合为统一参考。
挑战与结论（第6节）：讨论开放挑战（自进化智能体、监控、个性化和信任-效用权衡），并展示开源智能体系统中安全失效的案例研究（OpenClaw/Moltbook）。

图1 • 论文结构与阅读指南。综述从动机和智能体AI预备知识开始（第1和2节），然后以一致的定义→风险→方法结构呈现两个核心可信维度——安全与鲁棒性以及隐私与系统安全（第3节）。评估度量整合了过程和结果层面的评估（第4节）。挑战与解决方案总结综述（第6节）。灰色框表示引言和结论部分；紫色框表示预备知识；绿色框表示核心维度；黄色框表示评估中心。实线箭头表示主要阅读流程；虚线箭头表示维度和评估之间的依赖关系。

2 Preliminaries / 预备知识

智能体：定义、组件与工作流

# 定义

我们将智能体AI定义为一个具有持久目标、能够感知环境、进行多步规划、通过工具或执行器作用于外部系统、在显式人类监督、隐私/安全策略和操作约束下反思结果并调整内部状态的AI系统。此观点遵循AI和RL中的经典智能体视角[23-25]，并在近年基于LLM的智能体中实例化，这些智能体交替进行推理和行动[26,27]。与单轮LLM响应器不同，智能体系统闭环连接观察和后果，这凸显了安全与鲁棒性以及隐私与系统安全（问责性作为支持性关注），并激发了过程感知评估和可审计性。

# 核心组件

一个最小、实现无关的栈包括以下内容（每项注明信任相关性）：

任务和约束规范（目标G，约束K） 形式化目标、硬/软约束（安全、隐私、安全）和预算B；锚定治理和安全/隐私设计[23,28]。
感知从观测o_t和知识访问（RAG、函数调用）中估计状态s_t，包含输入验证[24,29]。
世界模型/模拟器 用于后果预测和反事实测试的预测模型[30]。
策略与规划（层次） 目标分解和多级控制，链接抽象计划到可执行行动[26,31]。
价值/奖励模型 任务回报、偏好和规范信号（细节推迟到第2.2节）。
记忆短期上下文和长期情节/语义存储，用于连续性和信用分配，包含敏感数据的保留、访问控制和最小化策略[10,27]。
工具和执行器 API/系统/机器人调用，通过最小特权权限、凭据/密钥作用域和执行沙箱中介[32]。
运行时保障 异常监控器、安全约束检查器、安全策略执行（如工具权限、DLP/编校钩子）以及用于执行前/执行后保障的回滚钩子[28]。
人在回路接口 警报、批准和接管通道，定义角色和升级策略[28]。
遥测和审计日志 版本化轨迹，用于可复现性、事后分析和问责性，包含隐私感知日志记录（必要时编校/PII最小化）[28]。

# 感知→规划→行动→反思→学习

图2：智能体AI系统架构。目标、约束和预算由人类监督输入，智能体在感知、规划、行动、反思与学习之间闭环运行，并通过验证、保障、诊断和日志记录等钩子控制风险。智能体循环包含五个重复阶段（见图2，表2和3）：（1）感知——摄入观测和外部知识，量化不确定性并检测OOD输入[24,29]。（2）规划——生成和评估受约束/预算限制的多步计划，可选通过基于模型的滚动或滚动时域控制[30,33]。（3）行动——执行工具/API/执行器调用；执行前/后检查强制约束、工具权限和数据处理策略，并捕获轨迹[32]。（4）反思——自我评估结果，检测错误和目标/价值冲突，并在置信度下降时安排人类确认[27,34]。（5）学习——离线/在线更新策略、价值、记忆和检索索引，采用安全更新规则和敏感数据的保留/过期策略（第2.2节）[10,25]。此循环在每个边界处暴露保障钩子（验证、确认、保障、诊断和日志记录），这些钩子与第4节的统一评估框架集成。 图2 • 智能体AI系统架构。智能体从人类监督接收目标（G）、约束（K）和预算（B）。环境发出当前状态（s_t）到感知，产生观测（o_t）传递给规划。规划为行动选择行动（a_t），行动调用工具并接收结果和奖励（r_t），反馈给反思和学习（第4和第5阶段）。世界模型通过模拟候选计划并返回预测结果来支持规划。记忆跨阶段存储和回忆情节/语义上下文。虚线表示数据流；实线表示主要控制流。红色标签表示保障钩子——风险缓解的控制点（定义于表2）。 表2 • 智能体工作流中的保障钩子（对应图2中的红色标签）

钩子	阶段	机制/控制类型
验证	感知	输入过滤器（越狱检测），RAG引文检查
确认	规划	计划针对约束（K）的逻辑/形式化验证
保障	行动	运行时屏蔽，权限门，工具沙箱化
诊断	反思	异常检测（OOD/漂移），价值对齐检查
日志记录	所有	防篡改轨迹，用于审计和问责性
表3 • 第2节使用的术语和符号

符号	术语	含义/示例
s_t	状态	时间t的潜在环境条件
o_t	观测	用于推断s_t的传感器/IO证据
a_t	行动	工具/API/执行器调用
r_t	奖励/价值	任务回报或偏好信号
τ	轨迹	序列（o_0:T, a_0:T−1, r_0:T−1）
G	目标/指令	任务规范或目标描述
K	约束	硬/软限制（安全、策略、伦理）
B	预算	令牌/延迟/金钱/能量的限制

# 智能体与单轮大语言模型的区别

单轮LLM既不维持持久目标，也不直接对外部系统行动。智能体AI增加了（i）具有副作用的长周期决策，（ii）具有权限和预算的工具中介干预，（iii）显式不确定性处理和恢复，（iv）可审计的操作证据，（v）通过必须受到保护的记忆和工具凭据扩展的隐私/安全暴露（第3.2节）[26,32,35]。这些差异促使在本预备知识部分标准化组件和工作流。

智能体的强化学习基础与偏好优化

# 形式化：马尔可夫决策过程与部分可观测马尔可夫决策过程

我们将单智能体智能体决策建模为马尔科夫决策过程，定义为元组M = (S, A, P, r, γ)，其中S是状态空间，A是行动空间，P(s′ | s, a)是状态转移函数，r(s, a)是奖励函数，γ ∈ [0, 1)是折扣因子，控制即时和未来奖励之间的权衡。智能体的目标是找到一个最大化期望折扣回报的策略π：J(π) = E_π [Σ γ^t r(s_t, a_t)]。当完整状态不可直接访问时（在现实世界智能体部署中常见），我们扩展到部分可观察MDP (S, A, P, r, γ, O, Z)，其中O是观测空间，Z(o | s, a)是发射（观测）函数，指定给定状态s和行动a后收到观测o的概率。智能体随后维持信念状态并在不确定性下进行规划[24,25,36]。此形式化主要适用于使用强化学习训练或微调的智能体。虽然一些智能体系统仅依赖基于提示或上下文推理，但本小节关注基于RL的智能体，因为RL提供了在不确定性和约束满足下进行长周期优化的数学基础——这两者都是可信性的核心。 多智能体设置。当多个智能体交互时，单智能体MDP形式化不再足够；适当的模型是马尔科夫博弈（也称为随机博弈），它使用联合行动空间和智能体特定奖励函数扩展了MDP[37]。我们在相关处讨论多智能体可信性风险（如第3.1和3.2节），但注意多智能体RL的形式化处理超出了本综述的范围。

# 训练家族及其信任含义

不同RL范式为可信性提供了不同的优势和风险：

基于价值和演员-评论家方法 标准在策略（PPO [38]）和离策略（SAC, DQN [39]）算法提供渐近最优性，但容易受到奖励黑客攻击——以不安全方式利用未指定的目标。从信任角度看，它们需要严格的奖励塑造和约束满足以确保探索阶段的安全。
离线RL 通过仅从静态数据集（记录的轨迹）学习[40,41]，离线RL消除了在线探索的物理风险，使其成为安全关键领域（如医疗保健或工业控制）的理想选择。然而，它引入了分布偏移风险：如果部署环境与训练数据覆盖略有偏离，智能体可能行为不可预测。
层次RL（HRL） 将任务分解为高层目标（选项）和低层控制[31,42]直接支持可解释性和人类监督。人类操作员可以在高层目标设置（如“导航到房间A”）处审计或干预，无需解析低层运动命令，与智能体架构的目标（G）和规划组件良好对齐。
基于模型的RL（MBRL）和MPC 学习显式世界模型（动力学模型）[43,44]使前瞻性规划和反事实推理成为可能，允许智能体在执行前模拟行动的后果。这为运行时安全检查提供了自然机制（如拒绝不安全轨迹），尽管信任随后取决于所学模型在OOD状态下的校准和鲁棒性。

# 安全强化学习作为约束决策

安全可以通过约束MDP形式化[45]，优化max_π J(π) s.t. J_ci(π) ≤ d_i，采用拉格朗日或原对偶更新（如约束策略优化[46]），并由运行时监控器和验证/屏蔽补充[47,48]。在实践中，训练时保证减少违规频率，而运行时保障捕获残余风险。

# 偏好/对齐优化

为了将目标与人类或规范信号对齐，现代智能体使用基于偏好的训练：基于人类反馈的强化学习将来自比较的学习奖励与策略优化结合[49-52]。RLAIF用AI反馈和宪法规则取代人类标签[53]。近期工作还探索了通过多目标RL的价值对齐[54]、将伦理约束嵌入RL环境[55]以及为价值对齐行为编码规范[56]。除了基于RL的流程，直接偏好优化（DPO和相关PO方法）直接针对偏好数据优化策略，无需显式奖励模型[57,58]。这些方法在稳定性、样本效率和泛化性之间权衡；开放问题包括偏好漂移、规范冲突和评估保真度[59]。本综述中，我们将RLHF/RLAIF和直接PO变体统一为偏好优化家族；不同的实现（如DPO或KTO风格目标）可以插入感知-规划-行动-反思-学习循环（第2.1节）并使用第4节进行评估。

# 要点

RL为长周期、不确定性、工具中介行为提供了数学基础；偏好优化提供了将能力转变为可信能力的规范信号。在高风险部署中，这种能力必须与风险控制耦合：安全和鲁棒性（第3.1节）的约束/风险感知学习，以及从日志、记忆或工具轨迹学习时的隐私/安全感知数据处理（第3.2节）。

智能体的可信性风险面与保证栈

# 风险面与威胁模型

我们通过具体的威胁行动者和失效模式来形式化风险面，这些推动我们的核心可信维度。

安全威胁模型（攻击者和目标） 安全风险源于针对保密性、完整性或可用性的对抗性行动者。
攻击者画像 （i）恶意用户（越狱、提示注入）；（ii）外部网络/环境（通过检索的间接注入）；（iii）供应链（受损工具/模型）；（iv）内部人员（未经授权的管理员访问）。
能力范围从黑盒（仅提示访问）到白盒（部署基础设施访问）。
安全失效模式（意外伤害） 安全风险源于系统故障或泛化失败，即使没有恶意。
规范错误 奖励黑客、不安全副作用或代理博弈（如过度优化）。
分布偏移 OOD输入上的感知/规划失败。
累积错误 早期步骤的小变化累积成不安全轨迹（蝴蝶效应）。
工具控制失败 无法停止或撤销不安全的工具执行（如批量文件删除）。
灾难性事件定义 任何超过定义严重性阈值的不可逆伤害（物理、财务、声誉）（与第4节中的CER对齐）。

# 保证栈（训练前、训练中、训练后和运行时）

可信部署需要分层保证机制，覆盖智能体系统的完整生命周期。没有单一层是单独足够的：每个层处理不同类别的失败，并补偿其他层的缺口，形成防御深度栈，包含四个互补层级。

事前保证（部署前） 建立智能体预期运行的安全包络。包括形式化需求与危害分析、数据和环境设计、红队测试、静态检查以及模拟认证（包括域随机化）[60,61]。这些工作产生威胁模型、操作约束和测试套件，锚定所有后续层级。
训练时保证 将安全直接嵌入学习过程：约束和安全RL与鲁棒目标减少约束违规的频率[45-47]，而偏好优化将智能体与人类或规范信号对齐（第2.2节）。训练时方法可以降低不安全行为的基线率，但无法预见所有部署条件——这促使下一层级。
运行时保证 提供下一道防线，捕获逃逸训练时边界的残余风险。机制包括验证和屏蔽、最小特权工具访问、异常检测、回滚和分阶段部署策略（影子和金丝雀发布）[28,48]。运行时控制对于智能体系统尤为重要，因为工具中介行动可能产生不可逆的现实世界后果。
事后保证 闭合反馈循环：结构化遥测、可复现轨迹和失效分析支持问责性并推动持续改进[28]。事后证据还反馈到事前层级（更新威胁模型和回归套件），创建保证精化的良性循环。

此分层保证栈将感知-规划-行动-反思-学习循环连接到第4节的统一评估框架，其中度量和压力测试在每一层操作化残余风险预算。

# 过渡到我们的两个核心维度

上述风险面直接推动本综述的两个核心可信维度：安全与鲁棒性（第3.1节） 处理跨感知-规划-行动-反思-学习的伤害预防和不确定性下的可靠性，而隐私与系统安全（第3.2节） 处理敏感数据（输入、记忆、轨迹）的保护以及智能体执行环境（工具、凭据和协议）的完整性。其他方面（如问责性）仍然重要，但被视为塑造评估和治理而非第3节中独立维度的支持性关注。

3 Core dimensions of trustworthiness / 可信性的核心维度

图3：可信智能体AI的层级分类。论文将可信性聚焦为安全与鲁棒性、隐私与系统安全两条主线，并把每条主线进一步映射到感知、规划、行动、反思、学习等生命周期阶段。在本节中，我们关注对于高风险智能体AI部署最为关键的两个核心维度（图3提供了概述）：安全与鲁棒性（第3.1节） 和隐私与系统安全（第3.2节）。这些维度解决了高风险场景中可信智能体操作的基本需求：（1）在扰动下防止不可接受的伤害并维持可靠性能，（2）保护敏感信息并保护智能体执行环境免受攻击。其他可信方面——价值对齐、透明性、公平性和问责性——是重要的补充性关注，与安全和安全紧密交互。虽然这些维度的全面处理超出了本聚焦综述的范围，但我们会在核心讨论中和评估度量（第4节）中适当注明其相关性。在每个小节中，我们采用一致的结构——定义（该维度对智能体意味着什么）、风险（沿智能体工作流失败产生的位置）和方法（阶段定向缓解措施）——以形成跨维度的稳定“风险→缓解”映射。如引言中所述，映射到每个阶段的具体风险和缓解措施是对当前文献的说明而非可证明的穷尽枚举；随着智能体架构和部署场景的演变，新的失效模式和缓解措施预计会出现。为避免碎片化讨论，我们将第3节中的所有评估度量和代表性基准系列整合到第4节。 图3 • 可信智能体AI的层次分类，沿两个核心可信维度组织：安全与鲁棒性以及隐私与系统安全。每个维度根据五阶段智能体生命周期（感知→规划→行动→反思→学习）进行分解。安全与鲁棒性维度还包括多智能体和长周期分支，这些分支处理单智能体、单回合设置之外的紧急协调风险和累积错误（见第3.1.2-3.1.3节）。紫色节点表示安全与鲁棒性缓解措施；红色节点表示隐私与系统安全缓解措施；灰色根节点表示上层可信智能体AI概念。叶节点列出代表性缓解方法，按与第3节文本一致的顺序排列。缩写：OOD, 分布外；DRO, 分布鲁棒优化；CMDPs, 约束马尔科夫决策过程；CPO, 约束策略优化；CVaR, 条件风险价值；HITL, 人在回路；DLP, 数据丢失防护；SBOMs, 软件物料清单。

安全与鲁棒性

本节介绍AI安全与鲁棒性的关键定义，审视智能体工作流每个阶段（感知、规划、行动、反思和学习）产生的风险，并回顾解决这些风险的阶段对齐缓解方法。

# 定义

在智能体AI中，安全与鲁棒性相关但不同。下面我们分别提供其定义。关于术语的说明：Lin等人[85]形式化了AI安全与AI安全之间的区别，我们在下文中采用其定义。我们的综述将安全与鲁棒性（第3.1节）分组，将安全与隐私（第3.2节）分组，因为从缓解角度看，安全和鲁棒性共享防御机制（约束执行、分布硬化），而安全和隐私共享控制（访问策略、加密和监控）。这种组织选择补充了Lin等人[85]的安全与安全分类。 AI安全定义为“AI系统避免在输入、目标、训练数据或部署条件存在不确定性的情况下，对个体、环境或制度造成非预期有害结果的属性”[85]。其目的是通过确保智能体系统遵守指定约束、伦理和规范来防止非故意伤害（如事故、失调）[86]。这与解决蓄意威胁的安全形成对比。安全关注避免灾难性结果[87]并在高风险部署中满足硬约束，例如防止自动驾驶中的碰撞[88]或临床决策支持中的有害推荐[89]。在经典AI安全框架中，许多安全失效源于事故而非显式恶意意图：（i）规范问题（目标或约束不匹配人类意图），（ii）鲁棒性问题（能力在偏移下失败），（iii）可规模监督（人类无法可靠评估长周期行为），（iv）安全探索（学习阶段试错触发伤害）。智能体AI放大了这些问题，因为安全是一个系统属性：即使基础模型对齐良好，不安全行为也可能从工具接口、记忆、检索和多步控制循环中产生。 鲁棒性关注在扰动、对抗干扰和分布偏移下维持稳定性能[90,91]。简言之，安全关乎不造成伤害，而鲁棒性关乎在非理想条件下保持可靠。一个关键细微差别是鲁棒性通常对于安全是必要但不充分的。一个智能体可能鲁棒地胜任，同时由于规范博弈（优化字面目标而违反意图）[92]或目标错误泛化（能力泛化OOD但目标不泛化）[93]而追求非预期目标。反之，没有对噪声观测、工具故障和分布漂移的鲁棒性，安全规范仍可能操作失败。鲁棒性本身有多种形式。分布鲁棒性针对自然偏移（如域、人口统计和环境）并寻求一致的最差群体或最差切片性能（如DRO/group DRO目标）[65]。对抗鲁棒性针对由攻击者精心构造的策略扰动（如提示注入、多模态对抗示例）[94,95]。对于部署在开放环境中的智能体系统，两者都是必需的：分布偏移造成静默失败，而对抗偏移造成定向利用。

# 风险

感知：毒化和对抗扰动

在输入边界，智能体暴露于数据毒化[96]和对抗扰动[94]。检索到的文档、提示或多模态观测可能包含欺骗性内容或隐藏指令，扭曲状态估计并将下游决策导向不安全行为。除了直接扰动，智能体系统面临指令-数据边界混淆：间接提示注入可以将工具指令嵌入“良性”网页、电子邮件或PDF中，导致智能体将不可信内容视为更高优先级的指令[5,6]。另一个风险是传感器/观测欺骗（如操纵的UI元素、视觉对抗补丁或误导性接口状态），将感知偏向不安全代价。这些感知级失败经常级联：受损观测导致无效计划，进而驱动高影响工具行动；结果可能进一步污染记忆和反思信号，使后期阶段更正更加困难。 规划：OOD泛化和脆弱启发式

在分布外（OOD）上下文中，智能体可能从熟悉的启发式过度泛化，产生看似可行但不安全、无效或不合规的计划。此类失败难以早期检测，因为规划轨迹可能在关键假设不再成立时仍显得连贯[91]。规划还继承了规范风险：在未充分指定目标下，智能体可能产生满足代理度量但违反意图的计划（规范博弈）[92]。一个相关失效模式是目标错误泛化，即规划保持胜任但在新上下文中优化错误目标[93]。规划还受到世界模型或工具模拟器中未校准不确定性和建模错误的影响，产生脆弱的“快乐路径”策略，缺乏良好的意外处理。这些规划错误级联到执行：当智能体早期就承诺于一个有缺陷的计划时，后期阶段可能合理化或固化它（反思），而重复的成功捷径在学习过程中可能被强化。 行动：高影响执行和级联失败

在执行过程中，上游错误通过危险工具使用（财务损失、隐私违规和服务中断）[97]或与用户的有害交互被放大为现实世界副作用。即使计划正确，传感器/工具故障也可能向反馈引入噪声或偏差；受损结果随后跨步骤传播并累积为严重偏差[98]。执行增加了不可逆性和人为因素风险。例如，驾驶中的部分自动化与涉及系统限制、驾驶员过度依赖和不足参与监控的失败相关，正如对Autopilot相关碰撞的调查所记录[99,100]。在使用工具的智能体中，工具链式调用可将单一错误步骤转变为一系列有害动作（例如，提示注入指令触发凭据泄露，然后发起未经授权的交易）[6,97]。行动级失败也毒化下游阶段：坏结果成为反思和学习中使用的“证据”，增加系统性漂移而非一次性错误的可能性。 反思：不安全自我评估和错过警告

如果反思机制未能检测到风险信号（如不确定性、策略违规和异常工具输出），智能体可能在不安全状态下继续推进[101,102]。过度自信和不完整的轨迹证据进一步减少及时干预的机会。反思也容易受到欺骗性合理化和评估者欺骗：智能体可能产生合理的后验解释，隐藏因果失败，或产生满足自动判断者而不改善真正安全的输出（反思的奖励黑客类比）。当反思使用与行动者相同的基础模型时，相关错误可能创建“闭环”，其中错误信念被反复自我确认。如果轨迹本身不完整（缺失工具日志、截断上下文或不可信记忆），反思可能错过早期警告并允许不安全的计划持续到后续回合，学习进一步放大它们。 学习：放大风险的反馈循环

当更新由有偏或噪声反馈驱动时，智能体可能强化在短期成功但增加长期伤害的不安全捷径[103]。此现象表现为奖励黑客，其中测量奖励继续增加，同时激励智能体违反安全约束的副作用被协同放大[104]。学习阶段风险还包括安全回归和能力-约束不平衡：对提示、记忆、工具或策略的更新可能无意中移除先前有效的安全行为（安全约束的灾难性遗忘），同时保留或增加行动能力。来自部署日志的在线或持续学习可能将新的对抗模式（如越狱提示、恶意网络内容）导入训练分布，实际上“教导”智能体不安全策略。这些学习失败闭合级联：一旦不安全行为被内化，早期阶段防御（输入过滤、运行时检查）必须更加努力，事故恢复成本更高。 多智能体：紧急危险和对抗协调

在多智能体设置中，安全失效可能从协调动态而非单智能体错误中涌现：智能体可能共谋绕过约束、通过相互强化放大错误信息、或通过竞争均衡触发负外部性（例如通过不协调工具调用的资源耗尽或拒绝服务）[75,105]。通信通道也创建新的攻击面（例如，一个受损智能体将注入指令中继给其他智能体），将局部感知攻击转变为系统范围的行动级联。 长周期：累积错误、延迟副作用和价值漂移

长周期轨迹放大小错误：微小的感知噪声或规划未校准可在多步后累积为严重偏离，而伤害可能延迟且难以归因（例如逐渐的财务损失、缓慢的策略违规或微妙的安全边界侵蚀）[71]。长周期智能体还面临状态性风险（记忆累积、陈旧目标和上下文截断），其中过时假设持续存在并污染后续规划和学习的。

# 方法

缓解措施应沿感知→规划→行动→反思→学习生命周期进行阶段对齐。 感知：鲁棒性训练和OOD检测

数据增强通过扰动、歧义、攻击和边界案例扩展训练覆盖[62,105-109]。对抗训练使智能体对不断演变的攻击（从提示级操纵到自适应策略）更加鲁棒[63,95,110-112]。在部署时，OOD检测标记已验证区域之外的上下文，并触发保守后备策略（如只读模式或人类批准）[64]。智能体系统中的感知硬化还受益于输入来源和清理，强制严格分离可信系统提示和不可信检索内容，在检索文本中剥离或隔离可疑指令，并在信息进入记忆或规划之前应用策略感知内容过滤器[5,7]。对于分布偏移，分布鲁棒目标（如group DRO）可以改善最差切片可靠性，但代价是平均案例效用和额外的调整复杂性[65]。最后，不确定性感知感知（集成、选择性预测和校准置信度）启用“失败关闭”行为，但由于更频繁的弃权可能增加延迟并降低自主性。 规划：安全的约束优化

规划阶段安全通常通过约束决策（如CMDPs）进行建模[45]。安全RL平衡回报最大化与风险避免[67,113]，使用约束策略优化如CPO[46]。风险敏感目标（如CVaR）进一步强调规划优化中灾难性尾部风险的降低[114,115]。对于LLM规划器，一个互补方向是自然语言中的约束规范和强制：宪法或基于规则的约束将规范转化为可重用的批评-修正程序，提高合规性而无需枚举所有不安全行动[66]。然而，约束在误指定下可能被博弈；因此，规范感知规划（例如将奖励解释为不确定并保守规划）有助于减轻奖励黑客和负面副作用[61,116]。在实践中，更安全的规划通常混合（i）滚动时域/MPC风格重新规划，（ii）子目标验证（可检查的中间约束），（iii）风险预算（对工具调用、成本或暴露的显式限制）。这些方法通常以自主性和最优性换取可预测性和更紧密的安全边际，并可能需要更强的世界模型或模拟器才能有效。 行动：运行时强制和屏蔽

执行时保障措施防止不安全计划成为高影响行动。屏蔽和监督控制器可以在与环境或工具交互期间阻止或重定向不安全行动[48,117,118]。在使用工具的设置中，这通常结合执行前检查（权限、预算和策略合规性）与执行后验证和回滚钩子。现代智能体部署越来越多地采用守卫作为分层运行时栈：（i）最小特权工具访问（作用域凭据、每工具权限和花费上限），（ii）沙箱化和事务性（干运行、分阶段执行和补偿行动），（iii）针对输入和生成工具参数的内容过滤[68,98]。人在回路监督（不可逆行动的批准门、异常时的升级）是高风险设置中的实用安全控制[28]，但增加了成本并降低了响应速度。一个反复出现的权衡是效用与可强制性的关系：更严格的运行时策略降低灾难性风险，但可能阻塞良性边界案例，这推动在不确定性或怀疑攻击下收紧的自适应策略。 反思：通过模拟和形式化检查确认

为了减少静默失败，智能体（或其操作员）可以在受控环境中通过基于模拟的测试来确认计划和预期结果，特别是对于长周期行为和罕见事件[69]。形式化验证可以在显式假设下认证良好指定的组件[70,119-122]，尽管LLM智能体的端到端验证由于概率生成而仍然具有挑战性[123,124]。反思通过对抗性评估和红队测试得到加强：自动提示攻击、工具滥用套件和策略违规基准可以集成到持续集成流程中，在部署前捕获回归[63,117]。对于智能体系统，轨迹审计（不可变工具日志、检索证据的来源和行动序列上的异常检测器）有助于反击评估者欺骗并支持事后取证。主要限制是覆盖范围：模拟和红队测试无法完全枚举开放世界上下文，因此反思检查应与保守运行时监控器配对，当检测到新危险时触发回滚、安全模式或人类审查。 学习：带有回归关卡的安全更新

学习阶段安全需要谨慎更新：维护从压力失败和事故构建的回归包，持续监控关键安全/违规指标，并通过关卡防止由模型、提示、记忆或工具策略更新引入的回归[71,72]。在部署中，具有自动接受/回滚标准的分阶段发布（如影子/金丝雀）提供了在真实流量下验证更新而不放大不安全行为的实际机制[73]。当从记录交互学习策略更新时，保守安全策略改进提供了一种在不确定性下避免基线策略退化的有原则方法[74]。对于智能体系统，“学习”通常包括非参数更新（提示模板、工具模式、记忆策略和检索语料库）。安全学习因此需要版本化产物和事故驱动数据集：将失败案例（提示注入、越狱、工具故障）添加到回归套件并相应重新训练/重新调整防御[97,110]。当在线适应必要时，安全探索和保守更新减少了高成本试验的概率[61,67]。权衡是迭代速度较慢：更强的把关和保守改进减少伤害但可能延迟有益能力更新，推动风险分层发布过程（对高影响工具更严格，对只读助手更宽松）。 多智能体：协调约束和系统级监督

多智能体安全受益于协议级约束：限制消息格式、认证智能体身份、并在智能体间通信上强制共享安全策略，以防止注入指令的传播。在系统级，集中监督（一个监控器或“管理者”，执行全局预算、冲突检查和停止条件）有助于防止涌现级联，如冗余工具调用和资源耗尽。然而，更强的协调控制可能降低并行性和自主性，并可能引入单点故障；实际设计通常混合去中心化性能与集中式“断路器”用于安全。 长周期：检查点、风险预算和层次保证

长周期安全通过层次分解（计划作为可验证子目标）、定期检查点（要求重新验证假设）和风险预算（跨步骤限制累积暴露，如工具调用次数、花费、外部写入）得到改善。滚动时域重新规划减少累积错误，而显式停止/中断策略在不确定性增长时防止失控执行。这些方法增加监控开销并可能需要更丰富的状态跟踪，但它们直接针对使智能体安全独特具有挑战性的长周期级联。 深度防御：互补而非替代

上述缓解措施旨在作为深度防御策略中的互补层，而非设计师可选择替代的。感知阶段的毒化攻击无法单独通过行动时的守卫或屏蔽完全中和；反之，即使鲁棒的感知也不能消除规划约束或运行时强制的需求。在实践中，可信智能体部署需要同时保护大部分或所有阶段，因为任何单点失败都可能通过剩余流程级联。每一层处理不同的失效模式，并为其他层的缺口提供残余覆盖。表4总结了代表性的阶段对齐缓解措施及其个体权衡；“局限”列应被解读为激励其他阶段的保护而非省略某个层的理由。跨领域控制（日志记录、来源、红队测试和HITL升级）在端到端集成时最为有效，而非作为孤立的补丁。 表4 • 智能体系统的阶段对齐安全和鲁棒性缓解措施（非穷尽）

阶段	代表性技术	主要益处	主要局限/权衡
感知	增强、对抗训练、来源/清理、OOD检测、DRO目标	减少攻击/漂移敏感性；启用弃权或安全模式	覆盖缺口；计算/延迟；可能降低平均性能
规划	CMDPs/CPO、CVaR、宪法约束、保守规划、安全探索	在显式安全约束下优化；减少尾部风险	需要可形式化约束；可能过于保守
行动	屏蔽、守卫、最小特权工具、沙箱化、事务执行、HITL批准	即使有缺陷计划也防止高影响失败	降低自主性；误报；操作开销
反思	模拟、红队测试、轨迹审计、组件形式化检查	检测静默失败；支持调试和回归测试	覆盖不完整；模拟器/验证器中脆弱的假设
学习	回归把关、金丝雀发布、保守改进、事故驱动更新	随时间防止安全回归和漂移	迭代较慢；监控和数据集维护成本
多智能体	通信约束、认证、集中管理者、全局预算	控制涌现级联和共谋路径	协调开销；潜在单点故障
长周期	检查点、风险预算、滚动时域重新规划、可中断性	限制累积错误和延迟副作用	更频繁的干预；增加的监控需求

隐私与系统安全

本节定义智能体AI背景下的隐私与系统安全，识别智能体工作流中的关键风险——包括数据泄露、工具中介泄露和供应链漏洞——并审视阶段定向缓解策略。

# 定义

遵循近期分析[77,79,125-129]，我们将智能体AI中的隐私定义为保护任何用户或环境派生信息，这些信息（i）直接识别个体（如姓名、联系信息），（ii）支持敏感属性推断（如人口统计、偏好或行为模式），（iii）可通过智能体的内部表示、记忆、工具输出或交互轨迹被重建/重复。关键是，隐私风险扩展超越记忆化到基于推断的泄露、长周期交互中的累积、工具执行期间的非预期泄露以及跨智能体传播[79,82]。补充地，我们采用AI安全的定义，即“AI系统在面对对抗性行为者时，保持对其数据、算法或操作的弹性，保护其保密性、完整性和可用性的属性”[85]。与关注非故意失败的安全不同，安全专门防御恶意利用。形式化地，隐私保护通常通过不可区分性保证来表达。在差分隐私下，一个随机化机制M满足(ε, δ)-DP，如果对于任何相邻数据集D, D'（相差一条记录）和任何可测量输出集S，Pr[M(D) ∈ S] ≤ e^ε Pr[M(D') ∈ S] + δ [130,131]，其中Pr[·]表示M随机性的概率。DP通过ε（隐私预算）澄清了隐私-效用权衡，并支持重复查询下有原则的核算。补充地，较老的匿名概念如k-匿名要求每条发布记录在准标识符方面与至少k-1条其他记录不可区分[132]，在背景知识和链接攻击下具有已知限制（如激发l-多样性和t-接近性）[133,134]。智能体AI引入了静态隐私和动态隐私之间的实际区分。静态隐私涉及训练时记忆化和训练后提取（例如训练或记录交互数据的重复）。动态隐私涉及感知→规划→行动→反思→学习循环中的运行时信息流，其中隐私损失甚至可以在没有记忆化的情况下发生：重复交互实现属性推断，工具调用将敏感上下文序列化到外部系统，中间轨迹创建新的披露面[77,79]。为了捕获上下文依赖的期望，我们还采用语境完整性视角：当信息流符合适当的社会规范（谁与谁、在什么条件下共享关于谁的信息）时，隐私得到保护[80,125]。CI对于智能体特别相关，因为它们常规转换上下文（总结、检索和通过工具行动），使得即使没有显式标识符泄露也很容易违反规范（例如将用户的健康状况披露给不相关的工具）[126,128,129]。我们将智能体AI的系统安全定义为保护智能体工具和执行环境（如凭据、API、沙箱和协议）的保密性、完整性和可用性，并抵抗诱导不安全行动的攻击，如未经授权的工具使用、代码执行或协议操纵[77,81]。具体来说，保密性覆盖机密（API密钥、令牌）、私有数据和专有提示/策略；完整性覆盖检索证据、工具输出和行动参数的正确性；可用性覆盖滥用下（如工具调用洪水、资源耗尽）的服务连续性。威胁建模（资产、入口点、攻击者能力和失败影响）提供了一种系统化方法，跨组件和阶段推理智能体安全[135]。最后，智能体部署引发了供应链安全关注：模型、工具插件/API、检索索引、提示模板和评估/守卫服务可能来自不同提供商，具有独立的更新周期。妥协可能发生在上游（恶意依赖、有毒工具更新或被木马化的插件）并向下游传播到智能体行为。实际控制包括软件物料清单和签名、可验证产物以支持来源和快速事件响应[83,84,136,137]。为了系统化分析威胁，我们采用基于组件的视图（输入、记忆、工具/执行和通信/协议）并将其映射到下面的智能体工作流[76,77,81,82]。虽然第3.1节强调行为伤害和鲁棒性，但本小节关注数据保护和系统完整性：许多攻击（例如提示注入）在此处重要不仅因为它们改变行为，还因为它们能够通过合法工具渠道实现凭据盗窃、未经授权数据访问和泄露。

# 风险

感知：提示注入、多模态推断和混淆输入

输入通道摄入用户提示、多模态观测和外部内容（网页、电子邮件和GUI）。直接/间接提示注入（DPI/IPI）可以迫使智能体披露私有信息（例如先前对话或隐式用户属性）或绕过策略[76]。多模态推断攻击可以从图像/屏幕上下文中提取人口统计或情境线索[82]。混淆输入攻击可以通过多步扰动演变规避静态过滤器，增加隐私泄露和安全妥协风险[76]。额外的感知阶段风险包括社会工程输入（钓鱼式提示以骗取机密或诱导智能体粘贴凭据）和检索层毒化（攻击者控制的文档被设计为被检索并携带隐藏的泄露指令）。一个现实世界模式是，不可信内容可以在没有显式用户交互的情况下触发非预期行为（例如企业Copilot中的“零点击”间接提示注入）[4,5]。这些输入是高杠杆的，因为它们播种下游阶段：一旦恶意指令被视为可信上下文，它可以塑造规划、工具使用以及存储到记忆中的内容，造成持久隐私损失。 规划：隐私不安全记忆使用和长周期属性聚合

规划通常依赖记忆（对话历史、情节缓冲区和长期存储），这可能跨会话累积敏感数据。出现两个隐私风险：（i）重复/重建，先前见过的私有内容后来重新出现[79]；（ii）属性聚合，多个低敏感性片段随时间组合为高敏感性推断[82]。从安全角度看，记忆可被毒化（例如延迟触发器/后门），使得未来规划被导向不安全行动或披露。规划引入了语境完整性违规作为独特的隐私失效模式：即使每个记忆项单独不敏感，规划器可能将信息路由到不合适的接收者（例如将用户医疗上下文发送到通用网络工具），因为它优化任务成功而非规范合规[80,126]。另一个风险是跨会话重新识别：稳定的记忆标识符、嵌入或长期档案可以允许跨会话/用户链接，特别是在内部威胁（操作员）或受损存储后端下。这些规划阶段风险安全分析需要面向数据保护的特定建模。 行动：工具中介泄露和凭据受损

在执行阶段，实际信息和输入/输出边界最敏感。工具履行过程中，工具调用可能将用户数据（例如通过API调用、指令参数、RAG查询、或文件创建）泄漏给未经授权方或外部服务。凭据和秘钥可能通过日志记录、调试输出、或工具结果泄露，尤其在工具使用未执行最小特权原则时。工具调用结果可通过工具输出（例如返回给用户或继续传播的不安全参数）导致数据泄露。执行也可能打开“边信道”泄露（例如通过时间观察、调用频率分析）。从安全角度，行动阶段直接面对“高危”工具，如文件系统、数据库、网络访问及代码执行；任何权限或访问控制不足都可能被对手利用执行未经授权的操作。在现实中，此类攻击通过“间接注入”发生，如攻击者可通过将恶意指令嵌入到被检索的网页中，强制模型调用内部工具窃取机密。 反思：审计数据泄露和监控信息暴露

反思和系统监控部分可能带来隐私风险。比如日志记录内容包含详细工具参数和结果，而这些可能包含用户内容或个人身份信息。轨迹审计可见性的增加在没有必要数据保护控制时，可导致不必要的隐私损失。系统监控的配置也可能暴露工具使用模式、内部处理信息。 学习：泄漏敏感训练数据

学习阶段风险包括通过训练数据记忆化和在智能体协同中利用记忆化的违规。如果智能体使用来自用户交互的反馈进行在线/持续学习，它可能无意中将敏感数据编码进模型参数或共享记忆，然后通过未来的交互重现（数据重现攻击）。更进阶的是，恶意用户可通过精心构造的“查询”来提取训练记忆。 多智能体：跨智能体隐私泄露和传播

多智能体中的隐私风险：代理可能与不相关的其他代理共享可能包含隐私信息的数据。一个代理的感知或输出可能在共享内存或物理共享信道中泄露用户私密信息。协议攻击还能允许恶意代理从其他代理的输出推断信息（例如元数据或工具调用模式）。在这些设置中，零信任原则变得至关重要。 供应链：下游泄露

如果模型、插件、检索索引和提示库来自第三方库，这些能被利用暴露训练数据或私有权重。第三方更新可能无意识嵌入隐私或安全漏洞。软件物料清单提供追踪依赖的机制。

# 方法

感知：输入清理和零信任

基础措施是输入清理（例如安全过滤、提示注入检测）[76]，并结合零信任原则：所有外部输入都不能区分“指令”和“数据”，需要进行明确的上下文边界隔离（例如不可信内容标有“文本”而非“指令”标记）。引入指令前缀剥离、工具调用隔离能防护注入和泄漏。运行时还可以执行对抗测试来模拟特定输入攻击，如PAD 和 GPTFuzzer 对于有效过滤器和防御训练的评估。 规划：隐私保证记忆和DP聚合

对于规划阶段，最常用的策略是数据最小化：记忆仅存储完成任务必需的信息，并采用修剪及过期机制降低敏感数据暴露。差分隐私保证如(ε,δ)-DP可以施加在记忆查询、聚合或工具参数中，尤其在记忆共享或日志处理时。需要引入严格的访问和上下文规则，确保信息的预期用途（依据“语境完整性”，工具只能根据其设计及用户同意的原则处理数据）。 行动：沙箱化、凭据保险和DLP

工具执行期间，沙箱和隔离的执行环境限制工具的访问范围，防止意外影响。凭据采用保险库机制：不把API密钥暴露给智能体直接调用链；而是由策略引擎根据最小权限进行代理解发。数据丢失预防（DLP）过滤（如正则或AI分类器）可阻止明文PII或秘密外泄。工具监控防止不当参数构造。此外，事务性执行允许行动回滚或撤销。审计和日志记录应记录所有调用的可观察特征，但旨在避免对敏感负载的直接存储。 反思：加密通道及认证来源

追踪和反思过程应使用加密信道和认证协议证实行踪数据，避免篡改并保证问责。对审计日志的访问控制应限制为最小数量人员及系统组件。 学习：保留限制、SBOM和安全回归

为了避免学习阶段引入历史数据泄露，应该对训练数据采取严格的保留限制及隐私过滤。多智能体学习应用中对于累积经验的差分隐私聚合是一个前沿。供应链安全使用SBOM和签名、可验证工件来保证依赖关系的交付和更新可控。安全回归检查（如引入新的隐私测试）需要在每次模型或提示更新时触发。 多智能体：通信约束和零信任架构

多智能体的隐私保证采用基于角色的访问控制、基于语境的授权和可信执行环境来隔离各类代理的数据。 标准化

4 Consolidated metrics and benchmarks / 统一度量与基准

本节整合了贯穿智能体AI的两个核心可信性的评估方法。将度量、基准测试套件、发布关卡指导和评估流程统一成实用参考。

连接评估与智能体生命周期

评估不能局限于最终任务成功率。智能体在工作流感知→规划→行动→反思→学习过程中会暴露大量中间信号，这就是为什么对于高风险部署，我们需要同时关注“结果”（最终成功/安全）和“过程”维度（例如减少约束违反率、保持轨迹结构和完整性）。

测量原则

结果vs.过程评估（智能体需要两者）：与仅需输出评估的LLM基准不同，在智能体场景中，必须检查中间轨迹。过程指标涵盖规约合规性、中间异常和资源滥用等。 轨迹级vs.步骤级度量（何时测量什么）：某些度量（如步骤成功率），比较适合监视单步行为。其他度量（尤其是长周期安全、累积奖励）只能在轨迹级别整体考量。 长周期评估（累积错误和延迟后果）：受困于偶然错误的初期值到后期灾难性偏离路径，需要跨大时间窗口测量“失败率”。常用方法是设置“灾难性事件率”（CER）：定义为产生超过特定阈值的任何不可逆伤害的轨迹比率。 多智能体评估（归因、涌现和协调）：在多智能体系统里，一个智能体的失败是否由别的智能体造成？或智能体之间的协调失败？归因复杂性是一个评估挑战。可使用群体级度量（出现协议违约的次数、联合工具滥用频率和资源竞争指数）来补充个体级度量。 判断者可靠性和对抗鲁棒性：基于LLM作为评估者在判断复杂行为时往往一致性差或存在偏见。推荐使用多个（人工+自动）评估者，并进行对抗测试看评估者是否易受欺骗。

度量字典

表（略）提供了一个中心词典，汇总了所有核心度量，包括它们所属维度（安全/鲁棒性、隐私/系统安全）、是过程还是结果度量、评估层次（步骤/轨迹）以及它们合适的部署阶段。 主要度量类别包括：

任务成功率/有效完成率
约束违反率（安全类）
毒性/有害性（安全类）
对抗成功率（ASR）——提示注入或越狱成功率
隐私泄露率（重建/属性推断）
攻击面暴露评分
工具调用滥用率
资源效率（工具调用次数、延迟、额度）

基准测试套件描述（选定锚点）

基准（如AgentBench、ToolEmu、CyberSecEval、HarmBench等）已被适当排列用于不同风险维度。我们提供一个对照表（对应发布关卡指导）。

场景到度量的映射与基准套件

设置发布关卡阈值（风险边界接受标准）：发布关卡指针对某些部署场景的最小接受水平。我基于风险–严重性矩阵（例如“低风险”场景可接受任务成功率≥70%和约束违反率<5%，“极高风险”要求零灾难性事件且对抗攻击成功率<1%）提供指导。 风险分层评估和“ODD感知”把关：结合“操作设计域”（ODD），智能体对符合预设ODD的输入进行全面评估，而ODD外输入将提升关卡阈值或要求回溯审计。 持续监控与回归检测：长期部署中的版本及提示更新后，必须运行回归检测套件。

评估流程与工具

设计一个分阶段的七步评估流程：

阶段1：离线回归（重放已知失败）
阶段2：模拟测试（罕见事件和长周期）
阶段3：沙箱执行（如ToolEmu式仿真）
阶段4：红队测试（自动化+人工）
阶段5：影子模式（只读部署，带审计跟踪）
阶段6：金丝雀发布（分阶段发布，快速回滚）
阶段7：生产监控（持续保证）

轨迹模式要求

可审计性的最低日志要求包含：时间戳、智能体ID、目标和约束、感知/规划/反思每一步的输入输出、工具调用和响应、人类审批信号以及异常检测标志。

报告标准

建议报告模板（应包括什么）：风险摘要表格（区分维度、过程与结果指标）、最高失败模式的根因分析，和复现包。 可视化建议（风险是多维度的）：热力图（维度×阶段），雷达图生成整体覆盖概览。 故障分析（代表性轨迹和根因分类法）：鼓励发布典型的攻击或失败例。 复现包（最小可行产物）：代码、配置、提示模板、历史追踪数据的检查点。 负责任报告与披露（分享什么）：在合理条件下考虑公开或在保密错误披露平台分享。

评估中的开放挑战

判断器脆弱性和原理黑客攻击：基于LLM的评判者本身易被欺。 基准饱和与针对套件过拟合：开发新迭代需防范基准饱和。 模拟到现实的差距：模拟器不完全反映开放世界风险。 长周期组合爆炸：长时间步将导致指数级轨迹空间。 多智能体归因与共担责任。 对抗覆盖永远不完整：需要持续更新评估体系。

5 Real-world applications in high-risk domains / 高风险领域的实际应用

表8：高风险领域的可信性映射。自动驾驶、医疗健康和智能助手在安全与鲁棒性、隐私与系统安全方面面临不同风险，也对应不同的缓解策略与合规要求。

自动驾驶：安全与安全挑战

自动驾驶作为智能体AI的典型高风险案例，面对全面进入物理世界的特点，呈现独特的鲁棒性与安全问题。 安全：鲁棒性、不确定性与最小风险行为：自动驾驶系统需要从感知（目标检测、语义分割、跟踪）、规划（路径生成）到行动（转向、加速）全链路的鲁棒性，尤其面临边缘案例、不利天气及未知场景。最小风险策略（MRM，当遇到处理不了的场景时，自动减速靠边）提供了一个基本安全层，但挑战在于何时、如何触发。 事故剖析：Uber（2018）、Tesla AutoPilot和Cruise（2023）：这类事故揭示，虽然里程数不断增加，但自动化系统处理罕见行人/障碍能力依然薄弱，以及与人类司机交互时无意行为所导致的致命错误。根本原因往往是检测失败、鲁棒性不足和人机协作不善。 法规和合规要求：随着ISO 21448预期功能安全（SOTIF）、GDPR（数据隐私）和UN-R157（自动车道保持系统）法规出台，智能体系统不再单纯只追求任务成功，还强制要求事前风险分析、运行监督和数据保护措施。 评估协议和部署实践：自动驾驶所使用的虚拟仿真、闭环硬件在环（HIL）以及封闭测试场可以为这些智能体的发布关卡设置参考。最好阶段为：仿真（大量场景）→闭场测试（真实安全验证）→公共道路影子模式→有限部署。 多智能体驾驶：V2X合作与交互安全：车-车/车-路协同带来了多智能体级联的隐私和安全挑战（靠假的V2X信息干扰车队决策），如何认证通信、制定全局约束是研究热点。

医疗健康：安全与隐私挑战

医疗智能体可能参与临床决策支持、病历检索、诊疗流程协调和患者沟通。其安全风险来自诊断错误、幻觉建议、药物相互作用遗漏、临床工作流误配以及人机责任边界不清。论文强调，医疗场景需要多中心验证、医生在回路、保守升级策略和事后监测，不能只依赖离线准确率。隐私与系统安全方面，医疗智能体处理的是高度敏感的电子健康记录、影像、基因数据和对话内容。关键措施包括数据最小化、访问控制、审计日志、端到端加密、联邦学习或安全多方计算，以及符合HIPAA、GDPR等法规的数据治理流程。

智能助手：安全与系统安全挑战

智能助手最典型的风险是工具误用、凭据泄露、沙箱逃逸、恶意插件、间接提示注入和跨应用数据外泄。与普通聊天机器人不同，工具型智能助手可以访问浏览器、邮件、云盘、代码仓库、支付或企业系统，因此攻击面从文本输出扩展到真实执行环境。论文建议采用最小权限、临时凭据、工具调用前确认、敏感操作二次授权、沙箱执行、数据防泄漏过滤、可回放日志和红队测试等措施。对于企业部署，还需要把智能体纳入现有安全运营体系，持续检测异常工具调用、越权访问和供应链风险。

金融、交易与企业工作流

金融和企业智能体关注市场合规、欺诈风险、内部数据泄露、自动化交易异常和流程滥用。可信部署需要把策略约束、审计、异常检测和人工审批嵌入工作流，而不是等智能体生成结果后再做人工复核。对于交易类智能体，尤其需要限制权限、控制执行频率、记录决策依据，并对极端市场场景进行压力测试。

6 Challenges and solutions / 挑战与解决方案

论文第6节将挑战分为两类：一类是智能体系统自身能力扩展带来的新风险，另一类是可信部署所需的制度化、工程化保障能力。关键并不只是“让智能体更强”，而是在更强自主性、更长交互链路和更复杂工具生态中保持可验证、可审计和可干预。

自进化智能体

自进化智能体能够在长期运行中更新记忆、策略、工具选择和环境模型。其优势是适应性强，但风险是概念漂移、目标漂移和安全边界被逐步侵蚀。论文强调，未来系统需要把持续学习与安全更新规则、回滚机制、版本化轨迹和回归测试绑定在一起，不能让自我改进绕过审计。

运行时监控与验证

静态测试无法覆盖长周期、多工具、多智能体交互中的罕见事件。可信智能体需要运行时监控、异常检测、策略执行门、工具权限控制和快速回滚机制。难点在于：智能体行为是概率性的，风险常在多个步骤后才显现，因此验证应同时覆盖单步工具调用和整条轨迹。

可信个性化

个性化需要记住用户偏好、历史任务和上下文，但记忆越强，隐私与滥用风险越高。论文指出，隐私保护个性化需要最小化数据收集、可解释的记忆保留策略、可撤销用户授权、端侧或加密存储，以及对个性化收益和泄露风险的显式权衡。

绿色高效智能体

多轮规划、工具调用、仿真测试和红队评估会带来显著计算成本。未来可信智能体不能只追求更复杂的保障栈，也要关注能耗、延迟、成本与可部署性。轻量化监控、分层评估和按风险等级触发的验证流程，是高效可信部署的重要方向。

标准化可解释性

智能体的解释不应只解释最终回答，而应解释目标、计划、工具调用、证据来源、约束检查和失败恢复路径。论文强调，解释需要与审计日志、轨迹模式和风险报告标准结合，否则容易形成“看似透明但不可验证”的解释幻觉。

问责缺口

智能体系统通常涉及模型提供方、工具提供方、部署方、用户和外部环境。事故发生时，责任边界容易模糊。论文主张通过防篡改日志、版本化配置、权限记录、人类批准链和事件响应流程，把责任分配从事后争议转化为可追踪的系统证据。

信任与效用权衡

更严格的安全策略、沙箱、人工批准和隐私保护机制通常会降低效率或限制能力。论文提醒，可信部署不能把“零风险”作为唯一目标，而应根据场景风险设定发布关卡：低风险任务可采用轻量监控，高风险任务则必须采用严格约束、模拟测试、影子模式和持续监测。

长周期部署挑战

长周期任务会放大错误累积、奖励稀疏、信用分配和评估组合爆炸等问题。智能体可能在前几步看似合规，却在后续工具调用中偏离目标或泄露信息。因此，未来评估必须从单轮问答转向轨迹级测试，覆盖延迟后果、跨工具依赖和多智能体交互。

开源案例启示

论文以OpenClaw/Moltbook安全失效为案例，说明开源智能体系统中的配置错误、工具权限、供应链依赖和日志缺失可能共同造成系统性风险。这个案例提醒我们：可信智能体不是单个模型的安全，而是模型、工具、权限、数据、日志、发布流程和组织响应能力的整体安全。

7 Conclusions / 结论

本文的核心结论是：智能体AI的可信性必须被视为生命周期问题，而不是静态模型问题。随着智能体具备规划、工具调用、记忆和长期交互能力，安全、鲁棒性、隐私和系统安全风险会沿轨迹传播，并在感知、规划、行动、反思、学习各阶段产生新的攻击面。综述给出的框架有三点启发。第一，风险识别要与工作流阶段绑定，不能只看最终输出。第二，缓解措施要形成多层防御，包括训练前数据治理、训练中约束、训练后评估、部署时沙箱和运行时监控。第三，评估要同时报告结果指标和过程指标，尤其要记录轨迹、工具调用、约束违反、异常恢复和人工接管。对于高风险部署而言，可信智能体AI的成熟标志不是“完全自主”，而是在可控边界内自主：系统知道自己能做什么、不能做什么，知道何时请求人类确认，能够留下可审计证据，并能在失效时被快速定位和回滚。这也正是未来智能体系统从演示走向生产环境必须跨越的门槛。

成为VIP会员查看完整内容

导读

Abstract / 摘要

1 Introduction / 引言

动机

范围与视角

与基于聊天的系统风险的关系

说明性而非穷尽性范围

与现有综述的比较

贡献

论文结构

2 Preliminaries / 预备知识

智能体：定义、组件与工作流

# 定义

# 核心组件

# 感知→规划→行动→反思→学习

# 智能体与单轮大语言模型的区别

智能体的强化学习基础与偏好优化

# 形式化：马尔可夫决策过程与部分可观测马尔可夫决策过程

# 训练家族及其信任含义

# 安全强化学习作为约束决策

# 偏好/对齐优化

# 要点

智能体的可信性风险面与保证栈

# 风险面与威胁模型

# 保证栈（训练前、训练中、训练后和运行时）

# 过渡到我们的两个核心维度

3 Core dimensions of trustworthiness / 可信性的核心维度

安全与鲁棒性

# 定义

# 风险

# 方法

隐私与系统安全

# 定义

# 风险

# 方法

4 Consolidated metrics and benchmarks / 统一度量与基准

连接评估与智能体生命周期

测量原则

度量字典

基准测试套件描述（选定锚点）

场景到度量的映射与基准套件

评估流程与工具

轨迹模式要求

报告标准

评估中的开放挑战

5 Real-world applications in high-risk domains / 高风险领域的实际应用

自动驾驶：安全与安全挑战

医疗健康：安全与隐私挑战

智能助手：安全与系统安全挑战

金融、交易与企业工作流

6 Challenges and solutions / 挑战与解决方案

自进化智能体

运行时监控与验证

可信个性化

绿色高效智能体

标准化可解释性

问责缺口

信任与效用权衡

长周期部署挑战

开源案例启示

7 Conclusions / 结论

相关内容