长时程具身智能安全综述：机器人操作的跨层分析

导读

当机器人开始执行数十步乃至更长的真实任务时，“每一步看起来正确”并不意味着整个过程安全。一次轻微的目标误解、遗漏的空间约束或不恰当的子任务顺序，可能在早期没有造成明显异常，却在后续抓取、移动或接触操作中逐渐放大，最终演变为物体破损、人员风险、任务不可恢复等延迟失败。长时程具身智能的安全问题因此不能被缩减为碰撞检测或单步控制约束，而必须覆盖从任务理解到物理执行的完整闭环。这篇 63 页综述《Safe Embodied AI for Long-horizon Tasks: A Cross-layer Analysis of Robotic Manipulation》以长时程机器人操作为锚点，系统梳理安全机制在具身智能生命周期中的三个干预位置：规划时安全、策略时安全和执行时安全。作者不仅讨论各类方法“做了什么”，还特别追问其安全声明究竟由何种证据支撑，并将证据区分为形式化保证、统计支持和经验性安全启发。论文的核心判断是，当前文献中的安全能力大多仍停留在单层局部：一个通过验证的任务计划可能在动作接口转换时丢失约束，一个受限策略可能在分布偏移或接触执行中失效，一个运行期监测器也可能因风险信号未校准而过晚介入。真正可靠的长时程具身智能，需要让安全信息跨抽象层传递、让风险与干预相匹配，并通过全过程记录和评测形成可审计的跨层安全证据。

论文基本信息

论文题目：Safe Embodied AI for Long-horizon Tasks: A Cross-layer Analysis of Robotic Manipulation

中文题目：面向长时程任务的安全具身智能：机器人操作的跨层分析

作者：Dabin Kim、Daemin Park、Sangyub Lee、Jinsik Kim、Yeongtak Oh、Jongho Shin、Sungroh Yoon 作者单位：蔚山国立科学技术院、首尔大学自动化与系统研究所、首尔大学电气与计算机工程系、首尔大学人工智能交叉项目、LG Electronics 论文类型：综述论文研究方向：具身智能、机器人操作、长时程任务、VLA 模型、机器人安全、安全保障与评测首次提交日期：2026 年 6 月 4 日

摘要

随着具身智能系统被要求在物理环境中进行更长时间的推理与行动，安全已成为核心系统属性，因为真实世界中的失败可能伤害人员、损坏物体并扰乱工作场所。现有安全具身智能研究分散在规划、策略设计和运行期执行等不同领域，而长时程机器人操作将语义误接地、子任务错误传播、执行漂移和接触丰富的物理风险集中在同一个闭环系统中，因此是分析这一问题的代表性场景。该综述按照安全机制的干预位置组织文献，覆盖规划时、策略时和执行时安全，并评估各研究方向所提供证据的强度，区分形式化保证、统计支持和经验性安全启发。该框架进一步澄清了基础能力工作、直接安全机制以及基准与评测研究的不同作用，同时揭示现有安全声明在哪些条件下证据充分、在哪些条件下仍属间接推断。综述识别出的持续性缺口包括：策略时安全证据有限，接触丰富的长时程操作缺乏强形式化支持，不确定性触发的干预机制尚不成熟，以及缺少面向机器人操作的专用安全基准。作者最终提出跨层保障、评测设计和真实环境安全部署的研究路线。

1 Introduction / 引言

具身人工智能系统正日益部署于开放且具有物理后果的环境。随着机器人技术与基础模型、视觉-语言-动作（VLA）系统及通用智能体架构深度融合，核心挑战已从能否完成任务转变为能否在真实世界中安全地完成任务。这是因为具身系统的输出不仅生成预测或内容，还驱动硬件运动、操控物体、接触物理世界，并可能直接影响人和周边环境。因此，具身AI的安全必须被视作核心系统属性，而非可选的后期约束。长时程具身系统的失败可能具有延迟、累积和部分可观测的特性：错误可能始于语义误基础或视觉幻觉，通过欠明确的规划目标或策略级错位传播，直到机器人在不确定性、扰动或环境变化下进入接触密集交互时才显现。系统可能在各局部步骤表现合格，但累积隐藏风险。本综述中，安全采用宽泛的具身含义，不限于即时碰撞避免或力阈值违反；它还包括可产生物理、操作或面向人类风险的安全相关失效，或导致任务在长时程展开中不可逆退化的失效。现有文献分布在机器人学习、控制理论和可靠AI领域，但大部分工作碎片化且缺乏整合框架。安全控制与运行时屏蔽提供了基于动力学的低层约束满足工具；安全强化学习聚焦于约束感知探索与策略部署；对齐与护栏研究处理多模态安全性（包括有害指令和行为约束）；物理安全则由ISO 10218等工业协议监管。然而，这些领域通常孤立研究，而许多具身失败恰恰产生于这些层次之间的未处理交互。本综述旨在映射这一分散格局。本综述聚焦长时程机器人操作作为分析密度高的锚定领域。操作域集中了多项安全压力：语义任务规范、子任务间的延迟误差传播、接触丰富物理交互，以及名义任务成功下可能持续存在的潜在不安全行为。对比导航和行走领域，操作同时涉及长时程依赖、语义规范、接触交互、隐藏不安全行为以及跨规划-策略-执行的耦合，这使其成为研究长时程具身AI安全的高密度测试床。本综述将任务域与机器人平台（人形机器人、移动操作器等）区分开，以清晰传达面向安全的分析。图 1：长时程机器人操作中的风险会跨层累积。早期任务接地或规划错误可能暂时不影响局部动作，却会在接触执行阶段放大，并最终表现为延迟物理失败。来源：原论文 PDF 第 3 页。

文献范围与筛选标准

现有的具身AI、基础模型和VLA综述成功地映射了现代生态系统，承认安全部署的需求；聚焦操作的综述厘清了学习公式和力感知执行；而安全相关综述主要覆盖低层安全控制和安全强化学习。最接近的框架是Tan et al.和Kojima et al.的工作，分别处理可信具身AI和物理风险控制，但它们要么将安全视为抽象概念，要么视为模块化技术，既未按安全干预在生命周期中的进入位置系统组织长时程安全，也未批判性评估支持安全声明的证据水平。本综述填补这一空白。本综述的核心问题不是如何构建更强大的具身系统，而是如何评估和比较关于这些系统的安全声明。我们沿两个轴组织文献：一是干预位点——安全进入系统的位置，包括规划时、策略时和执行时机制；二是证据边界——已报告结果实际支持的内容及其未证明的内容。我们区分形式保证、统计安全证据和经验安全证据，并将其与仅间接支持安全的性能改进或通用鲁棒性结果分开。这一双轴视角厘清了骨干能力论文、直接安全机制和基准/评估研究的各自角色，同时揭示了当前安全声明中哪些部分得到强支持，哪些仍属局部或间接贡献。主要贡献如下：

将长时程机器人操作定位为具身AI安全的高密度锚定领域，展示它如何融合语义任务规范、子任务级延迟误差传播、空间与运动可行性约束、接触丰富物理交互以及名义成功下的隐藏不安全行为。
引入按干预位点的跨层组织，将安全机制映射至规划时任务形成与验证、策略时动作生成塑形、执行时监控恢复与接触调节。
为不同安全声明类型提供证据边界的批判性评估，指出当前文献中强支持的领域与开放边界。

2 Cross-layer Safety Framework for Long-horizon Robotic Manipulation / 长时程机器人操作的跨层安全框架

本节建立贯穿综述的概念框架。核心认识是：长时程机器人操作的安全不能视为孤立模块，而必须理解为整个系统的涌现性质。任务可能在多个阶段变得不安全：歧义指令、错误接地、子任务序列中前置条件违反或策略目标错位。执行中也可能由不确定性引起的漂移或危险物理交互（如过大外力、卡滞）所破坏。因此，某一层提升安全的方法不能内在地保证整个系统安全。我们将安全视为跨层评估问题，追问安全假设在何处引入、如何跨系统转换，以及安全声明得到何种证据支持。这一视角对长时程操作至关重要，因为风险往往是延迟且组合式的。本综述中，安全指预防、检测和缓解在长时程任务中可能导致物理伤害、物体损坏、约束违反或不可恢复状态的失败。包括：（i）物理安全——对人或环境的伤害；（ii）程序安全——维护任务顺序、前置条件和可恢复状态；（iii）操作安全——避免继续自主执行变得不安全的状态；（iv）语义安全——危险指令、错误接地、幻觉可供性或遗漏约束。文献沿两条轴组织：干预位置（安全机制进入管线的阶段）和证据边界（安全结果的范围与局限）。风险压力作为描述性词汇，将具体机制与其应对的安全关注点联系起来。可靠性、鲁棒性和对齐仅当明确关联到危害减少或失败传播缓解时才构成安全证据。对抗攻击、数据投毒等问题不在本综述独立范围。图 2：综述按安全干预位置组织文献。规划时安全在展开前塑造任务表示，策略时安全在动作提交前约束或对齐生成过程，执行时安全在物理交互中监测、门控、恢复并调节行为。来源：原论文 PDF 第 8 页。

安全在系统中的干预位置

第一条组织轴是干预位置。根据方法塑造、约束或修复行为的阶段，区分为规划时安全、策略时安全和执行时安全。它们在闭环具身系统中操作耦合。 规划时安全涉及物理展开前任务表征的形成与验证。聚焦于形式化验证、空间接地以及任务与运动可行性，减少不安全规约传递。第三部分从接地规约出发，审视已验证的长时程结构及基于模型的规划支持。 策略时安全涉及动作提案在被提交到环境之前施加约束。包括约束注入、偏好对齐和保持子任务过渡一致性的长时程结构。其作用是降低策略提出错位或程序脆弱动作的概率。第四部分将策略生成视为受约束的决策过程。 执行时安全处理系统与物理世界实时交互阶段。包括运行时监测、异常检测及屏蔽、人类移交或自主恢复等纠正性干预。作用是在展开偏离预期时尝试恢复可恢复或更安全的进展。第五部分覆盖运行时风险评估、任务恢复和物理交互安全。三个位置深度互联：规划时约束须转化为策略接口，策略时不确定性信号须可被执行时监测器解释。图2强调风险与反馈如何在各阶段传播。

证据边界：安全声明能够支持什么

第二条组织轴是证据边界。文献中的安全声明在证据严格程度上各异。本综述依据严格程度和适用对象区分，采用表3分类。严格程度方面，识别三种主要类别：形式化证据、统计证据和经验证据。形式化证据从显式假设导出确定性安全结论（如定理、证书）；统计证据支持概率性安全陈述（如校准风险估计、机会约束保证）；经验证据主要通过观测行为支持安全，无形式化或概率保证。形式化保证提供最强局部声明，但受抽象差距限制；经验证据提供实用见解，但缺乏对长尾危险的泛化。关键是将安全类别与通用鲁棒性区分。鲁棒性仅当扰动或指标明确关联到危险（如碰撞、力过载）时才成为安全证据。证据的对象界定声明在操作生命周期中的范围：规划级证据可能验证任务规约在仿真中可执行，但不保证感知或策略漂移下的安全物理执行；轨迹级证据提供后验摘要；运行时或接触级证据聚焦主动风险缓解，但高度特定于具体具身。因此安全证据不可跨层互换。本综述评估每项工作时追问：引入了何种机制，证据实际上证明了什么声明？这与第六部分整合碎片化指标相关。表 3：三类安全证据及其声明边界。形式化保证依赖明确模型与假设，统计安全提供概率或置信边界，经验安全则依赖特定基准与场景中的观测结果。来源：原论文 PDF 第 9 页。

跨层代表性安全问题

除干预位置和证据边界外，识别一组代表性安全问题，定义不同机制旨在应对的问题。这些问题与安全机制区分。机制失效重要仅因为它使潜在危险未被缓解。第三至第五部分跨层分类以下反复出现的安全关注点：

任务规约与接地风险：目标解释、场景接地或安全约束遗漏中的错误。
序列与转换风险：子任务不正确分解或不安全排序，导致前置条件未满足时继续。
空间与运动可行性风险：缺乏几何承诺的抽象规划，如无碰撞轨迹、可达姿态。
策略生成与目标风险：错位目标、无约束动作接口或长时程上下文丢失导致的不安全动作提案。
运行漂移与不确定性风险：感知误差、分布偏移或未标定置信度导致偏离规划假设。
接触与物理交互风险：外力、摩擦或卡滞引起的危险，可能导致不可逆任务退化。

这些关注点在长时程展开中通过级联失败和可恢复性丧失耦合。微小的规约误差或接触扰动可跨层传播，导向无法可靠防止伤害的状态。恢复机制专门针对此可恢复性丧失。

综述的框架化组织

本综述按跨层框架组织文献，按安全假设被形成、约束或修正的位置分类。后续各部分按其安全对象、代表性关注点和典型证据分类（见表4）。第三部分聚焦规划时安全，安全对象是任务表征，关注点包括规约与接地风险、序列风险、空间可行性风险，典型证据涵盖形式化验证和仿真中经证明的安全性。第四部分聚焦策略时安全，安全对象是动作策略的生成与对齐，关注点包括策略生成与目标风险，典型证据包括统计安全边界和基准观测。第五部分聚焦执行时安全，安全对象是运行状态与物理交互，关注点包括运行漂移风险、接触风险以及可恢复性，典型证据包括运行时故障检测率、恢复成功率。第六部分将跨层评估实践作为统一问题处理。第七部分讨论未来研究方向。

3 Planning-time Safety / 规划时安全

规划时安全关注执行前已存在的失败根源——目标或约束错误转化为风险。错误通过两条路径传播：目标/约束接地错误导致任务规格错误；计划结构错误导致无效序列。因此，安全机制需在规划阶段介入，确保规划对象正确构建、可检查且可执行。本章从三个递进阶段组织：目标与任务接地、长时程计划结构化验证、空间与模型驱动的规划支持。主要处理语义安全与程序性安全，物理安全作为下游边界约束。图 3：规划时安全的三阶段结构，包括目标与任务规范接地、长时程计划的结构化与验证，以及空间和模型驱动的规划支持；任一阶段失真都可能向后传播。来源：原论文 PDF 第 13 页。

目标与任务规范接地

系统须将目标、初始状态和约束接地为下游可用的任务规范。本小节从目标与初始状态接地出发，讨论约束纳入规范，最后探讨任务意图到可执行接口的映射。

# 目标与初始状态接地

规划时安全依赖正确识别任务意图和起始上下文，且须具备可行性感知。当代框架部署两种代表性机制：隐式可供性评分（平衡语义技能与学习到的可行性概率）和显式符号结构构建（将语言-场景观测转化为可检查问题定义）。证据边界限于语义兼容性与符号一致性。关键差距在于假设离散语义抽象充分捕捉连续拓扑可行性，当对象谓词简化几何阻塞为二值谓词时，规划器可能生成语义合理但几何不可行的序列，导致无限重规划或死锁。

# 约束解释与规范形成

系统须将自然语言限制翻译为规划器可用的表征。当代框架采用不同表征体系（稠密几何图、符号问题描述、显式禁止条件），证据边界限于表征符合性。关键差距在于逻辑表达力与求解器可解性间的权衡：过度约束导致无解空间，欠约束遗漏隐式安全语义。约束显式化后，翻译正确性本身不保证规划器能找到解，引出后续验证机制。

# 任务意图到可执行接口的接地

系统须将任务意图映射到机器人可调用的接口。当代框架采用两种翻译机制：文本语义相似度映射（将语言提议对齐到预定义动作）和程序化封装（在提示中暴露API、对象和状态检查）。证据边界限于句法合规性和API兼容性。关键差距假设抽象规划器与确定性API完全对齐，但接口无法动态评估隐藏前提条件，导致未捕获的符号异常、状态失同步或程序化死锁。

长时程计划的结构化与验证

本节约定如何将规范组织成可验证长时程计划。论述从任务分解推进到时空规范，最后探讨执行前验证。

# 任务分解与子任务排序

任务分解划分结构化子目标序列，排序定义依赖关系。当代框架部署三种机制：提示级逻辑验证（思维链评估不变量与前提条件）、自动机驱动时序剪枝（将约束翻译为LTL以监测状态）、符号规划基盘（场景图转PDDL后自回归求解）。证据边界限于符号领域模型内的因果一致性。关键差距假设谓词完备性与静态因果不变性，未建模状态依赖或物理参数超限时导致抽象不匹配。

# 时间与时空规范

当代语言驱动系统将规范问题分离为三个安全保障：句法有效性（确保公式语法可接受）、语义置信度（用保形预测仅在可靠时继续）、几何结构（将指令翻译为分层时空逻辑）。但这些方法仍存在空洞满足（蕴含式因触发条件未发生而满足）和计算高昂（LTL推理PSPACE完全最坏复杂度，几何抽象进一步放大）等失败模式。

# 规划器验证与形式化反馈

验证阶段作为执行前筛查，提供结构化反馈引导迭代改进。机制包括：基础形式筛查（检查不变式与前提条件）、主动解码约束（用LTL在生成期间剪枝）、纠正性信号（将反例翻译回提示）。优化范式将验证输出蒸馏为学习替代器，以可扩展性换取弱保证。此外有低保证批评循环（辅助模型作为安全法官）和启发式策略（仿真、人环干预）。证据边界相对于规范：计划符合编码规则，但不等同于具身安全。关键差距在于相对规范的正确性不涵盖不完整谓词、过时感知或不可行几何。

空间与模型驱动的规划支持

本节用三种互补机制处理物理过渡：世界模型与前瞻、空间与对象中心约束、任务与运动规划一体化。

# 世界模型与前瞻式规划

前瞻方法通过预测性展开评估状态连续性，利用想象未来状态迭代修正计划。多视角世界模型与阶段感知结构提高转换一致性。证据仍是经验性和预测相对的，无法保证几何可行或物理安全，且随域增长易受幻觉和误差累积影响。视觉前瞻难以捕捉遮挡或接触丰富交互中的物理可行性，且不能几何指定机器人位置。

# 空间与对象中心约束构建

逻辑符号计划未指定物理操作位点。近期方法将任务意图映射到3D区域、关键点和物体部件，例如关系关键点约束、部件级空间接地、可优化的3D空间约束。这些技术将高层指令翻译为显式可优化的几何限制，弥合抽象描述与可操作几何的差距。

# 任务与运动规划的一体化支持

集成的任务与运动规划将空间约束与显式的抓取、运动学和碰撞推理结合，确保计划可执行。

4 Policy-time Safety / 策略时安全

策略时安全关注操作策略在将其下一个动作提交至物理环境前如何被塑造，例如在强化学习或模仿学习训练期间。若第3节在抽象任务公式中评估了安全相关风险，本节则聚焦策略层本身：候选动作、子任务转换和学习到的偏好如何在决策时刻形成。在高层级规划与低层级控制的标准两级架构下，这涵盖策略的动作生成阶段，以及修改策略允许输出内容的包装器。为组织本层方法，我们将策略生成视为一个通用的约束优化问题：π* = arg max J_obj(π) 满足 C_i(π) ≤ 0。虽然并非所有方法都严格采用这一公式，但它作为统一抽象贯穿本节。本节首先定义可用的策略类别Π、动作空间和接口结构，随后考察显式约束C_i(π)和目标塑形J_obj，最后讨论长时程操纵带来的失败结构变化。图 4：策略时安全统一框架。策略类别与接口定义可行动作空间，约束感知生成限制不安全候选，目标塑形改变优化偏好，长时程扩展则显式处理阶段转换和延迟风险。来源：原论文 PDF 第 19 页。

策略类别、接口与长时程上下文

在策略底层定义Π时，需超越任务性能，考虑骨干网络为安全塑形提供的预提交结构。策略可以暴露不同的动作表示：连续控制或离散动作令牌，或更高级的可执行接口如技能调用或程序行。这些架构选择至关重要，因为它们决定哪些候选动作可被表示、哪些格式可被约束、以及何种策略时塑形在承诺前可用。为系统利用这些架构边界，策略时安全干预应被理解为接口依赖的，而非统一适用于所有策略底层。在令牌化视觉-语言-动作机制中，机器人动作以离散输出表示，动作词汇本身成为潜在干预面：不安全或不被允许的动作令牌可在提交前被屏蔽、重加权或约束。相反，连续或分块动作表示将干预面转向轨迹级分布与动作序列，使投影、重采样或连续安全过滤成为更自然的预承诺塑形。在低级运动流之上，程序化与基于技能的接口暴露更高级干预点：生成的代码行与API调用可在执行前检查，而状态条件化技能空间限制或调整策略可用的可执行基元集。这些多样策略类别的安全相关性还取决于它们如何处理更长时程上下文：过时观察、进度混淆和子任务漂移可在扩展部署中累积。层次化语言条件策略通过将长时程控制分解为高层级潜计划与低层级视觉运动策略来应对。明确记忆增强的底层架构保留过去观察或动作信息，支持时间依赖的操纵决策。另一类长时程VLA模型通过交错的言语规划、视觉预测或视觉链式推理暴露中间进度变量。最后，潜动作对齐改变中间动作表示本身，提供行动中心的潜空间用于可伸缩VLA预训练，而非直接执行安全约束。这些结构变体共同表明，策略时安全不能统一应用，而需针对骨干暴露的特定代码、技能、令牌或连续控制接口进行定制。

约束感知的策略生成

约束感知的策略生成侧重于塑造策略，使得不安全行为在候选策略空间内被限制、过滤或减少可能性。第4.1节定义了可用动作表示与接口，本节考察这些接口如何被主动限制。它分两步：首先回顾策略生成阶段的直接约束注入，然后考察约束学习与安全优化，后者在训练期间内化安全结构。这些机制提供从规范性限制到经验性减少的强度渐变保证。

# 策略生成期间的约束注入

约束注入是最直接的执行前强制安全方法：不依赖训练分布避免不安全，而是主动限制动作空间。根据策略接口，可采取令牌在显式时间约束下被掩码或降权、生成的程序行根据可用API或类断言符号状态检查被核实、或连续动作通过安全层、投影或可微优化模块被修改。但其安全覆盖严格受限于建模规则的准确性、系统接口与规范质量。形式约束注入将显式时间规范（如线性时序逻辑或信号时序逻辑）附加到动作提议。在学习中，屏蔽提供经典类比：专用安全层监测学习者的提议并限制或纠正不安全动作，无需重训练。近期基础模型导向的工作将干预移入自回归生成本身，用STL约束在解码时屏蔽或降权不允许的候选续写。这些方法支持狭窄但有力的策略时声明：当规范与系统模型显式时，不安全提议可在执行前被阻止，但保证相对编码约束与接口。约束注入依赖构建显式规范对象。自然语言到LTL流水线将非正式指令翻译为形式规范；机器人宪法提供语义护栏而非形式保证。规范对象可进一步接地至可执行接口，例如通过组合或转移学习技能以满足LTL规范。因此，策略时限制依赖于规范对象的保真度、表达力与可执行性。

# 约束学习与安全优化

约束学习将安全嵌入策略优化过程，通过两种路径：将显式约束纳入奖励模型，或利用形式安全证书引导学习。安全强化学习的基础是约束马尔可夫决策过程：最大化期望奖励同时满足安全成本限制，保证通常是期望性，容许瞬时违反。硬约束RL针对特定约束类（如等式或仿射约束）限制策略输出，提供更强保证但未直接解决长时程语言引导操纵。近期VLA安全对齐通过引发不安全场景并微调以减少高风险行为，其证据仍是经验性与分布依赖的。控制论中的安全学习使用显式安全集、证书或过滤器：如哈密顿-雅可比可达性集、控制障碍函数或学习的神经证书。但这些方法应用于高维操纵面临综合瓶颈：解析推导困难，可达性受维度诅咒，神经证书需要额外验证，且学习过滤器对分布偏移敏感。因此，较低训练违规率不保证部署期安全。

对齐与目标塑形

显式约束可阻止部分不安全候选，但不决定目标函数奖励何种行为。策略时风险包括语义错位、人类不安全行为及目标误定义，在长时程操纵中尤其重要。本小节从动作空间限制转向目标塑形，探讨如何使策略更少偏好不安全行为。

# 偏好与奖励模型对齐

许多长时程失败源于规范不匹配：策略优化代理指标而低估程序性安全。偏好对齐直接根据人类判断校准训练目标，经验上降低碰撞率。偏好对齐扩散模型改善复杂操纵中的个性化。为降低数据收集成本，近期框架表明偏好塑形奖励可有效迁移，但安全声明有限：偏好对齐偏置策略远离不安全行为，但不排除不安全候选。

# 语言引导和干预数据驱动的奖励塑形

丰富反馈模态使奖励信号更具诊断性。语言条件奖励模型从描述或演示学习，支持样本高效适应；语言作为可编辑奖励设计接口，大语言模型生成并改进奖励程序。视频语言评论器从跨本体数据学习奖励函数，失败提示区分成功与失败。物理干预痕迹提供纠正信号，人类接管转化为残差奖励。这些方法将对齐从“学习哪个轨迹被偏好”扩展至“学习为什么应被奖励或纠正”。证据边界经验性与目标相对：丰富监督提高诊断质量，但不保证覆盖所有安全关键行为。声明受反馈覆盖与分布匹配限制。

策略时安全的长时程扩展

长时程操纵改变失败结构：安全违规可通过过早阶段转换、跳过前提或风险累积出现。本小节从结构扩展与目标扩展两个视角考察如何调整约束与目标塑形。

# 进度感知的结构扩展

长时程安全需在动作提交前保持任务进度可检查。高层接口（技能、程序）使子任务进展更可检查并提供检查点。记忆机制如上下文压缩或尺度记忆减少状态过时。推理时导向方法通过前瞻模型评估候选结果或检查推理-动作对齐增加验证。这些扩展的证据边界是架构性与推理时间性的非形式保证：降低上下文丢失与动作顺序错误，但不证明整任务程序安全。

# 面向长时程操作的阶段感知目标塑形

基于进度感知架构，阶段感知奖励建模将高层任务阶段与细粒度进展解耦，使优化更直接惩罚程序性漂移，避免单调标量奖励混淆前提完成与最终成功，从而减少累积的潜在风险。

5 Execution-time Safety / 执行时安全

如果说第4章聚焦于防止不安全动作被提出，那么本章将讨论这些动作在物理世界中被执行后会发生什么。执行时安全是抽象安全主张变为可操作现实的层面，围绕运行期风险评估、响应机制和物理交互安全三个阶段组织。图 5：执行时安全分为运行期风险评估与门控、失败响应与任务恢复、接触条件下的物理交互安全三阶段，分别对应风险信号、进度恢复和接触调节。来源：原论文 PDF 第 24 页。

运行期风险评估

运行期风险评估构成第一道防线，涉及从识别风险到采取行动的演进过程：通过监测与异常检测识别执行偏差，通过诊断解释根本原因，再通过屏蔽和引导阻断或重定向不安全行为。

# 运行期监测与异常检测

执行时安全的第一层是检测执行过程是否偏离安全状态。由于长周期操作中的故障是渐进发生的，监测侧重于早期偏差检测。 状态级异常评分与多模态监测：对名义行为建模，通过条件归一化流、潜在动力学模型等方法预判分布外状态。对于生成式策略，从潜在或动作空间提取异常信号，如噪声偏差、熵得分、多任务故障检测。利用保形预测提供统计标定的警报阈值，并融合多模态输入提高鲁棒性。共同挑战是在快速预测与泛化能力之间取得平衡。证据强度为经验性，依赖任务特定训练数据和校准假设；开放边界在于处理长尾分布及高假阳性率。 时空推理与语义错位：通过视觉语言模型生成的代码进行连续时空约束检查，检测进展停滞、时间一致性退化或语义错位等故障。监测必须纳入任务进展感知的验证，将语义错位本身作为直接检测目标。证据强度为实验性，较依赖视觉语言模型的语义稳健性；开放边界在于精确推理计算成本高，且复杂场景下语义错位分类可能不准确。

# 失败诊断与推理

诊断超越检测，识别具体故障类型及其根本原因，为下游干预提供信息。 结构化诊断：将异常映射到预定义故障类别或符号谓词，通过因果网络、语义场景图等关系模型识别根本原因。利用无监督学习从执行日志中自动发现故障分类，或通过主动搜索识别特定环境条件，增强人机信任。证据强度较高，有结构化语义框架支撑，但依赖于预定义分类的完备性；开放边界在于大型执行日志中自动发现故障模式的泛化能力。 生成式诊断：利用大型语言模型对多模态感知进行开集推理，融合操作特定故障检测与自然语言解释，实现自主、实时的根因分析。诊断精度取决于故障特定监督和显式时空结构。证据强度为经验性，依赖基础模型推理能力，但缺乏形式化保证；开放边界在于从语言模型获取可靠解释和减少幻觉。

# 运行期屏蔽

屏蔽将诊断信号转化为动作层面的干预，定义物理约束或重定向。 可认证的与控制理论的屏蔽：通过集合论方法确保前向不变性，或使用安全过滤器作为优化层强制执行约束，提供与策略无关的即插即用保护。已应用于安全抓取、遮挡避免等任务，但依赖强系统假设。证据强度高，具有形式化理论保证；开放边界在于需要精确物理模型，不适用于高维未建模场景，且需维护任务可行性。 学习式、潜在与语义屏蔽：在无显式动力学模型时，利用潜在空间验证扩散策略提议或通过认知不确定性主动避免分布外状态。将开放词汇场景理解转化为运行期过滤器，为视觉-语言-动作模型制定控制屏障函数，弥合规范与实时执行的差距。证据强度为经验性，理论上严谨但实际部署中绝对保证难以建立；开放边界在于高维环境中缺乏形式化安全保证。

# 运行期策略引导

引导通过预测性验证或学习信号在可行动作中选择低风险延续，主动管理执行安全。通过前向模拟动作提议并采用视觉语言模型验证器引导轨迹，或利用潜在世界模型预测状态以引导策略。轻量级部署采用辅助验证器动态偏向成功结果。为减少计算延迟，无验证器引导直接在生成过程中注入避碰梯度或操纵潜在空间特征方向。证据强度为经验性，成功率提升但依赖验证器质量或内部表示；开放边界在于需要解决计算延迟和分布外扰动下的鲁棒性。当无法巧妙规避时，需要过渡到修改高层任务计划。

运行期适应与任务恢复

当直接序列延续不再可行时，系统需要结构弹性：通过人类移交、交互纠正、重规划或自主恢复保留和恢复任务进展。

# 人类干预与控制权移交

最不保留自主性的响应，核心是精确识别移交时机。 干预触发：由内部不确定性（令牌级熵、场景可供性校准）或外部结构需求（安全关键任务中的精度约束）触发。证据强度为经验性，可基于统计标定信号；开放边界在于最小化不必要干预的同时及时响应累积风险。 干预结果：提供故障缓解的退路，其物理痕迹可作为安全执行边界的映射信号。通过触觉和三维视觉反馈实现动态可靠过渡。证据强度为经验性，基于示例；开放边界在于通用化到多种任务和物理场景的挑战。

# 交互式纠错与修复

机器人保持参与，利用外部反馈修复局部故障，维持部分自主性。 语义纠正与任务计划修复：在规划层修改局部目标，如通过环境差异预修动作、处理前提条件违规。人类语言可注入新约束或更新计划，系统可提炼纠正知识避免重复故障。证据强度为经验性，依赖语言理解；开放边界在于语言对精确空间纠正的有限效果。 空间纠正与执行层级修复：操作低维控制空间实现实时共享自主性，流式语言纠正监督策略并在线更新。语言反馈也可解释为安全约束的热启动。证据强度为经验性；开放边界在于低维控制空间对高维任务的适用性。 具身接口与物理纠正：通过虚拟现实或遥操作进行姿态微调，在线覆盖提供纠正数据用于训练残差策略，缩小仿真到现实差距。证据强度为经验性；开放边界在于依赖专用硬件和训练数据收集成本。

# 主动与反应式重规划

从动作层级重定向转向任务层级修订。 主动重新布线：在语义层面放弃不可执行计划，如通过场景图未对齐触发子任务边界修改空间动作序列，或在约束违反时即时重规划。证据强度为经验性；开放边界在于如何平衡主动修改与保持任务进展，以及应对复杂约束交互。 反应式动作综合与动态变通：当执行遇到可恢复不匹配时，综合新延续保持任务进展，如放宽时间规范或通过模块化设计触发针对性重规划。证据强度为经验性；开放边界在于确保重规划后执行可行性，避免累积风险。

# 自主恢复与任务还原

处理系统性故障，需要全面任务恢复。 进展感知回滚与倒带：询问当前状态是否可靠，若否则回滚到之前检查点。利用时间一致性监测、情景记忆或内部注意力模式识别可恢复状态。证据强度为经验性；开放边界在于回滚依赖进展的可逆性且需识别有效恢复点。 从故障数据中学习恢复策略：自动生成配对故障状态与恢复动作训练模型，或通过反事实故障综合生成数据。在线策略蒸馏利用专家教师弥补分布漂移。证据强度为经验性，需要大量故障数据；开放边界在于离线数据生成与现实执行状态匹配，以及分布漂移管理。 解释引导与提示优化恢复：利用基础模型进行故障定位和纠正规划，通过链式提示、多模态符号增强空间推理能力。将思维链嵌入视觉-语言-动作架构隐含纠正能力。证据强度为经验性；开放边界在于对语言模型幻觉和空间推理错误的处理。 分层、逻辑与结构化框架：基于行为树、神经符号恢复或谓词安全逻辑将开集推理锚定在可检查的结构内，保持恢复行为可追溯。证据强度较高，提供结构化回溯性保障；开放边界在于其开销和对新任务自动扩展的困难。

接触条件下的物理交互安全

当操作涉及物理接触时，安全取决于力、柔顺性和低层接触动态的调节。本节通过自适应顺应性、形式化约束和分层协调三个范式展开。

# 自适应顺应性与物理响应

被动顺应性与低层阻抗控制：通过调节机器人对外部力的动态响应（如状态依赖顺应性轮廓、本体感受外力估计）规避大力，提供即插即用导纳层，避免仿真到现实差距。证据强度为经验性，但基于扎实的物理原理；开放边界在于依赖接触模型准确性。 主动反应式力适应：将力或触觉线索集成到策略学习中，通过未来接触预测与反应式力感知控制实时调整执行行为，减少故障。证据强度为经验性；开放边界在于力反馈的噪声和处理高维触觉数据的计算成本。 基础模型中的多模态力觉感知：将力力矩数据令牌化并融合到视觉-语言-动作模型嵌入空间，或通过力蒸馏从视觉隐式推断物理线索。利用视觉语言模型推理调节阻抗参数。证据强度主要基于经验性成功率提升，缺乏形式化安全保障；开放边界在于集成方向不明确且缺乏通用保证。

# 接触规则的形式化约束

分析力边界与控制理论约束：通过构造力约束的控制屏障函数强制执行力极限，扩展到主动搜索、人机协作等领域。为防止保守中止，优先考虑任务一致性。证据强度较高，提供条件性形式化安全保证；开放边界在于复杂接触动态建模困难，常需不确定性观测器补偿模型与实际间差异。 数据驱动的潜在动力学安全过滤：将可达性过滤扩展到学习潜在空间，利用预训练视觉模型预判不安全接触。通过几何归纳偏置或仿真轨迹评估应对不确定性。证据强度为经验性安全保障；开放边界在于缺乏严格分析保证，且潜在过滤器可能引发控制不连续性。

# 协调多时间尺度安全的分层细化

通过解耦慢速语义推理与快速物理动态，在接触期间调度反应式控制。 时间尺度解耦的分层细化：名义规划器指导粗粒度语义进展，高速率反应式控制器补偿位置误差。提供经验性证据，证明精度瓶颈可被有效处理；开放边界在于层间交接安全仍是活跃研究前沿，缺乏形式化整体保证。

6 Evaluation and Benchmarks / 评测与基准

结果级与诊断型操作基准

能力导向的操作基准主要标准化结果级证据：策略是否完成任务、达到目标状态或推进长时域序列。这类基准对比较功能性能必不可少，但成功与否的二元指标不能等价于安全保证，因为不安全的中期行为往往不可见。当前评估的局限性在于：主流基准优先能力而非安全；新兴安全感知基准证据形式多样，但缺乏明确评估对象难以比较。在机器人操作基准中，结果导向范式仍占主导。CALVIN、LIBERO、FurnitureBench 等以任务成功率为核心。近期工作通过诊断性执行指标提升分辨率：VLABench 在二元成功之外补充进度分数；RoboEval 报告阶段进度、空间接近度和碰撞事件；诊断评估还统计环境碰撞、自碰撞和物体滑移事件。虽然平滑度、碰撞率和滑移提供安全相关洞察，但无法定义风险首次出现的时刻或伤害前是否干预。安全感知框架开始直接评估安全：EARBench 评估高层规划中的物理风险意识，SAFEL 解耦不安全命令拒绝与安全计划生成，SafeMindBench 和 IS-Bench 进一步扩展。这些框架的风险定义和度量体系存在差异，下节综述。

与干预层对应的安全证据

安全感知评估沿着具身流水线中不同证据对象发展。计划级评估在物理展开前评价任务规约、生成计划和约束；策略级评估评价轨迹是否满足目标任务及安全条件；运行期评估评价执行中的检测、干预和恢复；接触级评估测量物理交互量。以下各子节分别询问每个证据层能支撑什么以及声明边界。

# 规划级安全证据

规划级安全评估关注不安全或无效任务表示能否在物理展开前被识别。评估对象可以是任务提示、生成计划或形式化规约。早期基于语言规划的系统通过可执行性、计划有效性等处理安全相邻的质量问题，但不能表明计划执行后保持物理安全。 风险筛查与安全重规划：将安全视为拒绝不安全计划。SafePlan 评估计划是否满足前提条件、后置条件和不变量，使用二元分类指标评估对不道德或危险任务的接受或拒绝。Safety-as-Policy 等通过安全约束修复计划，安全率反映系统能否避免不安全高层计划。但评估强度依赖于危险模型，许多风险取决于物体放置、人类存在等上下文因素。 约束满足作为安全合规：将安全视为约束满足。VoxPoser、ReKep 通过语言或视觉上下文转化为规划器可用的约束。评估这种合规性在开放任务中有挑战，如 ReKep 中复杂任务的约束评估需人工。GroundedPlanBench 通过验证规划声明在空间可执行上下文中的接地，将评估转向显式限制和验证。 规约正确性作为可验证满足：通过规约正确性强化规划级评估。ConformalNL2LTL 及相关方法将翻译可靠性作为评估目标，报告翻译成功率和人机干预频率。验证引导方法如 LAD-VF 将形式化反馈集成到规划循环中，安全得分定义为成功满足规约的比例。这些方法比经验成功率更强，因为测量了相对于明确规约的正确性。规划级评估可证明不安全意图被拒绝、计划满足显式约束或形式化规约在展开前被满足，但仍是计划级声明。

# 策略级安全证据

策略级证据评估动作提交前塑造操作策略的机制带来的安全影响。许多策略时方法评估的是预承诺干预后产生的行为结果。我们将证据分为三个维度。 约束条件化行为：评估经显式约束塑造的策略能否在不牺牲任务性能下减少安全违规。SafeVLA 和 VLSA 报告累积安全成本和障碍避免率；SafeDec 使用 STL 满足度和鲁棒性分数，其他基础模型方法报告最大约束违反次数。安全声明受限于底层表示，如 STL 公式、成本函数或障碍谓词。 对齐条件化行为：评估策略行为是否与人类偏好或上下文期望对齐。GRAPE 将视觉-语言-动作策略与偏好对齐，报告改进成功率和降低碰撞频率。一系列偏好奖励方法表明稀疏人类反馈能产生更精细操作行为。MEReQ 利用主动人类干预轨迹推断残差奖励。 风险压力行为：评估策略时安全机制在扰动或对抗场景下是否有效。SafeVLA 考察习得安全行为是否在感知和语义扰动下持续；HazardArena 利用匹配的孪生场景揭示策略向危险演进；RedVLA 通过合成风险承载场景进行物理红队测试。这些证据是场景依赖的，报告的安全水平与危险构造和任务可行性保持密切相关。策略时行为证据是预承诺策略塑造的行为验证，比计划级验证更严格，但仍比运行期或接触级粗糙，无法指出风险时间起始或物理交互严重程度。

# 运行期安全证据

运行期证据评估系统执行过程中的操作行为，关注能否检测偏离、触发干预并恢复任务。我们分为四个维度。 故障丰富运行期数据集与可观测性：新兴故障中心数据集提供带注释的轨迹和标签。AHA、Guardian、RoboFAC、ViFailback 等构建故障轨迹用于诊断推理；LIBERO-Anomaly-10 和 RC 基准转向执行时故障迹线。这些数据集是评估机器人避免或从故障中恢复的前提。 故障检测与早期预警证据：评估监控器区分潜在故障与正常执行的能力。SAFE 利用 AUROC 评估分数可区分性，分析平衡准确率与检测延迟的权衡；FAIL-Detect 和 FIPER 采用序列式检测或动作块熵，更早精确触发警报。I-FailSense 扩展到视觉语言模型基础语义故障检测。平均报警时间反映执行过程中的情境感知。 干预与决策延迟证据：评估运行期信号的可执行性。干预率 ρ_int 和相应成功率 SR_int 衡量。Ask Before You Act 利用词元级不确定性确定何时征询人类纠正。追踪干预率与成功率评估安全自主性和交互训练有效性。但指标对校准敏感，应伴随检测器规格报告。 恢复与重规划证据：评估故障后行为，通过恢复成功率 SR_rec 衡量。REFLECT 生成故障解释条件修正规划器；RePLan 和 RACER 利用视觉语言模型反馈在线自适应。但二元成功率掩盖恢复质量和安全代价。需细粒度指标如恢复效率、二次违规率和轨迹平滑度。运行期证据构成集成执行监控层：数据集建立偏离可观测性，检测量化预警，干预验证部署，恢复评估自主恢复。但仍是操作代理，未验证物理伤害被限制。

# 接触级安全证据

接触级证据最接近直接物理安全，测量接触力、冲量、滑移或接触稳定性，在长时域操作中尤为重要。 接触对齐数据集与可观测性：新兴数据集提供时间同步的力/力矩、触觉和阶段标签。ForceVLA、ForceVLA2 集成多模态观察和力提示；TaF-VLA 提供高维触觉观测与六轴力/力矩和力图。力中心模仿和扩散数据集记录接触密集型任务的力域动作信息。 力调节证据：评估力大小和阈值合规性。ForceMimic 评估交互力是否接近专家分布；FORGE 分析力相关量与成功率关系；PhaForce 通过平均接触法向力区分有效执行与过压或接触丢失。CompliantVLA-adaptor 采用硬力阈值准则，力约束成功率 SR_F,k 受阈值和传感器质量影响。 持续时间敏感质量与时间证据：评估接触的时间完整性。工作评估接触保持阶段的力均值和方差衡量调节稳定性；ForceVLA2 检测任务完成后无效接触。这些补充瞬时力测量，提供更全面理解。接触级证据仍存在边界：力阈值依赖传感器精度和校准，稳定性指标受物体表面特性影响，且通常收集于隔离场景，不能直接推广至动态接触序列。当前尚无统一端到端基准同时覆盖四层安全证据，各层级指标不可互换，也未能组合成可验证的全流程程序安全。这成为具身安全评估的核心缺口。

7 Future Directions and Opportunities / 未来方向与机遇

图 6：跨层安全研究路线图。五条核心路径连接抽象层、仿真与现实、不同具身与策略模型、分布偏移下的风险校准及过程安全可观测性，并由多模态安全、部署保障和评测基础设施提供支撑。来源：原论文 PDF 第 44 页。

长时程操作的跨层安全方向

本小节聚焦跨越不同抽象层的安全路径，关注安全信息在抽象边界间的保存、证据从仿真到硬件的过渡、跨具身和模态的重新验证、分布漂移下的校准以及过程安全的可观测性。这些方向旨在将层内安全栅转化为更坚实的跨层安全证据。

# 连接不同抽象层

改善安全相关信息在任务跨越抽象层时的保存。在长时程操作中，安全约束通常不会停留在单一表示中。自然语言指令可能依次转化为接地任务描述、符号目标、时序逻辑约束、空间或物体中心约束、轨迹片段，以及最终的接触丰富物理交互。在每一层边界，安全相关信息都可能被削弱或丢失：语义意图可能与物理可行性分离，符号约束可能与几何裕量分离，高层次进度结构可能与接触限制分离。现有文献已提供部分跨层桥梁。例如，可正定性感知规划系统将语言级动作的有用性与状态条件的技能可行性相连接。形式化与结构化规划流水线将语言指令或安全约束转化为面向规划器的符号对象、时序公式或前置条件/后置条件检查。任务与运动规划框架将符号规划与连续可行性程序相连接，使抓取、逆运动学和碰撞约束在规划期间可用。语言到几何方法进一步将自由形式指令降低为3D价值图、关系关键点约束、任务感知空间约束或3D语义约束。这些工作暴露出的跨层问题并非某种表示天然更安全，而是每种表示保存了不同的安全变量。程序化接口暴露了可执行API、对象列表以及在执行前可检查的断言式结构。令牌化动作模型暴露了用于掩码或约束解码的离散干预面，而轨迹和扩散策略则暴露了可被几何过滤或投影的连续动作。潜在或记忆增强的视觉-语言-动作模型可支持长程上下文保持，但也可能在黑盒表示内隐藏安全关键变量。未来工作应使抽象边界具备安全感知能力：当在规划层引入一个约束时，系统应保存足够的元数据，供后续层了解该约束是语义、几何、时序还是物理类型。例如，“避开红色区域”可能需要符号区域命名、几何裕量和轨迹级排除。“轻轻插入”可能需要接触相位识别、力限制和柔顺参数。设计这些安全协议和跨层安全感知自主框架是一个有前景的未来研究方向。

# 跨越现实鸿沟的安全接地

将仿真到现实的迁移视为安全证据问题，而不仅仅是性能迁移问题。许多操作策略和安全机制是在仿真器、精选基准或受控实验室环境中开发的，在这些环境中，感知、动力学、对象属性和干预时机更易控制。然而，在仿真中得到支持的安全声明，当同一策略部署在具有不同感知噪声、接触物理、执行器限制或对象变化的硬件上时，可能被削弱或失效。现有仿真到现实研究提供了有用的工具。动力学随机化训练策略覆盖模拟物理参数的分布，使习得行为减少对单一仿真器配置的依赖。自适应仿真随机化进一步利用真实部署结果调整仿真分布以贴近真实系统。面向操作的系统增加了其他形式的迁移支持：使用人类在线纠正来修复未建模的仿真现实差距，通过少量人类示范适应新物体和场景配置来合成大规模操作示范，以及通过仿真基础设施增加接触丰富操作环境的规模和多样性。然而，对于安全性，相关问题不仅在于策略迁移后是否仍能成功。一个成功迁移了任务成功的策略可能同时迁移了无效的安全假设。它可能在保持物体放置精度的同时违反力限制，在保持避碰的同时失去恢复裕量，或者在真实硬件上触发干预过晚。这在接触丰富操作中尤为关键，因为摩擦、触觉感知或力控制中的微小差异可能将语义正确的动作变成物理危险。未来工作应将现实差距作为安全论证的一部分，使迁移后的安全声明更加可靠。

# 跨具身与策略模型的安全迁移

分离能力迁移与安全迁移。大规模机器人数据集和通用策略越来越多地支持跨任务、传感器、动作空间和机器人具身的迁移。最近的大规模机器人数据集和基础通用策略显著拓宽了可用于训练的经验多样性，并实现了跨不同平台的无缝适应。这一趋势对可扩展操作至关重要，但也提出了新的安全问题：当一个策略、表示、奖励模型或安全先验在新的平台上被复用时，原始安全声明的哪些部分仍然有效？答案可能因抽象层次而异。语义先验，例如避开人或谨慎处理易碎物品，可能比物理约束更容易迁移。空间约束必须在目标机器人的几何结构、传感器校准、运动学可行性、有效载荷和工具配置中重新接地。与接触相关的声明更具具身特异性，取决于夹爪柔顺性、触觉感知和执行器限制等条件。最近的力与触觉感知视觉-语言-动作工作突显了普通视觉-语言-动作表示中缺失了多少物理交互信息。模型更新也造成了类似的重新验证问题。一个视觉-语言-动作策略可能被微调、蒸馏、对齐或在新的数据上进行后训练。例如，奖励模型可能随新偏好更新，或故障检测器可能在新部署结果上重新校准。每次更新都可以在提升能力的同时改变动作、置信度分数或干预触发的分布。未来工作应在机器人、传感器堆栈、动作空间、数据集或策略模型发生任何变化时，使重新验证边界明确化。此外，减轻跨不同具身的重新验证负担也是扩展通用机器人模型的另一个关键研究方向。

# 面向干预选择的校准风险解释

跨层和部署条件校准安全相关信号。长时程操作系统越来越依赖异质风险指标，包括语言歧义、视觉接地不确定性、动作置信度、异常分数、故障检测器输出、力阈值和人类干预痕迹。这些信号很有用，但它们不支持相同的安全声明。形式上检查的约束违反、统计上校准的故障检测器和人类纠正信号不应被视为可互换的证据。近期工作揭示了这一问题的不同方面。例如，关于视觉-语言-动作模型置信度校准的工作表明，高任务成功率并不必然意味着对成功可能性的可靠自我估计。其他研究将运行时安全推向更近，通过使用内部视觉-语言-动作特征和共形预测，以明确的准确性与及时性权衡产生故障警报。其他检测方法识别出不同的故障类别，如观测空间分布外、机器人-物体状态分布外、任务级失败、动作分布不确定性或时序不一致性。这些研究表明，核心挑战不仅是提高检测器精度，还要确定每个校准信号的具体语义含义。缺失的环节是从校准证据到干预语义的系统性映射。一个弱的语义不确定性信号可能只值得请求澄清，但不一定需要立即的物理屏蔽。一个校准的故障警报可能证明需要停止、回溯或交接，但它并未说明任务是否需要高层重新规划还是局部策略调整就足够了。更广泛的长时程操作缺乏一个原则性的方法来解释哪些信号应触发特定的辅助模式以及应在何种操作范围内进行。最后，这种信号到干预映射的脆弱性因分布漂移而加剧。一个在特定任务、具身和传感器配置上校准的检测器，在环境或策略参数改变时可能失去其有效性。未来系统必须开发在广义设置中保持稳健且能够重新校准的信号到干预映射。

# 程序安全的可观测性

使部署轨迹的安全历史可见，而不仅仅是其最终结果。在长时程操作中，一个任务可能在机器人经历了近失、不稳定抓取、过度接触、延迟干预或从该状态无法安全继续的恢复状态后完成。相反，一个失败的任务仍然可能与安全相关，如果机器人提前发现问题，避免了损害，并保持了可恢复的状态。因此，核心问题变为：执行轨迹必须记录哪些具体信息才能有效区分安全成功、安全失败、不安全成功和不安全失败？近期基准工作提供了初步步骤，但观察结果仍然碎片化。一些基准突显了二元成功率可能隐藏诸如抓取时打滑之类的执行质量失败。其他基准评估具身代理是否注意到新兴风险并按正确的程序顺序执行缓解动作。然而，这些基准表明安全评估正在超越最终成功，但它们尚未提供关于风险如何出现、演化以及在层间得到缓解的通用轨迹级记录。缺失的环节是一个全面的、跨层的安全记录。这样的记录不仅应报告任务完成情况，还应报告危险的开始、在安全裕量被突破前缓解措施的有效性、接触边界的维持以及干预的及时性。其目标不仅是向现有基准追加更多指标，而是使部署轨迹的安全相关历史可检查到足以支持一项安全声明。程序安全可观测性要求评估保留安全证据的时间和因果结构：识别哪些风险被预见到了，哪些出现了，哪个层做出了响应，以及该响应是否导致了不违反条件的继续。建立基于这些整体具身人工智能生命周期的数据集和基准仍然是未来研究的关键方向。

研究机遇

除了操作特定的安全机制研究，几个相邻的安全研究领域为更安全的长时程具身人工智能提供了有用的机遇。语义与多模态安全研究可以贡献上游机制来识别不安全指令和接地不确定性。部署保障与事故学习实践可以阐明安全声明应如何记录、限定、监控以及在部署后修订。大规模机器人数据基础设施、仿真平台和场景生成工具可以使安全证据更具可扩展性和跨平台可比性。

# 语义与多模态安全

机遇首先来自关于通用人工智能代理、语言模型和多模态基础模型的安全研究。在纯语言系统中，对齐和安全性研究已发展出通过人类反馈、显式原则、模型生成的批评和输入输出保障来塑造模型行为的机制。强化学习从人类反馈风格指令调整显示了人类偏好反馈如何使模型输出与用户意图对齐，而宪法式人工智能则说明了如何使用规则式原则来批评和修订模型行为，减少对直接人类标注的依赖。护栏模型进一步表明安全策略可以作为风险分类器和输入输出分类器来操作化，而多模态安全基准则突显了视觉-语言模型在图像-文本不安全组合上的脆弱性，即使其语言主干已经过安全对齐。对于长时程操作，这些方法在被重新解释为上游语义安全机制时最为有效。一个护栏类模型可以帮助检测危险或未指定的指令，暴露从自然语言命令中省略的潜在约束，或确定任务在执行前是否需要人类澄清。多模态安全模型可以类似地帮助识别视觉接地危险，例如不安全的物体-上下文关系、人类接近、易碎物品或模糊的可正定性。关于大型视觉-语言模型中物体幻觉的研究尤为相关：研究表明视觉-语言模型可能断言存在视觉输入不支持的物体。在具身语境中，当这些幻觉被用于选择操作目标、推断可正定性或定义任务前置条件时，就变得安全关键。这种机遇的融合定义了一个独特且引人注目的研究前沿：具身语义安全。首先，安全基础模型可以从静态文本-图像过滤扩展到动态、长时程的风险分类，捕捉物理危险、物体易碎性和执行期间的时空异常。其次，语义监控器不应仅作为被动否决过滤器，而应开发安全驱动的主动引导，量化自身上下文不确定性，并在高层指令缺少明确安全规范时主动询问用户。通过探索这些以机器人为中心的挑战，多模态护栏有可能从数字过滤器演变为物理自主性的主动基础。

# 部署保障与事故学习

第二个机遇来自系统安全、人工智能治理和保障工程领域。在安全关键领域，只有当系统的声明、假设、证据、风险和操作边界被明确记录和维护时，系统才可部署。保障工程实践强调安全证据必须围绕显式声明构建，而不是仅作为基准性能报告。对于长时程具身人工智能任务，这表明有机会从局部性能声明转向可审计的部署论证。这一视角扩展了具身系统所需的文档范围。一个全面的安全声明描述了系统预期运行的操作上下文，涵盖机器人具身、夹爪、传感器、动作表示、工作空间假设和物体类别。它进一步考虑人类接近条件、接触限制、干预协议和恢复程序。来自负责任的机器学习的文档实践，如模型卡和数据集的数据表，为公开这些边界提供了有用的模板。在机器人操作中，类似的策略卡或机器人数据数据表可以记录哪些具身、传感器、任务、危险、接触机制、故障案例和恢复场景在训练和评估中被覆盖。此类文档有助于通过澄清证据强在哪里、缺失在哪里以及何时部署需要重新验证来防止过度声明。一个补充性机遇是事故学习。当前的人工智能事故报告倡议旨在收集和分类真实世界的危害和近似危害，以识别部署后反复出现的风险。对于长时程操作，一个可比较的实践将不仅记录灾难性故障，还记录近失、不安全成功、不必要的人类干预、延迟交接、接触异常以及机器人完成任务但违反了隐含约束的实例。部署保障的价值在于将安全视为一个活的部署论证，通过文档、事故学习和具身特异性重新验证来持续更新。

# 大规模数据、仿真与评测基础设施

第三个机遇在于用于收集、整理、仿真和评估安全相关机器人经验的基础设施。近期大规模数据倡议表明操作研究正从孤立任务示范转向共享、多环境、多具身的数据生态系统。数据集如罗博网、桥梁数据V2、开放X-具体化、DROID等显著扩大了机器人经验的规模和多样性，而通用策略展示了此类数据如何支持跨任务、传感器和具身的广泛预训练和适应。这种数据扩展的趋势提供了重要的安全机遇，因为更广泛的数据覆盖可能减少因常见分布漂移触发的脆弱行为。然而，更广泛的能力数据并不等同于安全数据。如果一个数据集主要由成功的专家示范组成，那么产生的策略可以被训练而不学习停止、寻求澄清、从失败中恢复或避免潜在物理风险的能力。这种区分与近期关于语言模型安全预训练的工作一致：安全行为不会随着模型规模自动涌现；相反，它需要有针对性的努力，例如安全意识的策划、对危险内容的结构化拒绝以及明确的危害标注。因此，机器人领域的类比不仅仅是要收集更多成功的示范，而是要构建捕捉安全相关多样性（危险、近失、失败尝试、接触测量和不安全成功）的数据基础设施。以失败为中心的数据集和处理框架，通过将错误轨迹、失败解释和纠正信号作为监督，正朝这个方向前进。

8 Conclusion / 结论

本综述将安全长时域机器人操作定位为具身人工智能的关键锚点领域，并论证了其安全挑战本质上具有跨层特性。在这一设定中，安全性不仅取决于系统能否规划、执行或恢复，更取决于安全相关的假设、约束和失败信号如何在规约、规划、策略形成、执行和评估各层之间传播与交互。基于这一跨层视角，我们按干预点、故障模式和证据类型对文献进行了组织，而非仅按方法家族，从而揭示不同层面的共性与局限。综述揭示出进展与保证之间存在明显失衡。规划阶段的方法能够改进指令语义落地、规约刻画、任务分解、可达性验证以及运动可行性支持，但在开放世界操作中极少有方法能保证安全执行。策略阶段的方法可以通过约束或对齐动作生成来调节行为，然而其多数证据仍是经验性的、针对具体任务的。执行阶段的方法因而不可或缺，因为在长时域操作中，即使上游组件看起来可靠，系统仍然易受累积漂移、接触不确定性、状态失配以及恢复失败的影响。与此同时，当前的评估实践仍然局限：仅凭最终任务成功过于粗糙，无法捕捉过程安全性、中间违规行为、恢复质量以及残余风险。这种失衡表明，安全保证远未追上方法改进的速度。更广泛地看，现有文献在经验性启发方面丰富，但在面向操作为中心的具身系统的形式化或基于统计的安全声称方面则相对薄弱。这一差距并不削弱当前方法的实际价值，但要求我们在表述和比较安全声称时具备更高的精确度。因此，本综述的核心信息是：必须区分一个方法改进了什么与实际保证了什么，并将规划阶段、策略阶段和执行阶段的安全性明确分开，而不是将它们视为可互换的“安全行为”概念。这一区分对于构建可论证安全的机器人系统至关重要。展望未来，若干方向尤为重要：在自然语言歧义条件下构造更忠实的安全规约；设计更具表达性和可监控的动作表示；明确机器人何时应该行动、询问、暂停或移交的决策规则；建立更强的任务可恢复性概念；以及制定将安全性视为过程属性而非二元结果的评估协议。更一般地，进步可能更多依赖于清晰的跨层安全架构、更强的证据纪律以及更有原则的部署论证，而非单一的算法突破。在这个意义上，安全长时域机器人操作不仅是一项重要的应用领域，也是研究语义意图、物理交互与系统级监督之间对齐问题的一面有用透镜。

原文信息

论文题目：Safe Embodied AI for Long-horizon Tasks: A Cross-layer Analysis of Robotic Manipulation 作者：Dabin Kim、Daemin Park、Sangyub Lee、Jinsik Kim、Yeongtak Oh、Jongho Shin、Sungroh Yoon arXiv：https://arxiv.org/abs/2606.05660 PDF：https://arxiv.org/pdf/2606.05660

成为VIP会员查看完整内容

导读