具身AI安全综述：风险、攻击与防御

论文标题：Safety in Embodied AI: A Survey of Risks, Attacks, and Defenses
作者：Xiao Li, Xiang Zheng, Yifeng Gao 等（复旦、香港城大、吉林大学、新加坡管理大学、UIUC、UC Berkeley、墨尔本大学、清华等）
论文链接：https://arxiv.org/abs/2605.02900

一、引言

具身人工智能（Embodied AI）将感知、认知、规划与交互能力集成为一体，使智能体能够在开放世界、安全关键的环境中自主运行。与纯数字AI系统不同，具身智能体必须在不确定性感知、不完整知识和动态人机交互下行动——任何失误都可能导致直接的物理伤害。

随着这些系统进入交通、医疗、工业和辅助机器人等领域，其安全性问题既面临技术挑战，也具有社会迫切性。本文综述了超400篇论文，对具身AI安全研究进行了系统性、结构化的梳理，涵盖了从感知、认知、规划到动作与交互、以及智能体系统的完整具身流水线。

二、核心贡献

多层次分类体系：将碎片化的研究工作统一到一个连贯的多层次分类体系中，涵盖感知、认知、规划、动作与交互、以及智能体系统五大能力层。
超400篇论文综述：将具身安全研究与视觉、语言和多模态基础模型的安全研究进展相融合。
关键研究空白：识别出多模态感知融合的脆弱性、越狱攻击下的规划不稳定性、以及开放场景中人机交互的可信度等被忽视的挑战。

三、能力层与安全风险

论文提出了具身AI的"能力-风险"二重性框架——能力越强，攻击面越广：

能力层	关键攻击类型	现实风险
感知（视觉、听觉、空间、运动）	对抗攻击、后门攻击、传感器欺骗/干扰	错误识别目标、导航失败、系统故障
认知（场景理解、空间推理）	对抗攻击（推理操纵）	导航错误、危险避障失败
规划（任务规划、轨迹规划）	对抗攻击、越狱攻击、后门攻击	碰撞风险、违反安全规则
动作与交互（控制执行、人机交互）	对抗操纵、后门攻击	不安全人机交互、物理伤害
智能体系统（记忆、工具使用、自我进化）	工具误用、记忆投毒、记忆泄露、级联故障	隐私泄露、系统级崩溃、对齐漂移

3.1 感知层安全

感知是具身AI的最内层，也是最广泛的攻击面：

视觉感知：白盒攻击（如RP2、ShapeShifter）和黑盒攻击（如CAMOU、NS Attack）均可通过数字或物理方式欺骗目标检测、跟踪和分割模型。现代视觉编码器（CLIP、ViT、SigLIP）的脆弱性会级联传播到所有下游系统。
听觉感知：CommanderSong、Devil's Whisper等攻击可注入人耳无法辨识但机器能识别的恶意语音指令。
空间感知：LiDAR欺骗（如FLAT、LiDAR-Adv）和SLAM攻击（如AoR）可导致自动驾驶车辆定位漂移或碰撞。
运动感知：GPS欺骗、IMU声学注入等传感器级攻击可直接操控无人机的运动感知。

3.2 认知层安全

认知层负责场景理解和语义推理，攻击者可操纵推理过程使系统做出不安全决策。该领域研究相对较少，是重要的开放问题。

3.3 规划层安全

规划层包括任务规划、轨迹规划和指令跟随：

任务规划：越狱攻击可绕过安全约束生成恶意目标，如RoboJail和BadRobot等方法。
轨迹规划：对抗攻击可操纵轨迹预测模型（如AdvTraj），使自车规划出碰撞轨迹。
后门攻击：将隐藏触发器嵌入规划策略中，在特定条件下激活危险行为。

3.4 动作与交互层安全

该层涵盖机器人控制策略和人机交互：

控制策略：对抗策略攻击（如Adversarial Policy）可在对抗环境中诱导agent采取次优甚至危险的行动。
人机交互：物理后门攻击和提示注入可绕过安全协议，导致机器人执行有害操作（如TrojanRobot）。
Vision-Language-Action (VLA) 模型安全：作为新兴方向，VLA模型（如RT-2、OpenVLA）的对抗鲁棒性和后门脆弱性正在被广泛研究。