边缘侧具身基础模型：部署约束与缓解策略综述

在具身边缘系统中部署基础模型从根本上是一个系统问题，而不仅仅是模型压缩问题。实时控制必须在严格的尺寸、重量和功耗（SWaP）约束下运行，其中访存流量、计算延迟、时间波动性和安全余量直接相互作用。“部署挑战”将这些约束组织成八个耦合的障碍，决定了具身基础模型能否在实践中可靠运行。在代表性的边缘工作负载中，自回归视觉-语言-动作（VLA）策略主要受内存带宽限制，而基于扩散的控制器更多地受计算延迟和持续执行成本的限制。因此，可靠的部署取决于内存、调度、通信和模型架构之间的系统级协同设计，包括将快速控制与较慢的语义推理分离的分解方法。

1 引言

基础模型（Foundation Models, FMs）[133] 从超大规模数据中心向资源受限的边缘平台迁移，从根本上改变了智能本身的执行范式 [15, 99]。云端 FMs 通常基于电力供应弹性、冷却资源充足以及延迟约束相对宽松的假设进行开发。然而，具身平台（Embodied Platforms）打破了这三项前提。自主移动机器人（AMRs）、航空系统及穿戴式设备必须在严格的尺寸、重量与功耗（SWaP）预算以及硬实时约束下执行感知、推理与控制任务 [46]。在此环境下，部署基础模型不仅是一个模型压缩问题，更是一个闭环系统问题 [135]：尽管存在温度波动、电池电量限制、共享内存竞争以及时序敏感控制等干扰，内存密集型推理仍必须保持高度可靠。这一背景使**莫拉维克悖论（Moravec’s Paradox）**从哲学思考转变为工程现实。对于大模型而言，高层逻辑推理已变得愈发易得，但稳健的感觉运动集成（Sensorimotor Integration）在计算上依然昂贵，且在架构上极其脆弱 [118]。具身自主性依赖于多模态感知，这种感知必须将光、声与几何信息紧密对齐，以维持控制保真度 [61]。一旦这些多速率、异步的传感器流与大型内存密集型基础模型相结合，主导瓶颈便从单纯的模型准确率转向了时序、带宽、同步以及运行时的稳定性。在非具身或以云为中心的部署场景中，这些瓶颈远没有这么严重。因此，本综述通过制约具身基础模型在边缘平台可靠部署的系统约束来对其进行审视。我们并不打算全面调查整个边缘技术栈，也不将中间件、嵌入式操作系统或传感器硬件作为独立课题。我们仅在这些因素成为闭环 FM 部署的首要约束时才对其进行探讨。我们的核心观点是：许多最具影响力的具身部署失败并非仅源于参数规模，而是源于感知、计算、内存、时序、功耗与控制之间的跨层交互作用。

1.1 多模态执行的必然要求

闭环自主性要求世界表示（World Representations）能够在严苛的延迟预算内完成更新并触发行动。视觉-语言-动作（VLA）架构（如 RT-2 和 OpenVLA）通过在统一的推理栈中融合感知、语义对齐和策略生成来实现这一目标 [85, 214]。这种统一化简化了接口并提升了跨模态推理能力，但同时也使感知、推理与控制处于同一关键路径上。一个典型的 7B 参数 VLA 模型可能需要持续的高带宽权重迁移、密集的注意力机制计算以及对异构传感器流的高度同步接入 [45]。这些需求往往超出了嵌入式边缘平台所能提供的延迟、带宽和调度余量。这种不匹配具有模态特异性。在 NVIDIA Jetson AGX Orin 和 Qualcomm RB5 等加速器上，稀疏的 LiDAR 工作负载往往导致密集张量硬件利用率不足，并产生由 CPU 介导的“散射-聚集”（Scatter-gather）开销 [36, 162]。基于 Transformer 的音频模型可能会超出低功耗 DSP 的 SRAM 容量，被迫进行高昂的片外访存 [134, 210]。高分辨率视觉编码器产生的瞬时流量可能使 LPDDR 通道饱和，并触发热节流（Thermal Throttling）[40, 43]。更广泛地说，在服务器级场景中偏好大型跨模态基础模型的设计趋势 [136, 165]，在传感器边缘侧变得难以为继，因为参数规模、深层注意力栈和自回归解码放大了内存压力、延迟波动和调度不稳定性 [160]。这些执行压力促使我们必须从系统视角审视具身 FM 的部署。

1.2 部署挑战（The Deployment Gauntlet）

当前在受限硬件上部署基础模型的方法大多强调局部优化，如量化和剪枝 [59, 88]。这些方法虽然降低了推理成本且极具价值，但并不能解决具身部署中的主导性失效问题——即在闭环执行下感知、计算、内存、时序与控制之间的交互问题。在具身系统中，某一层级的压力会迅速传导至整个技术栈，从而降低整体可靠性。为了系统化梳理这一问题，我们引入了**“部署挑战”（Deployment Gauntlet）**，这是一套系统分类法，定义了具身基础模型在实时边缘环境中实现稳健运行必须满足的条件。图 1 总结了构成“部署挑战”的八大障碍。它们涵盖了具身智能流水线中反复出现的瓶颈，包括多模态感知与数据迁移、异构计算与共享内存、时间敏感型控制、长时运行、安全执行以及边缘-云协同。尽管在分析时它们各具特性，但在实践中却是高度耦合的：某一维度的压力往往会放大其他维度的失效。因此，该分类法为评估制约实时具身 AI 的部署约束提供了一个具象的框架。我们将“部署挑战”划分为贯穿“从感知到控制”连续体的八个耦合障碍： 1. 传感器融合税（Sensor Fusion Tax）：由异步传感器流的时间对齐引入的延迟与抖动，包括中间件（如 ROS 2）引发的序列化和缓冲开销。 1. 异构计算失配：当稀疏或不规则的工作负载映射到专为密集、静态矩阵运算优化的加速器上时产生的低效性。 1. 统一内存瓶颈：高带宽模型权重流传输与共享内存通道上的持续传感器数据接入之间的资源竞争。 1. 能耗与散热天花板：持续运行期间由热节流和电池耗尽导致的性能退化。 1. 长时漂移（Long-Horizon Drift）：在长时间部署过程中，状态估计、校准和时钟同步的渐进性失效。 1. 安全与验证鸿沟：由控制回路中的幻觉状态或分布外（OOD）行为引发的安全关键型故障。 1. 实时调度干扰：由操作系统抖动、非确定性内核执行以及共享加速器竞争导致的控制不稳定性。 1. 通信约束：限制边缘到云端卸载（Offloading）及多智能体协作的带宽与延迟限制。