【ICML 2026】面向视野外操作的VLA空间记忆框架SOMA

导读

在机器人操作领域，视觉-语言-动作模型（VLA）正成为将自然语言指令映射为具体动作的主流范式。然而，大多数现有 VLA 模型隐含地假设任务相关物体始终可见，在固定视角或单视图设置下训练和推理。一旦目标物体因遮挡、移动或机器人自身视角变化而离开相机视野，模型就会陷入“盲操作”：既无法定位物体，也无法执行抓取或放置动作。这一“视野外操作”瓶颈严重限制了 VLA 在真实动态环境中的鲁棒性，尤其是在需要主动探索或多步协作的场景中。

来自香港科技大学（广州）、AI2Robotics 及香港科技大学的研究团队提出了 SOMA（Spatial Memory for Out-of-Vision Manipulation）框架。该框架通过为 VLA 模型配备持久性的空间记忆，从根本上解决了视野外推理问题。SOMA 的核心创新在于：它不仅依赖当前视觉观察，而是通过移动头部相机主动扫描场景，构建统一的空间-语义记忆，并在操作过程中动态精炼和检索该记忆。这一设计使机器人能够在目标物体从未出现在当前视野中的情况下，依然基于先前获取的全局场景信息进行推理和操作。

这篇论文值得每一位从事机器人学、具身 AI 和 VLA 模型研究的读者关注。它直击当前 VLA 范式的关键缺陷——静态视角空间推断的脆弱性，并提出一种简洁而有效的工程化解决方案。实验在五个真实的挑战性任务（包括多步骤和双臂场景）上验证了 SOMA 的显著优势，不仅提升了成功率，还催生了定性不同的操作行为（如更快的目标定位、减少视角搜索、近似一次性抓取）。此外，该论文已被 ICML 2026 接收，方法代码即将开源，具有极高的可复现性和实用价值。

论文基本信息

英文题目 SOMA: Spatial Memory for Out-of-Vision Manipulation in Vision-Language-Action 作者 Pengteng Li, Weiyu Guo, He Zhang, Tiefu Cai, Xiao He, Yandong Guo, Hui Xiong arXiv ID 2605.22283 类别 cs.RO Comments Accepted by ICML 2026 原文链接 http://arxiv.org/abs/2605.22283v1

摘要

本文提出 SOMA，一种为视觉-语言-动作模型设计的空间记忆框架，用于解决视野外操作问题。大多数现有 VLA 模型隐含假设任务相关物体始终可见，当目标落在相机视野之外时，模型表现出脆弱和反应性的行为。SOMA 通过为 VLA 配备持久性的空间记忆来克服这一局限，该记忆由移动头部相机获取的多视角观察构建而成，使推理能够超越当前视觉截锥体。框架包含三个组件：空间记忆构建（通过扫描将角度观察聚合为统一的空间-语义表示）、动态记忆精炼（随时间维持全局一致性）和上下文记忆检索（在操作过程中激活与指令相关的空间线索）。我们在五个自设计的挑战性真实世界视野外操作任务上评估 SOMA，包括目标物体初始不可见的多步骤和双臂场景。实验结果表明，SOMA 不仅提高了任务成功率，还诱导出定性不同的操作行为：更快的目标定位、更少的视角搜索，以及在部分可观察条件下的近似一次性抓取。在 RoboCasa GR1 和 SimplerEnv 上的额外实验进一步验证了 SOMA 的记忆设计在传统完全可观察设置下的有效性。代码即将开源。

引言：论文要解决什么问题

背景与现状

视觉-语言-动作模型（VLA）近年来成为机器人动作建模的核心方向。这些系统通常将大规模预训练的多模态大语言模型（MLLM）与专用动作头或动作模块结合，将视觉观察和自然语言指令映射为可执行机器人动作。借助 MLLM 强大的感知和推理能力，VLA 模型在多样化操作场景中展现了良好的泛化性和任务灵活性。然而，大部分现有 VLA 模型在固定视角桌面操作设置下开发，通常依赖单个静态相机或第三人称视角。这种配置之所以被广泛采用，是因为它简化了相机-机器人标定、提供稳定状态估计、无需多视角协调或显式空间融合即可进行大规模数据采集。其后果是：这些模型隐式地在“视图受限”假设下运行——即在决策时刻，指令中引用的物体必须位于机器人当前相机视野内。

核心痛点：视野外操作失败

图1生动展示了这一限制：即便同时拥有头部相机和左右臂相机等多个固定视角，由于缺乏全局空间记忆，系统无法定位视野外的目标（如粉色杯子），导致任务失败。当目标物体被遮挡或暂时离开视野时，模型缺乏推断其存在或空间关系所需的上下文，感知-动作环路变得严格依赖当前视图。

现有工作的不足

近期有工作尝试在静态相机设置下通过内部空间推理补偿视野外感知，即利用学习到的空间先验推断不可见目标。然而，这种推理本质上是脆弱的：现有 MLLM 只有在存在部分视觉证据或物体相关线索时才能可靠推理，一旦目标完全离开可观察视野，其空间估计迅速恶化。当推断关系偏离物理现实时，误差会沿感知-动作管道传播，导致定位不准、动作失调或任务失败。这说明当前 VLA 范式的根本局限：缺乏感知证据支撑的空间推理，不足以实现鲁棒操作。如果物体从未被观察到或过去观察未保留，单纯增加模型容量或推理深度无法弥补感知缺失。

本文方案

基于上述洞察，作者提出 SOMA 框架。其核心思想是：为 VLA 模型配备持久性空间记忆，主动获取视野之外的感知证据，并以一致的方式保留下来。通过移动头部相机扫描场景，整合角度视图中的语义和几何信息，构建统一的全局记忆。在操作过程中，记忆被动态精炼并受语言指令引导检索，从而支持视野外推理和操作。图1：现有VLA模型的视野外（OOV）局限。目标杯子位于头部和双臂相机当前视野之外时，反应式感知-动作链路缺少可用证据，容易导致任务失败。

方法：核心思路与技术路线

SOMA 框架整体由三个核心组件构成：空间记忆构建（Spatial Memory Construction）、动态记忆精炼（Dynamic Memory Refinement）和上下文记忆检索（Contextual Memory Retrieval）。这三个组件协同工作，使机器人能够超越当前视觉观察进行推理和操作。

1. 空间记忆构建

在开始操作之前，如果指令中指定的物体不在当前观察中，机器人会主动扫描场景。移动头部相机采集多角度图像，每个角度对应一个特定的视野方向（angular-wise observation）。对于每一帧图像，模型同时提取物体语义和几何线索：

语义信息 使用 YOLO（Cheng et al., 2024）和 DINOv3（Siméoni et al., 2025）检测并分类物体，获取边界框和类别标签。
几何信息 使用 VGGT（Wang et al., 2025b）从单张图像估计深度或几何结构。

通过集成这些信息，将所有角度观察中的物体实例投射到统一的全局坐标系中，形成初始的空间-语义记忆 M₀。该记忆本质上是一个以场景为中心的表示，记录了各个物体的空间位置、类别和外观特征（如 DINOv3 特征），并保留了它们之间的相对空间关系。

2. 动态记忆精炼

在机器人执行操作的过程中，其头部相机可能会观察到新的角度，或原先被遮挡的物体出现。动态记忆精炼模块负责在交互过程中，将新感知到的信息 Mt 自适应地融合到初始概览场景记忆 M₀ 中。融合方式采用 相似度加权更新：对于当前观测中检测到的每个物体，计算其与记忆中已有实例的语义特征相似度（例如使用 DINOv3 特征的余弦相似度）。如果与新观测对应的区域特征与记忆中的某个实例高度匹配，则通过加权平均更新该记忆实例的空间位置和特征，使其逐渐收敛到更精确的一致表示。如果新观测对应一个记忆中尚未记录的物体，则将其作为新实例添加到记忆中。这一过程保证了记忆随时间的全局一致性，避免因视角变化或短暂遮挡导致信息丢失。

3. 上下文记忆检索

在操作决策时刻，SOMA 并不将整个记忆空间无差别地馈入动作解码器，而是使用语言引导的查询机制选择性关注与指令相关的记忆区域。具体来说，将自然语言指令（例如“抓取粉色杯子”）送入一个嵌入模型（可能是预训练的文本编码器），得到查询向量。该查询与记忆中的每个对象区域的特征进行匹配（例如通过点积或交叉注意力），计算出每个对象与当前指令的相关性权重。然后，根据权重聚合记忆信息，生成一个紧凑的空间上下文表示。这个上下文表示与当前视觉观察和语言指令一同输入到 基于 Diffusion Transformer（DiT）的动作解码器 中，生成可执行的机器人动作（例如末端执行器的平移、旋转和夹爪状态）。通过这种自顶向下的注意力检索，模型只关注与任务最相关的空间线索，从而提高推理效率和准确性。

整体工作流

总结 SOMA 的推理流程如下：

初始扫描：若目标物体不可见，机器人主动移动头部相机扫描场景，构建初始记忆 M₀。
操作循环：在每个时间步，机器人获取当前头部相机和臂相机的图像。动态精炼模块利用新观测更新记忆 M̂ₜ。
记忆检索：以语言指令为查询，从 M̂ₜ 中检索与任务相关的记忆区域。
动作生成：将当前观察、检索到的记忆上下文和指令拼接到一起，输入 DiT 动作解码器，生成下一动作。
重复步骤 2-4，直到任务完成或终止条件触发。

该流程保证了即使目标物体在操作过程中离开视野，机器人仍能基于之前记住的位置信息进行抓取（即近似一次性抓取行为），而无需反复扫描定位。图2：SOMA总体框架。系统先通过主动扫描构建统一的空间-语义记忆，再在交互中动态精炼记忆，并利用语言查询检索与任务相关的空间线索输入DiT动作解码器。

实验：设置、指标与结果

实验设置

# 真实世界任务

作者设计了五个具有挑战性的真实世界视野外拾取-放置（Pick-and-Place, PnP）任务，所有任务的共同点在于初始时目标物体不在机器人头部相机视野内。任务具体包括：

单臂拾取不可见物体放入篮子：机器人使用左臂，从视野外拾取一个物体（如毛绒玩具、杯子）并放入位于工作台篮子中。
单臂拾取另一个不可见物体：类似任务1，但更换物体。
单臂拾取第三个不可见物体：进一步测试泛化能力。
多步骤顺序拾取：先拾取物体A放入篮子，再拾取物体B放入同一个篮子，物体A和B初始均不可见，且操作过程中视野变化导致新的物体出现。
双臂协调拾取：机器人使用左臂和右臂同时或顺序协作，将分别位于各自臂侧视野外的物体放入指定篮子。

这些任务覆盖了单步、多步、单臂、双臂等典型视野外操作场景，全面评测 SOMA 在复杂情况下的鲁棒性。图3：五类真实世界视野外PnP任务设置，覆盖不可见到不可见、可见到不可见、不可见到可见、顺序双物体操作和双臂协同操作。

# 硬件与基线

机器人平台采用配备移动头部相机和左右臂相机的双臂机器人。实验分为两种训练条件：

主动头部相机设置 机器人在扫描和操作过程中可以自主控制头部相机的移动，以获取多视角观察。SOMA 及所有对比模型均在此设置下训练和评估。
固定头部相机设置 作为消融条件，SOMA 被训练为头部相机固定（不主动扫描），以考察主动扫描对性能的影响。

对比基线包括近期三个代表性 VLA 模型：

StarVLA（Ye et al., 2026）
SpatialVLA（Qu et al., 2025）
GR00T N1.5（Bjorck et al., 2025）

所有基线模型在主动头部相机设置下使用相同的硬件和数据采集流程进行训练，以确保公平。

# 评估指标

采用 成功率（Success Rate, SR） 作为主要度量。每个任务进行 20 轮次测试，计算平均成功率。由于任务涉及多步骤（例如任务4需要先后拾取两个物体），作者按阶段评估成功率，例如第一阶段（拾取物体A成功）的成功率和第二阶段（拾取物体B成功）的成功率，并最终给出整体任务完成率。

主要结果

从结果解读看，SOMA的优势并不只体现在最终成功率，而是同时改变了策略的搜索方式和动作节奏。基线模型在目标离开视野后往往依赖反复转头与重新定位，成功率会随任务阶段增加而迅速下降；SOMA则把早期扫描得到的目标位置、类别和几何关系保留下来，在后续Pick、Place、Exchange等阶段持续复用。因此，越是多阶段、双臂或目标反复不可见的任务，空间记忆带来的差距越明显。

# 真实世界视野外任务结果

图4：五个真实世界OOV任务上的成功率对比。SOMA在主动头部相机设置下整体领先StarVLA、SpatialVLA、GR00T-N1.5等基线；固定头部相机版本用于衡量主动扫描的贡献。图4展示了五个任务上的成功率比较（主动头部相机设置下）。关键结果如下：

在所有五个任务上，SOMA 的成功率显著高于三个基线模型。例如，在任务1（单臂单物体）中，SOMA 达到约 85% 的成功率，而最佳基线 SpatialVLA 约为 60%；在最具挑战性的任务4（多步骤）和任务5（双臂协调）中，SOMA 分别达到 65% 和 70%，而基线模型均在 40% 以下。
在固定头部相机条件下的 SOMA 性能下降明显（例如任务1从 85% 降至 55%），但仍优于多数主动头部相机基线的结果，表明持久记忆本身（即使主动扫描被限制）仍有帮助，但主动扫描带来的多视角信息对于构建可靠的空间记忆至关重要。

# 操作行为的定性差异

表1：SOMA与GR00T-N1.5在五个真实OOV任务中的行为对比。SOMA显著缩短首次注视时间、头部搜索路径、视角修正次数、抓取尝试次数和到达抓取时间。除了成功率，SOMA 还表现出定性不同的操作行为：

更快目标定位 基线模型通常需要多次移动头部相机搜索目标，而 SOMA 在第一次扫描后就记住了物体位置，后续可以直接朝记忆中的方向移动。
减少视角搜索 在操作过程中，基线模型常因目标离开视野而陷入“原地搜索-移动-再搜索”的循环；SOMA 则利用记忆直接定位，动作更连贯。
近似一次性抓取 当目标物体在抓取过程中被短暂遮挡或移动时，SOMA 能基于记忆预测其新位置并一次成功抓取，而基线模型往往需要多次尝试调整。图5：SOMA在五类真实OOV任务中的执行过程示例。机器人通过头部视角变化建立并复用空间记忆，在目标暂时不可见或跨阶段切换时仍能保持稳定操作。

# 额外实验：完全可观察设置下的验证

为了验证 SOMA 的记忆设计在传统完全可观察设置下是否依然有效（即目标物体始终可见），作者在 RoboCasa GR1 和 SimplerEnv 基准上进行了额外实验。在这些标准设置中，目标物体一开始就在视野内，VLA 模型通常已经表现较好。结果显示，引入 SOMA 的空间记忆仍然带来小幅但一致的成功率提升（例如在 SimplerEnv 中的多个任务上提升 2-5 个百分点）。这说明持久空间记忆不仅对视野外场景有用，即使在完全可观察条件下，也能提供额外的上下文信息，帮助模型在少量视角变化或瞬间遮挡时保持鲁棒。

消融与分析

表2：基于扫描探索与空间记忆的消融。仅扫描、无扫描记忆、扫描但不精炼都无法达到完整SOMA的平均成功率，说明多视角覆盖与持续记忆更新缺一不可。论文并非只做了“固定头部相机”这一种间接对比，而是进一步围绕扫描探索、空间记忆和动态更新进行了拆解。表2给出了四种设置：Scan+GR00T只进行头部扫描并把图像直接交给反应式策略，不维护持久记忆；No-Scan SOMA不做多视角扫描，只用第一帧初始化记忆；Scan-only SOMA用多视角扫描构建初始记忆，但关闭交互过程中的记忆精炼；Full SOMA则同时具备多视角扫描、持久空间记忆与动态更新。结果显示，Scan+GR00T的平均成功率最低，说明单纯“多看几眼”并不足以解决OOV操作；No-Scan SOMA略有提升，说明显式记忆结构本身有帮助；Scan-only SOMA进一步提升，证明多视角初始化能显著改善目标定位。但完整SOMA平均成功率最高，达到28.3%，在五个任务上都优于其他变体。这表明本文的关键不只是主动探索，而是把探索得到的空间证据组织成可持续更新、可被语言检索的记忆表示。表5：空间记忆组件消融。移除几何线索、物体语义或动态更新都会降低整体成功率，其中去掉动态更新的下降最明显，突出时间一致性维护的重要性。表5进一步考察空间记忆内部组件。去掉几何线索后，整体成功率从49.3%下降到45.1%；去掉物体语义后下降到43.7%；去掉动态更新后下降到41.5%。这组结果说明，几何信息负责把多视角观测放到一致空间坐标中，物体语义负责保持目标身份与指令对齐，而动态更新负责在操作过程中吸收新观测、纠正旧记忆。三者共同构成SOMA能够跨视角、跨阶段、跨遮挡保持稳定操作的基础。

结论：贡献、局限与启发

贡献

SOMA 的主要贡献可归纳为三点：

问题识别的先进性：明确指出当前 VLA 模型因视图受限假设而无法处理视野外操作这一核心缺陷，并提出空间记忆作为解决方案。
方法设计的实用性：提出简单而有效的三组件框架（构建-精炼-检索），结合成熟的语义-几何感知工具（YOLO、DINOv3、VGGT）和 DiT 动作解码器，易于在现有 VLA 系统上集成。
实验验证的充分性：在自设计的五个挑战性真实世界任务和两个标准基准上验证了方法的有效性，不仅报告了成功率提升，还分析了定性行为差异（更快定位、减少搜索、近一次抓取）。

局限

原文未明确说明局限性，但根据论文内容可推测以下可能局限：

当前框架依赖于主动头部相机扫描，这在某些物理受限场景（如狭小空间）可能不可行。
记忆构建阶段需要预先扫描，增加了任务准备时间；对于动态物体（例如被其他物体推动），记忆可能需要更高频率的更新。
实验仅基于单一机器人平台，泛化性有待在更多形态的机器人上验证。

启发

SOMA 的工作启示我们：当感知不足以支撑推理时，记忆是弥补信息缺口的关键。与单纯扩大 MLLM 参数量或训练数据相比，在系统层面引入持久性结构化记忆可能是解决具身 AI 中部分可观测问题更高效的路径。未来可以进一步探索：1）记忆的压缩与遗忘机制；2）与端到端可训练的记忆模块结合；3）在更复杂的长 horizon 任务中利用记忆实现因果推理和规划。

成为VIP会员查看完整内容

导读