【MIT博士论文】视频即具身智能之语言

由机器学习（ML）驱动的自动化系统在诸多应用领域取得了显著进展。然而，嵌入式偏差（encoded biases）及其他失效模式仍是阻碍此类系统实现现实应用效能与可靠性的主要屏障。例如，非随机数据缺失（nonrandom data missingness）、有偏的算法优化目标，以及可能误导用户信任的模型呈现策略，均会导致模型在实际部署中失效。本论文受上述观测结果及全流程意识（pipeline-awareness）相关前序工作的启发，旨在算子化/实操化可靠机器学习（operationalize reliable ML）。为达成此目标，我们提出了一个涵盖以下三个核心组件的框架：负责任的数据收集、鲁棒的算法开发以及公平的模型呈现。 1. 负责任的数据收集：我们通过两个案例研究推进了该领域。首先，我们探讨了在训练模型模拟人类对规范违背（norm violations）的判断时，标准数据采集程序的可重用性。其次，我们揭示了纵向医疗数据集中人口统计学数据报告的延迟模式，并论证了由延迟引起的**时变缺失性（time-varying missingness）会如何扭曲差异评估结果。 1. 鲁棒的算法开发：我们引入了两种提升可靠性的创新算法：其一利用视觉-语言模型（Vision-Language Models）的表征能力来过滤噪声训练数据；其二为一种考虑搜索查询（search queries）特性的公平排序方法。 1. 公平的模型呈现：鉴于预测结果的展示设计直接影响模型用户的信任度，我们提出了用于量化事后解释性技术（post-hoc explainability techniques）**公平性的评估指标。

综上所述，本论文重新审视了贯穿机器学习全流程的度量标准，并为实现可靠机器学习这一宏观目标做出了实质性贡献。

第一章：引言

1.1 研究动机

具身智能（Embodied Intelligence）——即人工智能体在物理世界中感知、推理并行动的能力——仍是人工智能领域最重要的开放挑战之一。通用机器人系统必须处理多模态感觉输入，对动态环境进行推理，并规划长时程的动作序列。构建此类系统要求模型能够适应新语境、跨任务泛化，并能从多样且通常有限的数据源中高效学习。大语言模型（LLMs）近期的成功改变了实现泛化性的路径。如 GPT-4 和 Gemini 等在海量文本语料库上训练的模型，在广泛的任务中展现出了少样本（few-shot）能力。这促使研究者尝试将该范式扩展至语言之外：首先通过引入视觉模态，产生了如 PaLI、Flamingo 和 LLaVA 等视觉-语言模型（VLM）；近期则进一步引入动作模态，诞生了如 PaLM-E、RT-2 和 pi-0 等视觉-语言-动作模型（VLA）。这些 VLA 模型旨在将 LLMs 的可扩展性与可迁移性赋予具身智能体，通常做法是将视觉观察与运动指令嵌入到一个统一的序列建模框架中。然而，尽管这一方向前景广阔，但此类模型往往依赖于预训练的多模态 LLM 组件，而这些组件最初是为语言理解或图文对齐等原始领域设计的。例如，视觉编码器和动作标记化（tokenization）等核心组件，在支持具身智能所需的空间精度和细粒度控制方面往往力有不逮。如本论文第一部分所示，即便是最先进的 VLM 在基础空间推理任务中表现也差强人意。SpatialVLM 的开发既是一个诊断步骤也是一个改进步骤：它通过互联网规模的空间标注增强了 VLM，实现了从图像中进行定量距离估计。尽管在空间查询方面取得了进展，但它暴露了更深层的问题——现有的 VLM 为语义对齐而训练，并未习得对具身任务至关重要的定量与关系空间知识。这表明模型架构、训练目标与具身需求之间存在失配（misalignment）。这些发现为重新审视支撑 LLM 成功的决策原则提供了契机。在大规模深度学习中，LLM 的效能归功于三个组件的协同：数据、算法与算力。 1. 数据：LLM 在海量且与目标模态本征对齐的语料库上训练。文本数据离散、具组合性且语义丰富。 1. 算法设计：LLM 通常采用仅解码器（decoder-only）的 Transformer 架构，配合**逐标记预测（next-token prediction）**目标，该目标利用了语言的自回归结构，且与下游任务模式对齐。 1. 算力：性能随计算量可预测地扩展，使模型能够收敛并产生涌现能力。

要在具身 AI 中复制 LLM 的泛化行为，关键洞察不在于直接重用 LLM，而在于采纳使其成功的原则：大规模模态对齐的数据集、任务特定的算法设计，以及支持组合推理与鲁棒序列展开（rollout）的训练框架。当 LLM 被生硬地（naively）重新用于机器人领域时（如将视觉或运动模态嫁接到文本条件 Transformer 上），这种对齐性就会瓦解。文本虽然语义表达力强，但缺乏连续控制所需的粒度。它可以表示“抓取杯子”的高层意图，但无法表示执行该动作所需的连续、长时程轨迹。此外，LLM 的预训练语料库几乎不包含底层运动控制或物理动力学信息。这种缺失加剧了模态失配：即使模型能理解“打开抽屉”的指令，它也缺乏在物理世界中规划或预测后续状态转移的表征基础。这些局限性在现实世界的机器人任务中表现得最为明显，因为符号推理必须锚定在空间扩展的连续运动中。这引出了本论文的核心问题：什么是具身智能合适的表征语言？在采用这种新语言时，我们该如何构建更好的模型？

1.2 目标与问题

本论文提议将视频（Video）作为具身 AI 的基础语言。视频作为一种时空扩展模态，自然地编码了感知观察与人类动作。它以互联网规模大量存在，并为表达环境的未来状态提供了直接媒介。通过将视频视为“一等公民”表征格式，我们旨在将具身基础模型的设计重新对齐到支撑语言建模成功的核心原则上：即可扩展学习、组合性以及灵活泛化。然而，将视频作为具身语言引入了新的建模挑战。在 NLP 中，逐标记预测支持稳定的长序列生成。相比之下，大多数生成式视频模型依赖全序列扩散（full-sequence diffusion），虽然能产生高保真输出，但在长程决策所需的灵活性和稳定性方面表现不足。直接应用此类模型存在丢弃归纳偏置的风险。因此，本论文旨在解决以下问题： 1. 文本型多模态 LLM 的建模局限：探究依赖文本标记输出的模型在时空扩展任务中的缺陷及其缓解程度。 1. 调和视频与语言建模范式：开发整合了自回归逐标记预测与全序列扩散优点的建模策略。 1. 稳定长时程视频序列展开：提高长程视频生成的稳定性与可控性，确保其能有效用于交互式环境中的规划与决策。

1.3 核心贡献

本论文通过将视频视为一等语言，推进了具身智能的范式转移，主要贡献如下： 1. 诊断原生多模态扩展的极限：通过 SpatialVLM，我们证明了现有 VLM 在估计距离、识别空间关系等基础能力上的局限，并引入了大规模空间 VQA 数据集以显著提升性能。 1. 桥接逐标记预测与视频扩散：提出 Diffusion Forcing。通过对序列中每一帧施加独立采样的噪声水平，该范式使模型能并行去噪部分受损的子序列。这使其既继承了扩散模型的高保真度，又保留了逐标记预测的因果结构，支持稳定的长程序列展开和高奖励轨迹采样。 1. 稳定长程视频生成与组合控制：引入 **History Guidance（历史引导）**技术，通过动态掩码历史帧来引导生成，无需重新训练即可显著增强时间一致性和组合泛化能力。这些能力由 Diffusion Forcing Transformer (DFoT) 实现，该架构允许对任意历史进行灵活的条件约束。

综上所述，这些贡献共同构成了对具身 AI 表征方式的重新思考，标志着迈向建立视频作为具身智能原生语言的第一步。

成为VIP会员查看完整内容

相关内容

博士论文

关注 131

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【牛津博士论文】面向视觉、物理与语言应用的可信机器学习模型

专知会员服务

19+阅读 · 2025年10月5日

【MIT博士论文】从数据到模型，再回到数据：构建可预测且可靠的机器学习系统”

专知会员服务

23+阅读 · 2025年6月19日

【MIT博士论文】医学人工智能中的自然语言基础模型

专知会员服务

15+阅读 · 2025年4月2日

【UIUC博士论文】《从视频中进行机器人学习》

专知会员服务

25+阅读 · 2024年12月20日