视觉与语言领域的基础模型通过利用互联网规模数据及可扩展的训练方案,已展现出强大的泛化能力。与之形成鲜明对比的是,机器人策略(Robot policies)在部署于未知的真实场景时,其鲁棒性、可靠性及泛化性仍面临根本性挑战。核心制约因素在于大规模、多样化且高质量机器人数据的匮乏。不同于视觉-语言数据集,物理机器人数据的获取成本高昂、进程缓慢且难以并行化。这些挑战导致了视觉-语言基础模型成功的训练机制与当前机器人学习现状之间的断层。 本论文通过优化机器人学习系统对数据的获取、表征与利用,探索了构建机器人基础模型的可扩展与可泛化路径。文中提出,实现鲁棒的机器人基础模型需在三个互补方向上取得进展:(i) 有效利用包括互联网级视觉-语言数据、探索性或亚优(Suboptimal)感觉运动轨迹以及高质量演示在内的异构数据源;(ii) 开发具备数据高效性与泛化性的策略模型;(iii) 设计可扩展的真实世界数据采集系统以降低演示获取成本。 基于上述视角,本论文在构建机器人基础模型方面做出了一系列算法与系统层面的贡献,涵盖了超越演示学习的低级感觉运动技能、高级任务推理、泛化性策略设计及可扩展数据采集系统。首先,本文引入了 MaskDP,这是首个从探索性感觉运动轨迹中统一世界建模与决策预测的框架,支持多样化的下游行为。其次,本文提出 MOKA,通过将任务锚定(Grounding)到结构化的视觉关键点与路径点,利用预训练视觉-语言模型实现机器人操作。第三,本文介绍了一种视觉-语言-动作(VLA)策略 OTTER,该策略将预训练视觉-语言表征与动作预测相对接,在实现精准且数据高效控制的同时,保持了跨指令、物体与环境的泛化能力。此外,本论文重新审视了通过单样本模仿(One-shot imitation)进行上下文策略学习(In-context policy learning)的早期尝试。最后,本文展示了 Vitamin,一个利用先进触觉感知与远程操作接口收集高质量真实世界演示的可扩展便携式系统,实现了高接触性操作任务的学习。 综上所述,这些贡献论证了结合异构数据源、可泛化学习算法与可扩展数据采集系统,能够催生出可扩展的机器人学习能力。总体而言,本论文架起了表征学习、策略学习与数据采集之间的桥梁,推动机器人基础模型向实际应用环境下的可靠性能迈进。