【伯克利博士论文】物理世界中可泛化且可扩展的机器人学习

视觉与语言领域的基础模型通过利用互联网规模数据及可扩展的训练方案，已展现出强大的泛化能力。与之形成鲜明对比的是，机器人策略（Robot policies）在部署于未知的真实场景时，其鲁棒性、可靠性及泛化性仍面临根本性挑战。核心制约因素在于大规模、多样化且高质量机器人数据的匮乏。不同于视觉-语言数据集，物理机器人数据的获取成本高昂、进程缓慢且难以并行化。这些挑战导致了视觉-语言基础模型成功的训练机制与当前机器人学习现状之间的断层。本论文通过优化机器人学习系统对数据的获取、表征与利用，探索了构建机器人基础模型的可扩展与可泛化路径。文中提出，实现鲁棒的机器人基础模型需在三个互补方向上取得进展：(i) 有效利用包括互联网级视觉-语言数据、探索性或亚优（Suboptimal）感觉运动轨迹以及高质量演示在内的异构数据源；(ii) 开发具备数据高效性与泛化性的策略模型；(iii) 设计可扩展的真实世界数据采集系统以降低演示获取成本。基于上述视角，本论文在构建机器人基础模型方面做出了一系列算法与系统层面的贡献，涵盖了超越演示学习的低级感觉运动技能、高级任务推理、泛化性策略设计及可扩展数据采集系统。首先，本文引入了 MaskDP，这是首个从探索性感觉运动轨迹中统一世界建模与决策预测的框架，支持多样化的下游行为。其次，本文提出 MOKA，通过将任务锚定（Grounding）到结构化的视觉关键点与路径点，利用预训练视觉-语言模型实现机器人操作。第三，本文介绍了一种视觉-语言-动作（VLA）策略 OTTER，该策略将预训练视觉-语言表征与动作预测相对接，在实现精准且数据高效控制的同时，保持了跨指令、物体与环境的泛化能力。此外，本论文重新审视了通过单样本模仿（One-shot imitation）进行上下文策略学习（In-context policy learning）的早期尝试。最后，本文展示了 Vitamin，一个利用先进触觉感知与远程操作接口收集高质量真实世界演示的可扩展便携式系统，实现了高接触性操作任务的学习。综上所述，这些贡献论证了结合异构数据源、可泛化学习算法与可扩展数据采集系统，能够催生出可扩展的机器人学习能力。总体而言，本论文架起了表征学习、策略学习与数据采集之间的桥梁，推动机器人基础模型向实际应用环境下的可靠性能迈进。

成为VIP会员查看完整内容

相关内容

博士论文

关注 130

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

机器人领域的多任务泛化研究

专知会员服务

16+阅读 · 1月14日

【斯坦福博士论文】移动操作机器人的学习系统构建研究

专知会员服务

14+阅读 · 2025年11月14日

【伯克利博士论文】通过真实世界实践赋能机器人自主性

专知会员服务

15+阅读 · 2025年8月6日

【CMU博士论文】观看、预测、行动：机器人学习遇上网络视频

专知会员服务

14+阅读 · 2025年5月23日