机器人基础模型(RFMs)正逐渐成为实现灵活、指令及演示驱动型机器人控制的一条极具前景的路径。然而,目前仍缺乏对其工业适用性的批判性考察。本文对 RFM 的技术版图进行了广泛综述,并深入分析了受具体工业需求驱动的行业领域及应用场景如何塑造 RFM 的功能要求,重点关注协作机器人平台、异构感知与执行、边缘计算限制以及安全关键型操作。
我们将工业部署的前景综合为 11 个相互关联的影响维度,并将其转化为一个包含 149 项具体准则的评估框架,涵盖模型能力与生态系统需求。利用该框架,我们通过一套经专家评审校验的保守型大语言模型(LLM)辅助评估流程,对 324 个具备操纵能力的 RFM 进行了共计 48,276 项准则级决策评估。
研究结果表明,当前的工业成熟度水平有限且分布不均:即便评分最高的模型也仅满足部分准则,且通常表现为特定维度上的性能峰值,而非综合覆盖。据此我们得出结论:通往工业级 RFM 的进程,与其说取决于孤立的基准测试(benchmarks)成功,不如说取决于如何将安全性、实时可行性、稳健感知、交互能力以及成本效益系统地整合进可审计的部署栈中。
关键词: 机器人基础模型;工业机器人;工业成熟度评估;机器人操纵;工业人工智能;协作机器人学
在过去的几十年中,工业机器人正经历从孤立、高度优化的自动化向灵活且日益协同的部署范式转变。特别是协作机器人 (Cobots) 的广泛采用,反映了自动化方案正转向快速调试、可跨频繁变动的工序重新部署,并能在更靠近人类工人的区域内运行。尽管这些平台在机械精度、重复定位精度及功耗控制方面表现优异,但其工业效能日益受限于缺乏稳健、自适应且直观的控制方法,而非仅受限于执行性能。 这激发了研究界对基于学习的机器人智能 (Learning-based robot intelligence) 的重新关注。这种智能需能应对任务、环境、执行和感知的多变性,同时兼顾工业约束,如安全性、可靠性、低延迟运行和成本效益集成。大规模学习领域的最新进展促成了基础模型 (Foundation Models, FMs) 的兴起,这些模型有望通过跨任务的知识迁移来减少人工工程投入——这一能力在“高混合、小批量 (high-mix, low-volume)”的工业场景中极具吸引力。在此背景下,机器人基础模型 (Robotic Foundation Models, RFMs) 旨在通过提供跨任务、接口和具身的灵活迁移平台,为具身决策提供通用能力。
在本综述中,我们专注于能够生成用于直接驱动机器人执行的底层动作的模型——根据我们在第 2 节中的定义,即“用于控制的 RFM”或“集成式 RFM”。因为该接口是现实世界部署的核心,且与工业约束(如延迟、安全门控和特定硬件的动作空间)耦合最紧密。尽管构建此类模型的范式各异——包括基于扩散 (diffusion-based) 的方法 [1, 2]、基于想象 (dreaming-based) 的方法 [3, 4] 以及双系统设计 [5–7]——但我们有意不侧重于架构分类学,因为已有相关工作涵盖了这些主题;关于以架构为中心的综述,请参阅第 4 节。相反,我们采用工业视角,将 RFM 快速的方法论进展与决定此类系统能否在工业环境中部署的实际约束联系起来。为了组织这一讨论并将 RFM 定位于机器人控制的更广阔演进历程中,我们提出了一种清晰的机器人控制方法分类,详见图 1 中的层级结构: 1. 预定义/基于规则 (Predefined/Rule-based):采用固定轨迹或简单触发器,缺乏动态适应能力。转型:通过集成传感器驱动的动态输入进行升级。 1. 反应式/参数化 (Reactive/Parametrised):通过传感器和参数调整实现有限的适应。转型:通过引入学习能力超越预定义行为。 1. 专用/狭义 (Specialised/Narrow):针对给定硬件设置上的特定问题量身定制的解决方案。转型:实现通用的多用途能力。 1. 基础型 (Foundational):经过广泛预训练的系统,能够以极少的人工工程进行高效微调。转型:消除进一步人工调优的需求,实现在线自适应。 1. 通用型 (Generalist):对新任务和配置实现零样本(zero-shot)或上下文内(in-context)泛化,仅需高层指令或在线演示,类似于工业中的人类操作员。
该层级结构突出了与工业部署相关的核心发展轨迹:从刚性的、任务特定的自动化转向适应性强、指令及演示驱动的操作,并不断减少调试投入。机器人领域引入 FM 标志着从专用控制系统 (3.) 向基础机器人学 (4.) 的迈进,产生了跨具身和多任务的控制系统。然而,正如我们随后的分析所示,这一步并不自动等同于工业级自主:迈向真正的通用系统 (5.) 需要诸如稳健的在线自适应、可靠的指令遵循以及不确定性下的安全运行等能力,这些能力在动态且成本驱动的工业环境中尤为重要。 鉴于该领域的发展速度,进行一项立足于工业实际的专项综述势在必行。如图 2 所示,近年来与 RFM 相关的出版物急剧增加,其中 2025 年的增长最为显著。这种爆发式增长存在导致领域碎片化和在缺乏结构化工业评估的情况下夸大宣传的风险。在涉及赋能组件、应用和评估的相关文献中也能看到类似的增长趋势。虽然已有若干综述存在(见第 4 节),但尚未有研究针对 RFM 的工业部署就绪度提供系统性、基于工业影响的评估。同时,文献的快速扩充意味着不定期的情况快照会迅速过时,因此需要一项既能整合当前 RFM 现状,又能提供在模型更新迭代时依然有效的评估框架的综述。
本文的结构安排旨在将基础概念逐步联系到工业需求,随后对当前 RFM 进行系统评估(参见图 3)。我们的主要贡献包括: 1. 机器人控制方法的清晰分类:将 RFM 置于从基于规则的自动化到通用机器人智能的宏观演进历程中(图 1)。 1. RFM 的明确定义与聚类(第 2 节)。 1. 当前 RFM 文献与前沿技术的全面概述:重点关注具备操纵能力的系统(表 D5)。 1. 工业驱动的协作机器人兴起视角:阐明了为什么协作机器人的普及放大了对更通用、可指令化和自适应控制方法的需求(第 5 和 6 节)。 1. 工业部署影响的综合分析:从工业文献中提取出 11 个相互关联的维度,总结为跨领域的工业部署影响(第 7.1 节)。 1. 详尽的评估准则目录:包含 149 个细分项,用于评估 RFM 的工业成熟度(含生态系统要求)。我们认为这是首个为此类工业就绪度评估量身定制的框架(第 7.3 节)。 1. 大规模图景评估:参照此目录对当前 RFM 领域进行大规模评估,阐明了迈向工业级 RFM 必须解决的优势、劣势及研究空白(第 8 和 9 节)。
我们的核心研究结果预告:尽管在基准测试层面取得了令人印象深刻的进展,且贡献的广度不断增加,但全行业的工业成熟度仍然有限且不均衡。目前的模型往往一次只能解决少数几个使能维度,而未能全面覆盖主导真实工业场景的部署关键需求。这激发了我们的首要目标:将讨论从孤立的基准测试成功转向一种可追溯的、基于工业影响的视角,界定 RFM 成为工业部署可靠候选方案的必要条件。