Accurate process supervision remains a critical challenge for long-horizon robotic manipulation. A primary bottleneck is that current video MLLMs, trained primarily under a Supervised Fine-Tuning (SFT) paradigm, function as passive "Observers" that recognize ongoing events rather than evaluating the current state relative to the final task goal. In this paper, we introduce PRIMO R1 (Process Reasoning Induced Monitoring), a 7B framework that transforms video MLLMs into active "Critics". We leverage outcome-based Reinforcement Learning to incentivize explicit Chain-of-Thought generation for progress estimation. Furthermore, our architecture constructs a structured temporal input by explicitly anchoring the video sequence between initial and current state images. Supported by the proposed PRIMO Dataset and Benchmark, extensive experiments across diverse in-domain environments and out-of-domain real-world humanoid scenarios demonstrate that PRIMO R1 achieves state-of-the-art performance. Quantitatively, our 7B model achieves a 50% reduction in the mean absolute error of specialized reasoning baselines, demonstrating significant relative accuracy improvements over 72B-scale general MLLMs. Furthermore, PRIMO R1 exhibits strong zero-shot generalization on difficult failure detection tasks. We establish state-of-the-art performance on RoboFail benchmark with 67.0% accuracy, surpassing closed-source models like OpenAI o1 by 6.0%.


翻译:精确的过程监督仍然是长时程机器人操作面临的关键挑战。一个主要瓶颈在于,当前主要在监督微调范式下训练的视频多模态大语言模型,仅作为被动的“观察者”来识别正在进行的事件,而非评估当前状态相对于最终任务目标的完成度。本文提出PRIMO R1(过程推理诱导监控),一个70亿参数的框架,将视频多模态大语言模型转变为主动的“评判者”。我们利用基于结果的强化学习,激励模型生成显式的思维链以进行进度估计。此外,我们的架构通过将视频序列明确锚定在初始状态图像与当前状态图像之间,构建了结构化的时序输入。在所提出的PRIMO数据集和基准测试的支持下,跨多个领域内环境及领域外真实世界仿人机器人场景的广泛实验表明,PRIMO R1实现了最先进的性能。量化结果显示,我们的70亿参数模型将专业推理基线的平均绝对误差降低了50%,相对于720亿规模的通用多模态大语言模型展现出显著的相对精度提升。此外,PRIMO R1在困难的故障检测任务上表现出强大的零样本泛化能力。我们在RoboFail基准测试中以67.0%的准确率确立了最先进的性能,超越了如OpenAI o1等闭源模型6.0个百分点。

0
下载
关闭预览

相关内容

深度学习中泛化的量化、理解与改进
专知会员服务
17+阅读 · 2025年9月13日
生成式人工智能在机器人操作中的应用:综述
专知会员服务
29+阅读 · 2025年3月6日
【阿里千问】在数学推理中开发过程奖励模型的经验教训
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
【论文笔记】基于强化学习的人机对话
专知
20+阅读 · 2019年9月21日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习初探 - 从多臂老虎机问题说起
专知
10+阅读 · 2018年4月3日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
VIP会员
最新内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
3+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
4+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
14+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
8+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
战略前沿人工智能的再思考(中文)
专知会员服务
8+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
6+阅读 · 5月29日
相关资讯
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
【论文笔记】基于强化学习的人机对话
专知
20+阅读 · 2019年9月21日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习初探 - 从多臂老虎机问题说起
专知
10+阅读 · 2018年4月3日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员