超越模仿：基于强化学习的视觉-语言-动作模型仿真-现实协同训练框架 (Beyond Imitation: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models) - 专知论文

会员服务 ·

0

协同 · 协同训练 · 微调 · 监督 · 演示 ·

Beyond Imitation: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models

翻译：超越模仿：基于强化学习的视觉-语言-动作模型仿真-现实协同训练框架

Liangzhi Shi,Shuaihang Chen,Feng Gao,Yinuo Chen,Kang Chen,Tonghe Zhang,Hongzhi Zang,Weinan Zhang,Chao Yu,Yu Wang

Simulation offers a scalable and low-cost way to enrich vision-language-action (VLA) training, reducing reliance on expensive real-robot demonstrations. However, most sim-real co-training methods rely on supervised fine-tuning (SFT), which treats simulation as a static source of demonstrations and does not exploit large-scale closed-loop interaction. Consequently, real-world gains and generalization are often limited. In this paper, we propose an \underline{\textit{RL}}-based sim-real \underline{\textit{Co}}-training \modify{(RL-Co)} framework that leverages interactive simulation while preserving real-world capabilities. Our method follows a generic two-stage design: we first warm-start the policy with SFT on a mixture of real and simulated demonstrations, then fine-tune it with reinforcement learning in simulation while adding an auxiliary supervised loss on real-world data to anchor the policy and mitigate catastrophic forgetting. We evaluate our framework on four real-world tabletop manipulation tasks using two representative VLA architectures, OpenVLA and $π_{0.5}$, and observe consistent improvements over real-only fine-tuning and SFT-based co-training, including +24% real-world success on OpenVLA and +20% on $π_{0.5}$. Beyond higher success rates, RL co-training yields stronger generalization to unseen task variations and substantially improved real-world data efficiency, providing a practical and scalable pathway for leveraging simulation to enhance real-robot deployment.

翻译：仿真为丰富视觉-语言-动作模型的训练提供了一种可扩展且低成本的途径，减少了对昂贵真实机器人演示数据的依赖。然而，大多数仿真-现实协同训练方法依赖于监督微调，其将仿真视为静态演示数据源，未能利用大规模闭环交互。因此，现实世界的性能增益与泛化能力往往受限。本文提出一种基于强化学习的仿真-现实协同训练框架，在利用交互式仿真的同时保持现实世界能力。我们的方法遵循通用的两阶段设计：首先通过混合真实与仿真演示数据对策略进行监督微调预热，随后在仿真环境中通过强化学习进行微调，同时引入真实数据的辅助监督损失以锚定策略并缓解灾难性遗忘。我们在四种真实桌面操作任务上，使用OpenVLA与$π_{0.5}$两种代表性VLA架构评估本框架，相较于纯现实微调与基于监督微调的协同训练方法均取得稳定提升，其中OpenVLA现实任务成功率提升24%，$π_{0.5}$提升20%。除成功率提升外，强化学习协同训练还展现出对未见任务变体更强的泛化能力，并显著提高了现实数据利用效率，为借助仿真增强真实机器人部署提供了实用且可扩展的技术路径。

0

相关内容

深度强化学习与模仿学习导论

深度强化学习与模仿学习导论

专知会员服务

25+阅读 · 2025年12月10日

深度学习时代的模仿学习：新型分类体系与最新研究进展

深度学习时代的模仿学习：新型分类体系与最新研究进展

专知会员服务

11+阅读 · 2025年11月6日

《基于人工智能工具改进战争场景的实时军事训练模拟器综述》

《基于人工智能工具改进战争场景的实时军事训练模拟器综述》

专知会员服务

28+阅读 · 2025年11月4日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

面向机器人系统的虚实迁移强化学习综述

面向机器人系统的虚实迁移强化学习综述

专知会员服务

44+阅读 · 2024年2月8日

《强化学习提高空战模拟训练的实用性》最新197页论文

《强化学习提高空战模拟训练的实用性》最新197页论文

专知会员服务

60+阅读 · 2024年1月28日

【AI+军事】附论文+PPT 《建立在复杂海上作业中训练自动驾驶汽车的建模与仿真能力》

【AI+军事】附论文+PPT 《建立在复杂海上作业中训练自动驾驶汽车的建模与仿真能力》

专知会员服务

68+阅读 · 2022年4月16日

模仿学习: 进展，分类和机会

专知会员服务

48+阅读 · 2021年7月2日

【DeepMind】基于模型的强化学习，174页ppt，Model-Based Reinforcement Learning

【DeepMind】基于模型的强化学习，174页ppt，Model-Based Reinforcement Learning

专知会员服务

89+阅读 · 2021年1月12日

最新《模仿学习(Imitation Learning》进展报告, 加州理工Yisong Yue教授，附下载

最新《模仿学习(Imitation Learning》进展报告, 加州理工Yisong Yue教授，附下载

专知会员服务

41+阅读 · 2020年12月6日

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

专知

29+阅读 · 2023年4月11日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

65+阅读 · 2022年8月25日

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

专知

54+阅读 · 2022年6月2日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知

10+阅读 · 2020年3月31日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

展望：模型驱动的深度学习

展望：模型驱动的深度学习

人工智能学家

12+阅读 · 2018年1月23日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

新视觉模型下非完整移动机器人同时镇定和跟踪控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

RoboGene: Boosting VLA Pre-training via Diversity-Driven Agentic Framework for Real-World Task Generation

Arxiv

0+阅读 · 2月18日

RLinf-Co: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models

Arxiv

0+阅读 · 2月13日

VLAW: Iterative Co-Improvement of Vision-Language-Action Policy and World Model

Arxiv

0+阅读 · 2月12日

A Systematic Study of Data Modalities and Strategies for Co-training Large Behavior Models for Robot Manipulation

Arxiv

0+阅读 · 2月1日

Sim-and-Human Co-training for Data-Efficient and Generalizable Robotic Manipulation

Arxiv

0+阅读 · 1月27日

AnyTask: an Automated Task and Data Generation Framework for Advancing Sim-to-Real Policy Learning

Arxiv

0+阅读 · 1月20日

Generalizable Domain Adaptation for Sim-and-Real Policy Co-Training

Arxiv

0+阅读 · 1月16日

CLARE: Continual Learning for Vision-Language-Action Models via Autonomous Adapter Routing and Expansion

Arxiv

0+阅读 · 1月14日

What Can RL Bring to VLA Generalization? An Empirical Study

Arxiv

0+阅读 · 1月14日

On-the-Fly VLA Adaptation via Test-Time Reinforcement Learning

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

相关VIP内容

深度强化学习与模仿学习导论

深度强化学习与模仿学习导论

专知会员服务

25+阅读 · 2025年12月10日

深度学习时代的模仿学习：新型分类体系与最新研究进展

深度学习时代的模仿学习：新型分类体系与最新研究进展

专知会员服务

11+阅读 · 2025年11月6日

《基于人工智能工具改进战争场景的实时军事训练模拟器综述》

《基于人工智能工具改进战争场景的实时军事训练模拟器综述》

专知会员服务

28+阅读 · 2025年11月4日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

面向机器人系统的虚实迁移强化学习综述

面向机器人系统的虚实迁移强化学习综述

专知会员服务

44+阅读 · 2024年2月8日

《强化学习提高空战模拟训练的实用性》最新197页论文

《强化学习提高空战模拟训练的实用性》最新197页论文

专知会员服务

60+阅读 · 2024年1月28日

【AI+军事】附论文+PPT 《建立在复杂海上作业中训练自动驾驶汽车的建模与仿真能力》

【AI+军事】附论文+PPT 《建立在复杂海上作业中训练自动驾驶汽车的建模与仿真能力》

专知会员服务

68+阅读 · 2022年4月16日

模仿学习: 进展，分类和机会

专知会员服务

48+阅读 · 2021年7月2日

【DeepMind】基于模型的强化学习，174页ppt，Model-Based Reinforcement Learning

【DeepMind】基于模型的强化学习，174页ppt，Model-Based Reinforcement Learning

专知会员服务

89+阅读 · 2021年1月12日

最新《模仿学习(Imitation Learning》进展报告, 加州理工Yisong Yue教授，附下载

最新《模仿学习(Imitation Learning》进展报告, 加州理工Yisong Yue教授，附下载

专知会员服务

41+阅读 · 2020年12月6日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

专知

29+阅读 · 2023年4月11日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

65+阅读 · 2022年8月25日

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

专知

54+阅读 · 2022年6月2日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知

10+阅读 · 2020年3月31日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

展望：模型驱动的深度学习

展望：模型驱动的深度学习

人工智能学家

12+阅读 · 2018年1月23日

相关论文

RoboGene: Boosting VLA Pre-training via Diversity-Driven Agentic Framework for Real-World Task Generation

Arxiv

0+阅读 · 2月18日

RLinf-Co: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models

Arxiv

0+阅读 · 2月13日

VLAW: Iterative Co-Improvement of Vision-Language-Action Policy and World Model

Arxiv

0+阅读 · 2月12日

A Systematic Study of Data Modalities and Strategies for Co-training Large Behavior Models for Robot Manipulation

Arxiv

0+阅读 · 2月1日

Sim-and-Human Co-training for Data-Efficient and Generalizable Robotic Manipulation

Arxiv

0+阅读 · 1月27日

AnyTask: an Automated Task and Data Generation Framework for Advancing Sim-to-Real Policy Learning

Arxiv

0+阅读 · 1月20日

Generalizable Domain Adaptation for Sim-and-Real Policy Co-Training

Arxiv

0+阅读 · 1月16日

CLARE: Continual Learning for Vision-Language-Action Models via Autonomous Adapter Routing and Expansion

Arxiv

0+阅读 · 1月14日

What Can RL Bring to VLA Generalization? An Empirical Study

Arxiv

0+阅读 · 1月14日

On-the-Fly VLA Adaptation via Test-Time Reinforcement Learning

Arxiv

0+阅读 · 1月13日

相关基金

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

新视觉模型下非完整移动机器人同时镇定和跟踪控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员