TORL-VLA: Tactile Guided Online Reinforcement Learning for Contact-Rich Manipulation - 专知论文

会员服务 ·

0

在线 · 操作 · 策略生成 · 强化学习 · 机器人 ·

TORL-VLA: Tactile Guided Online Reinforcement Learning for Contact-Rich Manipulation

翻译：TORL-VLA：触觉引导的在线强化学习在精密接触操作中的应用

Huaihang Zheng,Yi Yang,Kai Ma,Shenglin Xu,Tian Xie,Guozheng Li,Xiangyu Wang,Yiren Ma,Si Liu,Yinian Mao,Baoxu Liu

from arxiv, Project page: https://torl-vla.github.io/

Vision-Language-Action (VLA) models have become a powerful framework for robotic manipulation, and recent studies have introduced tactile or force feedback into VLAs to address contact-rich tasks. However, these models are typically deployed as offline policies. When contact conditions shift from the training distribution, the policy cannot perform online adaptation, leading to problems such as inappropriate contact forces and inefficient retries. Therefore, we propose TORL-VLA, a tactile-guided online reinforcement learning framework that couples tactile feedback with policy refinement for contact-rich manipulation. Our method introduces a tactile-derived wrench-aware VLA to predict reference actions and future wrench sequences, while a lightweight online RL module is used to refine the reference actions. To stabilize learning from mixed exploratory policy-generated and human-intervention data, we introduce an intervention-censored critic that prevents post-intervention success from being wrongly credited to policy-generated actions preceding intervention. Real-robot experiments on long-horizon contact-rich tasks, including latch manipulation, coffee-cup placement, and egg handling, show that TORL-VLA improves success rates at both subtask and full-task levels, as well as time-bounded execution efficiency over strong baselines. Project page: https://torl-vla.github.io/

翻译：视觉-语言-动作（VLA）模型已成为机器人操作领域的重要框架，近年研究通过引入触觉或力觉反馈扩展VLA以应对接触密集型任务。然而，这些模型通常作为离线策略部署。当接触条件偏离训练分布时，策略无法进行在线自适应，导致接触力不当和低效重试等问题。为此，我们提出TORL-VLA——一种触觉引导的在线强化学习框架，通过触觉反馈与策略优化耦合实现精密接触操作。该方法构建触觉感知的力矩感知VLA模型，用于预测参考动作和未来力矩序列，并采用轻量级在线强化学习模块对参考动作进行优化。为稳定混合探索策略生成数据与人工干预数据的联合学习过程，我们引入干预截断评判器，防止干预后的成功信号被错误归因于干预前的策略生成动作。在包含门闩操作、咖啡杯放置和鸡蛋处理的长期接触密集型任务中，真实机器人实验表明，TORL-VLA在子任务级与完整任务级成功率以及时间受限执行效率上均优于强基线方法。项目页面：https://torl-vla.github.io/

0

相关内容

【ICML 2026】面向视野外操作的VLA空间记忆框架SOMA

【ICML 2026】面向视野外操作的VLA空间记忆框架SOMA

专知会员服务

9+阅读 · 5月22日

【ICML 2026】 StableVLA：无需额外数据，基于信息瓶颈的自适应鲁棒性视觉-语言-动作模型

【ICML 2026】 StableVLA：无需额外数据，基于信息瓶颈的自适应鲁棒性视觉-语言-动作模型

专知会员服务

6+阅读 · 5月19日

【综述】机器人学习中的世界模型：全面综述

【综述】机器人学习中的世界模型：全面综述

专知会员服务

21+阅读 · 5月4日

面向具身操作的高效视觉–语言–动作模型：系统综述

面向具身操作的高效视觉–语言–动作模型：系统综述

专知会员服务

26+阅读 · 2025年10月22日

视觉-语言-动作（VLA）模型的前世今生

视觉-语言-动作（VLA）模型的前世今生

专知会员服务

21+阅读 · 2025年8月29日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

视觉语言动作模型：概念、进展、应用与挑战

视觉语言动作模型：概念、进展、应用与挑战

专知会员服务

19+阅读 · 2025年5月18日

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

专知会员服务

42+阅读 · 2025年3月9日

VILA-U：一个融合视觉理解与生成的统一基础模型

VILA-U：一个融合视觉理解与生成的统一基础模型

专知会员服务

21+阅读 · 2024年9月9日

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

专知会员服务

61+阅读 · 2023年7月16日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

33+阅读 · 2022年11月12日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

专知

24+阅读 · 2020年1月12日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

泡泡机器人SLAM

14+阅读 · 2019年9月5日

【泡泡图灵智库】PL-VIO：使用点和线特征的紧耦合单目视觉惯性里程计

【泡泡图灵智库】PL-VIO：使用点和线特征的紧耦合单目视觉惯性里程计

泡泡机器人SLAM

54+阅读 · 2019年7月9日

【泡泡图灵智库】密集相关的自监督视觉描述学习（RAL）

【泡泡图灵智库】密集相关的自监督视觉描述学习（RAL）

泡泡机器人SLAM

11+阅读 · 2018年10月6日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

基于压电光电子效应的柔性PEDOT:PSS/ZnO纳米线LED阵列的制备及电-光-力性能研究

国家自然科学基金

0+阅读 · 2015年12月31日

无力传感器策略和可逆向驱动机构并用提高手术机器人触觉感知性能的新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于增强现实的主从遥操作手术机器人系统中的力反馈问题研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于生物力学的经导管介入手术触觉传感器接触机理与设计研究

国家自然科学基金

0+阅读 · 2015年12月31日

机器灵巧手基于触滑觉信息协同的自适应力控制方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

T-Rex: Tactile-Reactive Dexterous Manipulation

Arxiv

0+阅读 · 6月15日

OmniVTLA: Vision-Tactile-Language-Action Models with Semantic-Aligned Tactile Sensing

Arxiv

0+阅读 · 6月15日

FineVLA: Fine-Grained Instruction Alignment for Steerable Vision-Language-Action Policies

Arxiv

0+阅读 · 6月14日

SAPS: Shared Autonomy for Policy Steering by Blending Teleoperation with a Pretrained VLA

Arxiv

0+阅读 · 6月14日

GEAR-VLA: Learning Geometry-Aware Action Representations for Generalizable Robotic Manipulation

Arxiv

0+阅读 · 6月10日

TORL-VLA: Tactile Guided Online Reinforcement Learning for Contact-Rich Manipulation

Arxiv

0+阅读 · 6月10日

BORA: Bridging Offline Reinforcement Learning and Online Residual Adaptation for Real-World Dexterous VLA Models

Arxiv

0+阅读 · 6月6日

BORA: Bridging Offline Reinforcement Learning and Online Residual Adaptation for Real-World Dexterous VLA Models

Arxiv

0+阅读 · 5月28日

FineVLA: Fine-Grained Instruction Alignment for Steerable Vision-Language-Action Policies

Arxiv

0+阅读 · 5月26日

GuidedVLA: Specifying Task-Relevant Factors via Plug-and-Play Action Attention Specialization

Arxiv

0+阅读 · 5月12日

VIP会员

文章信息

相关主题

最新内容

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

4+阅读 · 今天2:42

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

1+阅读 · 今天2:37

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

5+阅读 · 今天2:23

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

6+阅读 · 今天2:21

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

2+阅读 · 今天1:46

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

6+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

4+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

8+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

8+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

8+阅读 · 7月31日

相关VIP内容

【ICML 2026】面向视野外操作的VLA空间记忆框架SOMA

【ICML 2026】面向视野外操作的VLA空间记忆框架SOMA

专知会员服务

9+阅读 · 5月22日

【ICML 2026】 StableVLA：无需额外数据，基于信息瓶颈的自适应鲁棒性视觉-语言-动作模型

【ICML 2026】 StableVLA：无需额外数据，基于信息瓶颈的自适应鲁棒性视觉-语言-动作模型

专知会员服务

6+阅读 · 5月19日

【综述】机器人学习中的世界模型：全面综述

【综述】机器人学习中的世界模型：全面综述

专知会员服务

21+阅读 · 5月4日

面向具身操作的高效视觉–语言–动作模型：系统综述

面向具身操作的高效视觉–语言–动作模型：系统综述

专知会员服务

26+阅读 · 2025年10月22日

视觉-语言-动作（VLA）模型的前世今生

视觉-语言-动作（VLA）模型的前世今生

专知会员服务

21+阅读 · 2025年8月29日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

视觉语言动作模型：概念、进展、应用与挑战

视觉语言动作模型：概念、进展、应用与挑战

专知会员服务

19+阅读 · 2025年5月18日

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

专知会员服务

42+阅读 · 2025年3月9日

VILA-U：一个融合视觉理解与生成的统一基础模型

VILA-U：一个融合视觉理解与生成的统一基础模型

专知会员服务

21+阅读 · 2024年9月9日

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

专知会员服务

61+阅读 · 2023年7月16日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

33+阅读 · 2022年11月12日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

专知

24+阅读 · 2020年1月12日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

泡泡机器人SLAM

14+阅读 · 2019年9月5日

【泡泡图灵智库】PL-VIO：使用点和线特征的紧耦合单目视觉惯性里程计

【泡泡图灵智库】PL-VIO：使用点和线特征的紧耦合单目视觉惯性里程计

泡泡机器人SLAM

54+阅读 · 2019年7月9日

【泡泡图灵智库】密集相关的自监督视觉描述学习（RAL）

【泡泡图灵智库】密集相关的自监督视觉描述学习（RAL）

泡泡机器人SLAM

11+阅读 · 2018年10月6日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

T-Rex: Tactile-Reactive Dexterous Manipulation

Arxiv

0+阅读 · 6月15日

OmniVTLA: Vision-Tactile-Language-Action Models with Semantic-Aligned Tactile Sensing

Arxiv

0+阅读 · 6月15日

FineVLA: Fine-Grained Instruction Alignment for Steerable Vision-Language-Action Policies

Arxiv

0+阅读 · 6月14日

SAPS: Shared Autonomy for Policy Steering by Blending Teleoperation with a Pretrained VLA

Arxiv

0+阅读 · 6月14日

GEAR-VLA: Learning Geometry-Aware Action Representations for Generalizable Robotic Manipulation

Arxiv

0+阅读 · 6月10日

TORL-VLA: Tactile Guided Online Reinforcement Learning for Contact-Rich Manipulation

Arxiv

0+阅读 · 6月10日

BORA: Bridging Offline Reinforcement Learning and Online Residual Adaptation for Real-World Dexterous VLA Models

Arxiv

0+阅读 · 6月6日

BORA: Bridging Offline Reinforcement Learning and Online Residual Adaptation for Real-World Dexterous VLA Models

Arxiv

0+阅读 · 5月28日

FineVLA: Fine-Grained Instruction Alignment for Steerable Vision-Language-Action Policies

Arxiv

0+阅读 · 5月26日

GuidedVLA: Specifying Task-Relevant Factors via Plug-and-Play Action Attention Specialization

Arxiv

0+阅读 · 5月12日

相关基金

基于压电光电子效应的柔性PEDOT:PSS/ZnO纳米线LED阵列的制备及电-光-力性能研究

国家自然科学基金

0+阅读 · 2015年12月31日

无力传感器策略和可逆向驱动机构并用提高手术机器人触觉感知性能的新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于增强现实的主从遥操作手术机器人系统中的力反馈问题研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于生物力学的经导管介入手术触觉传感器接触机理与设计研究

国家自然科学基金

0+阅读 · 2015年12月31日

机器灵巧手基于触滑觉信息协同的自适应力控制方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员