Human-in-the-loop reinforcement learning systems achieve near-perfect success on the workstation where they are trained, but collapse when the same robot is moved to a workstation a few meters away due to shifts in the visual input distribution caused by new lamp positions and window light. Re-collecting demonstrations and re-running HIL on every workstation is incompatible with deployment, and naively fine-tuning on shifted-light data triggers catastrophic forgetting of the source workstation. To close this cross-domain gap, we present RoHIL, an offline fine-tuning framework that uses no extra real-robot interaction. RoHIL combines (i) a world-model-based image relighter that re-synthesises the visual stream of source-workstation trajectories under multiple virtual HDRI environments, leaving actions and rewards real; (ii) Illumination-Retention Replay (IRR), a data-level anti-forgetting mechanism that interleaves relit adaptation transitions with original-light retention transitions to preserve source-workstation Bellman coverage; and (iii) an anchored Bellman-actor regulariser that constrains representation and policy drift from the original source-workstation policy. Across four real-robot manipulation tasks under significant cross-workstation illumination variations, RoHIL substantially improves shifted-light performance where standard HIL-RL collapses, while preserving source-workstation performance, eliminating the need to re-collect data and retrain for every new workstation and environment. Project page: https://anonymous4365.github.io/RoHIL/


翻译:人在环路强化学习系统在训练时所在的工作站上能实现近乎完美的成功率,但当同一机器人被移至仅数米之遥的另一工作站时,由于新灯具位置和窗户光线导致的视觉输入分布偏移,系统性能便会崩溃。在每个工作站上重新采集演示样本并重跑人在环路流程与部署要求相悖,而简单地对偏移光照数据进行微调则会引发对源工作站知识的灾难性遗忘。为弥合这一跨域鸿沟,我们提出RoHIL——一种无需额外真实机器人交互的离线微调框架。RoHIL融合了:(i) 基于世界模型的图像重光照器,能在多种虚拟HDRI环境下重新合成源工作站轨迹的视觉流,同时保留真实的动作与奖励;(ii) 光照保持重放机制(IRR),一种数据层面的抗遗忘机制,通过交替使用重光照适应迁移片段与原始光照保持迁移片段来维护源工作站的贝尔曼覆盖范围;(iii) 锚定贝尔曼演员正则化器,用于约束表征与策略相对于原始源工作站策略的漂移。在四项跨工作站光照变化显著的现实机器人操作任务中,RoHIL显著提升了标准人在环路强化学习会崩溃的偏移光照场景下的性能,同时保留了源工作站性能,从而消除了为每个新工作站与环境重新采集数据及重新训练的需求。项目主页:https://anonymous4365.github.io/RoHIL/

0
下载
关闭预览

相关内容

面向机器人系统的虚实迁移强化学习综述
专知会员服务
44+阅读 · 2024年2月8日
【斯坦福博士论文】大模型驱动的鲁棒机器学习,243页pdf
【AAAI2022】一种基于状态扰动的鲁棒强化学习算法
专知会员服务
36+阅读 · 2022年1月31日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
使用强化学习训练机械臂完成人类任务
AI研习社
14+阅读 · 2019年3月23日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
VIP会员
最新内容
ICML 2026 | 自回归Boltzmann生成器重塑分子采样
专知会员服务
0+阅读 · 48分钟前
GNN跨域综述:从消息传递到图基础模型
专知会员服务
0+阅读 · 50分钟前
无人机自主控制与人工智能:系统性综述
专知会员服务
10+阅读 · 今天7:25
巡飞弹与反无人机系统——现代战场的两大支柱
专知会员服务
3+阅读 · 今天6:54
《打造“黄金舰队”》57页报告
专知会员服务
3+阅读 · 今天6:52
《北约数字教官网络发展路径》128页报告
专知会员服务
2+阅读 · 今天6:33
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
7+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
8+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
《国防领域敏感性分析白皮书》
专知会员服务
9+阅读 · 6月25日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员