Human interventions are a common source of data in autonomous systems during testing. These interventions provide an important signal about where the current policy needs improvement, but are often noisy and incomplete. We define Robust Intervention Learning (RIL) as the problem of learning from intervention data while remaining robust to the quality and informativeness of the intervention signal. In the best case, interventions are precise and avoiding them is sufficient to solve the task, but in many realistic settings avoiding interventions is necessary but not sufficient for achieving good performance. We study robust intervention learning in the context of emergency stop interventions and propose Residual Intervention Fine-Tuning (RIFT), a residual fine-tuning algorithm that treats intervention feedback as an incomplete learning signal and explicitly combines it with a prior policy. By framing intervention learning as a fine-tuning problem, our approach leverages structure encoded in the prior policy to resolve ambiguity when intervention signals under-specify the task. We provide theoretical analysis characterizing conditions under which this formulation yields principled policy improvement, and identify regimes where intervention learning is expected to fail. Our experiments reveal that residual fine-tuning enables robust and consistent policy improvement across a range of intervention strategies and prior policy qualities, and highlight robust intervention learning as a promising direction for future work.


翻译:在自主系统的测试过程中,人工干预是常见的数据来源。这些干预为当前策略需要改进之处提供了重要信号,但通常具有噪声且不完整。我们将鲁棒干预学习(RIL)定义为从干预数据中学习、同时对干预信号的质量和信息量保持鲁棒性的问题。在理想情况下,干预是精确的,避免干预即足以完成任务;但在许多实际场景中,避免干预是必要条件,却不足以实现良好性能。本研究以紧急停止干预为背景探讨鲁棒干预学习,并提出残差干预微调(RIFT)算法——一种将干预反馈视为不完整学习信号,并显式地将其与先验策略相结合的残差微调算法。通过将干预学习构建为微调问题,我们的方法利用先验策略中编码的结构来化解干预信号未能充分定义任务时的歧义。我们提供了理论分析,刻画了该框架能够产生原则性策略改进的条件,并界定了干预学习预期会失效的机制范围。实验表明,残差微调能够在多种干预策略和先验策略质量下实现鲁棒且一致的策略改进,从而凸显了鲁棒干预学习作为未来研究方向的潜力。

0
下载
关闭预览

相关内容

【CMU博士论文】基于课程学习的鲁棒强化学习
专知会员服务
20+阅读 · 2025年3月27日
【CMU博士论文】通过课程学习实现鲁棒的强化学习
专知会员服务
25+阅读 · 2024年12月15日
【牛津大学博士论文】抗规避攻击鲁棒学习的样本复杂度
专知会员服务
26+阅读 · 2021年4月13日
专知会员服务
144+阅读 · 2021年3月17日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
联邦学习安全与隐私保护研究综述
专知
12+阅读 · 2020年8月7日
模型攻击:鲁棒性联邦学习研究的最新进展
机器之心
35+阅读 · 2020年6月3日
基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】
人工智能前沿讲习班
27+阅读 · 2018年12月13日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月6日
VIP会员
相关VIP内容
【CMU博士论文】基于课程学习的鲁棒强化学习
专知会员服务
20+阅读 · 2025年3月27日
【CMU博士论文】通过课程学习实现鲁棒的强化学习
专知会员服务
25+阅读 · 2024年12月15日
【牛津大学博士论文】抗规避攻击鲁棒学习的样本复杂度
专知会员服务
26+阅读 · 2021年4月13日
专知会员服务
144+阅读 · 2021年3月17日
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员