Visual reinforcement learning aims to empower an agent to learn policies from visual observations, yet it remains vulnerable to dynamic visual perturbations, such as unpredictable shifts in corruption types. To systematically study this, we introduce the Visual Degraded Control Suite (VDCS), a benchmark extending DeepMind Control Suite with Markov-switching degradations to simulate non-stationary real-world perturbations. Experiments on VDCS reveal severe performance degradation in existing methods. We theoretically prove via information-theoretic analysis that this failure stems from reconstruction-based objectives inevitably entangling perturbation artifacts into latent representations. To mitigate this negative impact, we propose Agent-Centric Observations with Mixture-of-Experts (ACO-MoE) to robustify visual RL against perturbations. The proposed framework leverages unique agent-centric restoration experts, achieving restoration from corruptions and task-relevant foreground extraction, thereby decoupling perception from perturbation before being processed by the RL agent. Extensive experiments on VDCS show our ACO-MoE outperforms strong baselines, recovering 95.3% of clean performance under challenging Markov-switching corruptions. Moreover, it achieves SOTA results on DMControl Generalization with random-color and video-background perturbations, demonstrating a high level of robustness.


翻译:视觉强化学习旨在赋予智能体从视觉观测中学习策略的能力,但其仍易受动态视觉扰动(如不可预测的污染类型变化)影响。为系统研究该问题,我们提出视觉退化控制套件(VDCS)——一种扩展DeepMind控制套件并引入马尔可夫切换退化以模拟非平稳真实世界扰动的基准测试。VDCS实验表明,现有方法存在严重的性能退化。通过信息论分析,我们从理论上证明:这种失败源于基于重构的目标函数不可避免地将扰动伪影纠缠到潜在表示中。为缓解此负面影响,我们提出基于专家混合的智能体中心观测(ACO-MoE)以增强视觉RL对扰动的鲁棒性。该框架利用独特的智能体中心恢复专家,实现污染修复与任务相关前景提取,从而在RL智能体处理前将感知与扰动解耦。在VDCS上的大量实验表明,我们的ACO-MoE超越强基线方法,在挑战性马尔可夫切换污染下恢复95.3%的清洁性能。此外,其在随机颜色与视频背景扰动的DMControl泛化任务中达到SOTA结果,展现出高鲁棒性。

0
下载
关闭预览

相关内容

面向视觉的强化学习综述
专知会员服务
21+阅读 · 2025年8月12日
自动驾驶中的多智能体强化学习综述
专知会员服务
47+阅读 · 2024年8月20日
多智能体深度强化学习研究进展
专知会员服务
76+阅读 · 2024年7月17日
基于学习机制的多智能体强化学习综述
专知会员服务
63+阅读 · 2024年4月16日
「基于通信的多智能体强化学习」 进展综述
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
16+阅读 · 2020年9月9日
多智能体强化学习(MARL)近年研究概览
PaperWeekly
38+阅读 · 2020年3月15日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
4+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员