A Continual Offline Reinforcement Learning Benchmark for Navigation Tasks - 专知论文

会员服务 ·

0

基准 · 视频 · 视频游戏 · 基准测试 · 持续强化学习 ·

A Continual Offline Reinforcement Learning Benchmark for Navigation Tasks

翻译：持续离线强化学习导航任务基准

Anthony Kobanda,Odalric-Ambrym Maillard,Rémy Portelas

from arxiv, arXiv admin note: text overlap with arXiv:2412.14865

Autonomous agents operating in domains such as robotics or video game simulations must adapt to changing tasks without forgetting about the previous ones. This process called Continual Reinforcement Learning poses non-trivial difficulties, from preventing catastrophic forgetting to ensuring the scalability of the approaches considered. Building on recent advances, we introduce a benchmark providing a suite of video-game navigation scenarios, thus filling a gap in the literature and capturing key challenges : catastrophic forgetting, task adaptation, and memory efficiency. We define a set of various tasks and datasets, evaluation protocols, and metrics to assess the performance of algorithms, including state-of-the-art baselines. Our benchmark is designed not only to foster reproducible research and to accelerate progress in continual reinforcement learning for gaming, but also to provide a reproducible framework for production pipelines -- helping practitioners to identify and to apply effective approaches.

翻译：在机器人或视频游戏模拟等领域中运行的自主智能体必须适应不断变化的任务，同时不遗忘先前习得的能力。这一被称为持续强化学习的过程带来了诸多非平凡挑战，包括防止灾难性遗忘、确保所采用方法的可扩展性等。基于最新研究进展，我们提出了一个包含系列视频游戏导航场景的基准测试套件，从而填补了现有研究空白并捕捉了以下核心挑战：灾难性遗忘、任务适应性和内存效率。我们定义了一系列多样化任务与数据集、评估协议及性能指标，用以评估包括最先进基线算法在内的各类算法表现。本基准测试不仅旨在促进可复现研究、加速游戏领域持续强化学习的进展，同时为生产流水线提供了可复现框架——帮助从业者识别并应用有效的解决方案。

0

相关内容

《迈向可解释强化学习及面向战略决策的定制化学习基准》（70页）

《迈向可解释强化学习及面向战略决策的定制化学习基准》（70页）

专知会员服务

16+阅读 · 4月18日

【ICML2025】通过在线世界模型规划的持续强化学习

【ICML2025】通过在线世界模型规划的持续强化学习

专知会员服务

20+阅读 · 2025年7月18日

【阿姆斯特丹博士论文】自主智能体导航的强化学习与规划：专注于稀疏奖励设置

【阿姆斯特丹博士论文】自主智能体导航的强化学习与规划：专注于稀疏奖励设置

专知会员服务

44+阅读 · 2024年3月28日

《用于水下目标定位的平台便携式强化学习方法》

《用于水下目标定位的平台便携式强化学习方法》

专知会员服务

28+阅读 · 2024年1月2日

【CMU博士论文】持续机器人学习:基准和模块化方法，125页pdf

【CMU博士论文】持续机器人学习:基准和模块化方法，125页pdf

专知会员服务

28+阅读 · 2023年10月4日

清华最新《持续学习》综述，32页pdf详述持续学习理论、方法与应用综述

清华最新《持续学习》综述，32页pdf详述持续学习理论、方法与应用综述

专知会员服务

93+阅读 · 2023年2月3日

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

专知会员服务

38+阅读 · 2022年3月25日

【ICLR2021】一种基于距离度量学习及行为正则化的完全离线的元强化学习方法

专知会员服务

17+阅读 · 2021年2月9日

可解释强化学习，Explainable Reinforcement Learning: A Survey

可解释强化学习，Explainable Reinforcement Learning: A Survey

专知会员服务

132+阅读 · 2020年5月14日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知会员服务

37+阅读 · 2020年2月27日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

27+阅读 · 2022年11月24日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

33+阅读 · 2022年11月12日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

强化学习《奖励函数设计: Reward Shaping》详细解读

强化学习《奖励函数设计: Reward Shaping》详细解读

深度强化学习实验室

20+阅读 · 2020年9月1日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

DeepMind：用PopArt进行多任务深度强化学习

DeepMind：用PopArt进行多任务深度强化学习

论智

30+阅读 · 2018年9月14日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

不确定环境下的自主移动机器人目标搜索问题研究

国家自然科学基金

52+阅读 · 2015年12月31日

在轨航天器诊断策略自动构建与学习调控方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

Simple Recipe Works: Vision-Language-Action Models are Natural Continual Learners with Reinforcement Learning

Arxiv

0+阅读 · 3月12日

Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments

Arxiv

0+阅读 · 3月10日

Memory, Benchmark & Robots: A Benchmark for Solving Complex Tasks with Reinforcement Learning

Arxiv

0+阅读 · 3月4日

Self-adapting Robotic Agents through Online Continual Reinforcement Learning with World Model Feedback

Arxiv

0+阅读 · 3月4日

Composable Model-Free RL for Navigation with Input-Affine Systems

Arxiv

0+阅读 · 2月13日

Learning to Continually Learn via Meta-learning Agentic Memory Designs

Arxiv

0+阅读 · 2月8日

Hierarchical Subspaces of Policies for Continual Offline Reinforcement Learning

Arxiv

0+阅读 · 2月5日

Attention Retention for Continual Learning with Vision Transformers

Arxiv

0+阅读 · 2月5日

Reinforcement Learning for Active Perception in Autonomous Navigation

Arxiv

0+阅读 · 2月1日

Offline Goal-Conditioned Reinforcement Learning with Projective Quasimetric Planning

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

持续强化学习

最新内容

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

0+阅读 · 11分钟前

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

0+阅读 · 28分钟前

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

0+阅读 · 44分钟前

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

0+阅读 · 54分钟前

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

0+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

0+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

3+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

4+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

7+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

4+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

7+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

5+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

3+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

相关VIP内容

《迈向可解释强化学习及面向战略决策的定制化学习基准》（70页）

《迈向可解释强化学习及面向战略决策的定制化学习基准》（70页）

专知会员服务

16+阅读 · 4月18日

【ICML2025】通过在线世界模型规划的持续强化学习

【ICML2025】通过在线世界模型规划的持续强化学习

专知会员服务

20+阅读 · 2025年7月18日

【阿姆斯特丹博士论文】自主智能体导航的强化学习与规划：专注于稀疏奖励设置

【阿姆斯特丹博士论文】自主智能体导航的强化学习与规划：专注于稀疏奖励设置

专知会员服务

44+阅读 · 2024年3月28日

《用于水下目标定位的平台便携式强化学习方法》

《用于水下目标定位的平台便携式强化学习方法》

专知会员服务

28+阅读 · 2024年1月2日

【CMU博士论文】持续机器人学习:基准和模块化方法，125页pdf

【CMU博士论文】持续机器人学习:基准和模块化方法，125页pdf

专知会员服务

28+阅读 · 2023年10月4日

清华最新《持续学习》综述，32页pdf详述持续学习理论、方法与应用综述

清华最新《持续学习》综述，32页pdf详述持续学习理论、方法与应用综述

专知会员服务

93+阅读 · 2023年2月3日

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

专知会员服务

38+阅读 · 2022年3月25日

【ICLR2021】一种基于距离度量学习及行为正则化的完全离线的元强化学习方法

专知会员服务

17+阅读 · 2021年2月9日

可解释强化学习，Explainable Reinforcement Learning: A Survey

可解释强化学习，Explainable Reinforcement Learning: A Survey

专知会员服务

132+阅读 · 2020年5月14日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知会员服务

37+阅读 · 2020年2月27日

热门VIP内容

开通专知VIP会员享更多权益服务

重新思考无人机时代的生存能力

在人工智能加速决策环境中拓展OODA循环

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

装甲突击旅：现代战争思考、战斗与组织

相关资讯

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

27+阅读 · 2022年11月24日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

33+阅读 · 2022年11月12日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

强化学习《奖励函数设计: Reward Shaping》详细解读

强化学习《奖励函数设计: Reward Shaping》详细解读

深度强化学习实验室

20+阅读 · 2020年9月1日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

DeepMind：用PopArt进行多任务深度强化学习

DeepMind：用PopArt进行多任务深度强化学习

论智

30+阅读 · 2018年9月14日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

相关论文

Simple Recipe Works: Vision-Language-Action Models are Natural Continual Learners with Reinforcement Learning

Arxiv

0+阅读 · 3月12日

Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments

Arxiv

0+阅读 · 3月10日

Memory, Benchmark & Robots: A Benchmark for Solving Complex Tasks with Reinforcement Learning

Arxiv

0+阅读 · 3月4日

Self-adapting Robotic Agents through Online Continual Reinforcement Learning with World Model Feedback

Arxiv

0+阅读 · 3月4日

Composable Model-Free RL for Navigation with Input-Affine Systems

Arxiv

0+阅读 · 2月13日

Learning to Continually Learn via Meta-learning Agentic Memory Designs

Arxiv

0+阅读 · 2月8日

Hierarchical Subspaces of Policies for Continual Offline Reinforcement Learning

Arxiv

0+阅读 · 2月5日

Attention Retention for Continual Learning with Vision Transformers

Arxiv

0+阅读 · 2月5日

Reinforcement Learning for Active Perception in Autonomous Navigation

Arxiv

0+阅读 · 2月1日

Offline Goal-Conditioned Reinforcement Learning with Projective Quasimetric Planning

Arxiv

0+阅读 · 1月30日

相关基金

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

不确定环境下的自主移动机器人目标搜索问题研究

国家自然科学基金

52+阅读 · 2015年12月31日

在轨航天器诊断策略自动构建与学习调控方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员