Robust Decision-Making in Spatial Learning: A Comparative Study of Successor Features and Predecessor Features Algorithms - 专知论文

会员服务 ·

0

学习算法 · 图理论 · 游戏AI · 算法 · 步长 ·

2023 年 4 月 14 日

Robust Decision-Making in Spatial Learning: A Comparative Study of Successor Features and Predecessor Features Algorithms

翻译：空间学习中的鲁棒决策：后继特征与前驱特征算法的比较研究

from arxiv, 7 pages, 6 figures, 2 tables

Predictive map theory, one of the theories explaining spatial learning in animals, is based on successor representation (SR) learning algorithms. In the real world, agents such as animals and robots are subjected to noisy observations, which can lead to suboptimal actions or even failure during learning. In this study, we compared the performance of Successor Features (SFs) and Predecessor Features (PFs) algorithms in a noisy one-dimensional maze environment. Our results demonstrated that PFs consistently outperformed SFs in terms of cumulative reward and average step length, with higher resilience to noise. This superiority could be due to PFs' ability to transmit temporal difference errors to more preceding states. We also discuss the biological mechanisms involved in PFs learning for spatial navigation. This study contributes to the theoretical research on computational neuroscience using reinforcement learning algorithms, and highlights the practical potential of PFs in robotics, game AI, and autonomous vehicle navigation.

翻译：预测地图理论（Predictive Map Theory）是解释动物空间学习行为的理论之一，其基础是后继表征（Successor Representation, SR）学习算法。在现实世界中，动物和机器人等智能体会受到噪声观测的影响，这可能导致学习过程中产生次优行为甚至失败。本研究在含噪声的一维迷宫环境中，比较了后继特征（Successor Features, SFs）与前驱特征（Predecessor Features, PFs）算法的性能。实验结果表明，PFs在累积奖励和平均步长两项指标上始终优于SFs，且对噪声具有更强的鲁棒性。这一优势可能源于PFs能够将时序差分误差传递至更多先前状态的能力。我们还探讨了PFs学习在空间导航中所涉及的生物学机制。本研究利用强化学习算法推进了计算神经科学的理论研究，并凸显了PFs在机器人、游戏人工智能和自动驾驶导航领域的实际应用潜力。

0

相关内容

学习算法

【CTH博士论文】基于强化学习的自动驾驶决策，149页pdf

【CTH博士论文】基于强化学习的自动驾驶决策，149页pdf

专知会员服务

59+阅读 · 2023年2月18日

【自动驾驶 - 博士论文】《共享空间中自动驾驶汽车的主动和社交导航》格勒诺布尔大学

【自动驾驶 - 博士论文】《共享空间中自动驾驶汽车的主动和社交导航》格勒诺布尔大学

专知会员服务

25+阅读 · 2022年9月4日

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

专知会员服务

17+阅读 · 2022年6月23日

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

专知会员服务

24+阅读 · 2022年3月19日

【ICML2021】预测观察进行模仿学习

专知会员服务

24+阅读 · 2021年7月10日

【CMU博士论文】机器人深度强化学习，128页pdf

【CMU博士论文】机器人深度强化学习，128页pdf

专知会员服务

133+阅读 · 2020年8月27日

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

专知会员服务

131+阅读 · 2020年4月19日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

专知会员服务

84+阅读 · 2019年10月9日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

直播 | Interpretable and Trustworthy Graph Geometric Deep Learning

直播 | Interpretable and Trustworthy Graph Geometric Deep Learning

图与推荐

2+阅读 · 2022年11月2日

【泡泡一分钟】通过学习轮式里程计和IMU误差的定位

【泡泡一分钟】通过学习轮式里程计和IMU误差的定位

泡泡机器人SLAM

133+阅读 · 2019年9月12日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

【泡泡一分钟】优化对比度增强以提高SLAM重定位环境中视觉跟踪的稳健性

【泡泡一分钟】优化对比度增强以提高SLAM重定位环境中视觉跟踪的稳健性

泡泡机器人SLAM

10+阅读 · 2019年4月26日

【泡泡一分钟】学习行人如何导航：一种深度逆强化学习的方法

【泡泡一分钟】学习行人如何导航：一种深度逆强化学习的方法

泡泡机器人SLAM

20+阅读 · 2019年4月22日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

vae 相关论文表示学习 1

vae 相关论文表示学习 1

CreateAMind

12+阅读 · 2018年9月6日

【泡泡一分钟】神经SLAM：使用外部存储器让智能体学习探索环境

【泡泡一分钟】神经SLAM：使用外部存储器让智能体学习探索环境

泡泡机器人SLAM

12+阅读 · 2018年4月17日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

概率和平均框架下一系列Sobolev空间中的函数逼近与恢复

国家自然科学基金

1+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

47+阅读 · 2015年12月31日

基于新型近红外荧光探针追踪癌细胞内核糖核酸（RNA）附近过氧化氢的动态变化研究

国家自然科学基金

0+阅读 · 2015年12月31日

分数Brown运动驱动的随机微分方程随机分岔与遍历性的研究

国家自然科学基金

2+阅读 · 2015年12月31日

再生核希尔伯特空间图像稀疏表达算法研究

国家自然科学基金

1+阅读 · 2013年12月31日

非自治四体问题中的非线性轨道动力学与轨道优化研究

国家自然科学基金

0+阅读 · 2013年12月31日

星形胶质细胞RORα在多巴胺神经元损伤中的作用及机制

国家自然科学基金

0+阅读 · 2013年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

基于闭环子空间算法的车辆系统模型辨识方法的研究

国家自然科学基金

1+阅读 · 2011年12月31日

Hexamerin基因家族在飞蝗型变过程中的功能分析

国家自然科学基金

0+阅读 · 2009年12月31日

On Balancing Bias and Variance in Unsupervised Multi-Source-Free Domain Adaptation

Arxiv

0+阅读 · 2023年5月31日

Non-convex Bayesian Learning via Stochastic Gradient Markov Chain Monte Carlo

Arxiv

0+阅读 · 2023年5月30日

Solving Robust MDPs through No-Regret Dynamics

Arxiv

0+阅读 · 2023年5月30日

The Fragility of Optimized Bandit Algorithms

Arxiv

0+阅读 · 2023年5月30日

Robust Lipschitz Bandits to Adversarial Corruptions

Arxiv

0+阅读 · 2023年5月29日

Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo

Arxiv

0+阅读 · 2023年5月29日

Incremental Dead State Detection in Logarithmic Time

Arxiv

0+阅读 · 2023年5月29日

RL + Model-based Control: Using On-demand Optimal Control to Learn Versatile Legged Locomotion

Arxiv

0+阅读 · 2023年5月29日

Bayesian approach to Gaussian process regression with uncertain inputs

Arxiv

0+阅读 · 2023年5月28日

Multi-Stage Monte Carlo Tree Search for Non-Monotone Object Rearrangement Planning in Narrow Confined Environments

Arxiv

0+阅读 · 2023年5月26日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

3+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

5+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

7+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

10+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

11+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

15+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

8+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

10+阅读 · 6月17日

相关VIP内容

【CTH博士论文】基于强化学习的自动驾驶决策，149页pdf

【CTH博士论文】基于强化学习的自动驾驶决策，149页pdf

专知会员服务

59+阅读 · 2023年2月18日

【自动驾驶 - 博士论文】《共享空间中自动驾驶汽车的主动和社交导航》格勒诺布尔大学

【自动驾驶 - 博士论文】《共享空间中自动驾驶汽车的主动和社交导航》格勒诺布尔大学

专知会员服务

25+阅读 · 2022年9月4日

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

专知会员服务

17+阅读 · 2022年6月23日

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

专知会员服务

24+阅读 · 2022年3月19日

【ICML2021】预测观察进行模仿学习

专知会员服务

24+阅读 · 2021年7月10日

【CMU博士论文】机器人深度强化学习，128页pdf

【CMU博士论文】机器人深度强化学习，128页pdf

专知会员服务

133+阅读 · 2020年8月27日

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

专知会员服务

131+阅读 · 2020年4月19日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

专知会员服务

84+阅读 · 2019年10月9日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

直播 | Interpretable and Trustworthy Graph Geometric Deep Learning

直播 | Interpretable and Trustworthy Graph Geometric Deep Learning

图与推荐

2+阅读 · 2022年11月2日

【泡泡一分钟】通过学习轮式里程计和IMU误差的定位

【泡泡一分钟】通过学习轮式里程计和IMU误差的定位

泡泡机器人SLAM

133+阅读 · 2019年9月12日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

【泡泡一分钟】优化对比度增强以提高SLAM重定位环境中视觉跟踪的稳健性

【泡泡一分钟】优化对比度增强以提高SLAM重定位环境中视觉跟踪的稳健性

泡泡机器人SLAM

10+阅读 · 2019年4月26日

【泡泡一分钟】学习行人如何导航：一种深度逆强化学习的方法

【泡泡一分钟】学习行人如何导航：一种深度逆强化学习的方法

泡泡机器人SLAM

20+阅读 · 2019年4月22日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

vae 相关论文表示学习 1

vae 相关论文表示学习 1

CreateAMind

12+阅读 · 2018年9月6日

【泡泡一分钟】神经SLAM：使用外部存储器让智能体学习探索环境

【泡泡一分钟】神经SLAM：使用外部存储器让智能体学习探索环境

泡泡机器人SLAM

12+阅读 · 2018年4月17日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

相关论文

On Balancing Bias and Variance in Unsupervised Multi-Source-Free Domain Adaptation

Arxiv

0+阅读 · 2023年5月31日

Non-convex Bayesian Learning via Stochastic Gradient Markov Chain Monte Carlo

Arxiv

0+阅读 · 2023年5月30日

Solving Robust MDPs through No-Regret Dynamics

Arxiv

0+阅读 · 2023年5月30日

The Fragility of Optimized Bandit Algorithms

Arxiv

0+阅读 · 2023年5月30日

Robust Lipschitz Bandits to Adversarial Corruptions

Arxiv

0+阅读 · 2023年5月29日

Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo

Arxiv

0+阅读 · 2023年5月29日

Incremental Dead State Detection in Logarithmic Time

Arxiv

0+阅读 · 2023年5月29日

RL + Model-based Control: Using On-demand Optimal Control to Learn Versatile Legged Locomotion

Arxiv

0+阅读 · 2023年5月29日

Bayesian approach to Gaussian process regression with uncertain inputs

Arxiv

0+阅读 · 2023年5月28日

Multi-Stage Monte Carlo Tree Search for Non-Monotone Object Rearrangement Planning in Narrow Confined Environments

Arxiv

0+阅读 · 2023年5月26日

相关基金

概率和平均框架下一系列Sobolev空间中的函数逼近与恢复

国家自然科学基金

1+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

47+阅读 · 2015年12月31日

基于新型近红外荧光探针追踪癌细胞内核糖核酸（RNA）附近过氧化氢的动态变化研究

国家自然科学基金

0+阅读 · 2015年12月31日

分数Brown运动驱动的随机微分方程随机分岔与遍历性的研究

国家自然科学基金

2+阅读 · 2015年12月31日

再生核希尔伯特空间图像稀疏表达算法研究

国家自然科学基金

1+阅读 · 2013年12月31日

非自治四体问题中的非线性轨道动力学与轨道优化研究

国家自然科学基金

0+阅读 · 2013年12月31日

星形胶质细胞RORα在多巴胺神经元损伤中的作用及机制

国家自然科学基金

0+阅读 · 2013年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

基于闭环子空间算法的车辆系统模型辨识方法的研究

国家自然科学基金

1+阅读 · 2011年12月31日

Hexamerin基因家族在飞蝗型变过程中的功能分析

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员