Deep reinforcement learning (RL) is increasingly deployed in resource-constrained environments, yet the go-to function approximators - multilayer perceptrons (MLPs) - are often parameter-inefficient due to an imperfect inductive bias for the smooth structure of many value functions. This mismatch can also hinder sample efficiency and slow policy learning in this capacity-limited regime. Although model compression techniques exist, they operate post-hoc and do not improve learning efficiency. Recent spline-based separable architectures - such as Kolmogorov-Arnold Networks (KANs) - have been shown to offer parameter efficiency but are widely reported to exhibit significant computational overhead, especially at scale. In seeking to address these limitations, this work introduces SPAN (SPline-based Adaptive Networks), a novel function approximation approach to RL. SPAN adapts the low rank KHRONOS framework by integrating a learnable preprocessing layer with a separable tensor product B-spline basis. SPAN is evaluated across discrete (PPO) and high-dimensional continuous (SAC) control tasks, as well as offline settings (Minari/D4RL). Empirical results demonstrate that SPAN achieves a 30-50% improvement in sample efficiency and 1.3-9 times higher success rates across benchmarks compared to MLP baselines. Furthermore, SPAN demonstrates superior anytime performance and robustness to hyperparameter variations, suggesting it as a viable, high performance alternative for learning intrinsically efficient policies in resource-limited settings.


翻译:深度强化学习(RL)正越来越多地部署在资源受限的环境中,然而常用的函数逼近器——多层感知机(MLP)——由于对许多价值函数的平滑结构存在不完美的归纳偏置,往往参数效率低下。这种不匹配在容量受限的情况下也会阻碍样本效率并减缓策略学习。尽管存在模型压缩技术,但它们属于事后操作,无法提高学习效率。近期基于样条的可分离架构——例如Kolmogorov-Arnold网络(KANs)——已被证明能提供参数效率,但广泛报道显示其存在显著的计算开销,尤其是在大规模场景下。为应对这些局限性,本研究引入了SPAN(基于样条的自适应网络),一种用于强化学习的新型函数逼近方法。SPAN通过将可学习的预处理层与可分离的张量积B样条基相结合,对低秩KHRONOS框架进行了改进。SPAN在离散(PPO)和高维连续(SAC)控制任务以及离线设置(Minari/D4RL)中进行了评估。实证结果表明,与MLP基线相比,SPAN在样本效率上实现了30-50%的提升,并在各基准测试中取得了1.3至9倍更高的成功率。此外,SPAN展现出卓越的任意时间性能以及对超参数变化的鲁棒性,表明其可作为在资源受限环境中学习本质高效策略的一种可行且高性能的替代方案。

0
下载
关闭预览

相关内容

《可解释深度强化学习综述》
专知会员服务
40+阅读 · 2025年2月12日
《强化学习的应用及其在战争战术模拟技术中的扩展》
专知会员服务
27+阅读 · 2025年1月14日
基于模型的强化学习综述
专知会员服务
149+阅读 · 2022年7月13日
【CMU博士论文】通过记忆的元强化学习,118页pdf
专知会员服务
49+阅读 · 2022年6月23日
【CMU博士论文】通过记忆的元强化学习
专知会员服务
57+阅读 · 2021年10月16日
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT博士论文】数据高效强化学习,176页pdf
深度强化学习简介
专知
30+阅读 · 2018年12月3日
关于强化学习(附代码,练习和解答)
深度学习
37+阅读 · 2018年1月30日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
On Computation and Reinforcement Learning
Arxiv
0+阅读 · 2月4日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员