End-to-end reinforcement learning (RL) for motion control trains policies directly from sensor inputs to motor commands, enabling unified controllers for different robots and tasks. However, most existing methods are either blind (proprioception-only) or rely on fusion backbones with unfavorable compute-memory trade-offs. Recurrent controllers struggle with long-horizon credit assignment, and Transformer-based fusion incurs quadratic cost in token length, limiting temporal and spatial context. We present a vision-driven cross-modal RL framework built on SSD-Mamba2, a selective state-space backbone that applies state-space duality (SSD) to enable both recurrent and convolutional scanning with hardware-aware streaming and near-linear scaling. Proprioceptive states and exteroceptive observations (e.g., depth tokens) are encoded into compact tokens and fused by stacked SSD-Mamba2 layers. The selective state-space updates retain long-range dependencies with markedly lower latency and memory use than quadratic self-attention, enabling longer look-ahead, higher token resolution, and stable training under limited compute. Policies are trained end-to-end under curricula that randomize terrain and appearance and progressively increase scene complexity. A compact, state-centric reward balances task progress, energy efficiency, and safety. Across diverse motion-control scenarios, our approach consistently surpasses strong state-of-the-art baselines in return, safety (collisions and falls), and sample efficiency, while converging faster at the same compute budget. These results suggest that SSD-Mamba2 provides a practical fusion backbone for resource-constrained robotic and autonomous systems in engineering informatics applications.


翻译:端到端强化学习(RL)用于运动控制,可直接从传感器输入训练策略以输出电机指令,从而为不同机器人和任务提供统一的控制器。然而,现有方法大多要么是“盲视”的(仅依赖本体感知),要么依赖于计算-内存权衡不佳的融合主干网络。循环控制器难以处理长时程的信用分配,而基于Transformer的融合则因令牌长度导致二次方计算成本,限制了时空上下文的有效利用。本文提出一种基于SSD-Mamba2的视觉驱动跨模态RL框架,该框架采用选择性状态空间主干网络,通过状态空间对偶性(SSD)实现循环与卷积扫描,并具备硬件感知的流式处理和近线性扩展能力。本体感知状态与外感知观测(如深度令牌)被编码为紧凑令牌,并通过堆叠的SSD-Mamba2层进行融合。选择性状态空间更新在显著低于二次方自注意力机制的延迟和内存消耗下保持长程依赖关系,从而在有限计算资源下实现更长的前瞻视野、更高的令牌分辨率以及稳定的训练。策略在随机化地形与外观、并逐步增加场景复杂度的课程设置下进行端到端训练。一种紧凑的、以状态为中心的任务奖励平衡了任务进度、能源效率与安全性。在多种运动控制场景中,本方法在回报率、安全性(碰撞与跌倒)和样本效率方面均持续超越现有先进基线,并在相同计算预算下收敛更快。这些结果表明,SSD-Mamba2为工程信息学应用中资源受限的机器人及自主系统提供了一种实用的融合主干网络。

0
下载
关闭预览

相关内容

面向视觉的强化学习综述
专知会员服务
21+阅读 · 2025年8月12日
《强化学习的应用及其在战争战术模拟技术中的扩展》
专知会员服务
27+阅读 · 2025年1月14日
自动驾驶中的多智能体强化学习综述
专知会员服务
47+阅读 · 2024年8月20日
《用于水下目标定位的平台便携式强化学习方法》
专知会员服务
27+阅读 · 2024年1月2日
【CMU博士论文】强化学习泛化性与效率研究,206页pdf
专知会员服务
73+阅读 · 2023年2月23日
基于模型的强化学习综述
专知会员服务
149+阅读 · 2022年7月13日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
176+阅读 · 2020年2月8日
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT博士论文】数据高效强化学习,176页pdf
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
关于强化学习(附代码,练习和解答)
深度学习
37+阅读 · 2018年1月30日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
VIP会员
相关VIP内容
面向视觉的强化学习综述
专知会员服务
21+阅读 · 2025年8月12日
《强化学习的应用及其在战争战术模拟技术中的扩展》
专知会员服务
27+阅读 · 2025年1月14日
自动驾驶中的多智能体强化学习综述
专知会员服务
47+阅读 · 2024年8月20日
《用于水下目标定位的平台便携式强化学习方法》
专知会员服务
27+阅读 · 2024年1月2日
【CMU博士论文】强化学习泛化性与效率研究,206页pdf
专知会员服务
73+阅读 · 2023年2月23日
基于模型的强化学习综述
专知会员服务
149+阅读 · 2022年7月13日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
176+阅读 · 2020年2月8日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员