We present GRL-SNAM, a geometric reinforcement learning framework for Simultaneous Navigation and Mapping(SNAM) in unknown environments. A SNAM problem is challenging as it needs to design hierarchical or joint policies of multiple agents that control the movement of a real-life robot towards the goal in mapless environment, i.e. an environment where the map of the environment is not available apriori, and needs to be acquired through sensors. The sensors are invoked from the path learner, i.e. navigator, through active query responses to sensory agents, and along the motion path. GRL-SNAM differs from preemptive navigation algorithms and other reinforcement learning methods by relying exclusively on local sensory observations without constructing a global map. Our approach formulates path navigation and mapping as a dynamic shortest path search and discovery process using controlled Hamiltonian optimization: sensory inputs are translated into local energy landscapes that encode reachability, obstacle barriers, and deformation constraints, while policies for sensing, planning, and reconfiguration evolve stagewise via updating Hamiltonians. A reduced Hamiltonian serves as an adaptive score function, updating kinetic/potential terms, embedding barrier constraints, and continuously refining trajectories as new local information arrives. We evaluate GRL-SNAM on two different 2D navigation tasks. Comparing against local reactive baselines and global policy learning references under identical stagewise sensing constraints, it preserves clearance, generalizes to unseen layouts, and demonstrates that Geometric RL learning via updating Hamiltonians enables high-quality navigation through minimal exploration via local energy refinement rather than extensive global mapping. The code is publicly available on \href{https://github.com/CVC-Lab/GRL-SNAM}{Github}.


翻译:我们提出了GRL-SNAM,一种用于未知环境中同步导航与建图(SNAM)的几何强化学习框架。SNAM问题具有挑战性,因为它需要设计分层或联合策略来控制现实机器人在无地图环境(即环境地图无法预先获取,需通过传感器实时构建)中向目标移动。传感器由路径学习器(即导航器)通过主动查询响应感知代理的方式调用,并沿运动路径工作。GRL-SNAM区别于先验式导航算法及其他强化学习方法,其完全依赖局部感知观测而不构建全局地图。我们的方法将路径导航与建图表述为使用受控哈密顿优化的动态最短路径搜索与发现过程:感知输入被转化为编码可达性、障碍屏障与形变约束的局部能量场,而感知、规划与重配置策略则通过哈密顿量的更新分阶段演化。一个约简的哈密顿量作为自适应评分函数,更新动能/势能项、嵌入屏障约束,并随着新局部信息的到达持续优化轨迹。我们在两种不同的二维导航任务上评估了GRL-SNAM。在相同的分阶段感知约束下,与局部反应式基线及全局策略学习参考方法相比,该方法保持了路径间隙,能泛化至未见过的布局,并证明通过哈密顿量更新实现的几何强化学习能够通过局部能量优化(而非大范围全局建图)的最小探索实现高质量导航。代码已在\href{https://github.com/CVC-Lab/GRL-SNAM}{Github}公开。

0
下载
关闭预览

相关内容

【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员