Learning abstractions directly from data is a core challenge in robotics. Humans naturally operate at an abstract level, reasoning over high-level subgoals while delegating execution to low-level motor skills -- an ability that enables efficient problem solving in complex environments. In robotics, abstractions and hierarchical reasoning have long been central to planning, yet they are typically hand-engineered, demanding significant human effort and limiting scalability. Automating the discovery of useful abstractions directly from visual data would make planning frameworks more scalable and more applicable to real-world robotic domains. In this work, we focus on rearrangement tasks where the state is represented with raw images, and propose a method to induce discrete, graph-structured abstractions by combining structural constraints with an attention-guided visual distance. Our approach leverages the inherent bipartite structure of rearrangement problems, integrating structural constraints and visual embeddings into a unified framework. This enables the autonomous discovery of abstractions from vision alone, which can subsequently support high-level planning. We evaluate our method on two rearrangement tasks in simulation and show that it consistently identifies meaningful abstractions that facilitate effective planning and outperform existing approaches.


翻译:从数据中直接学习抽象概念是机器人领域的核心挑战。人类自然能在抽象层面运作,通过高层子目标进行推理,同时将具体执行委托给低层级运动技能——这种能力使人类能够在复杂环境中高效解决问题。在机器人学中,抽象化与分层推理长期以来都是规划的核心要素,但传统方法通常依赖人工设计,不仅耗费大量人力,还限制了可扩展性。若能通过视觉数据自动发现有效的抽象概念,将使规划框架更具可扩展性,并更适用于真实机器人场景。本文聚焦于以原始图像表征状态的重排任务,提出一种通过结合结构约束与注意力引导的视觉距离来诱导离散图结构抽象的方法。该方法充分利用重排问题固有的二分图结构,将结构约束与视觉嵌入整合至统一框架中,从而实现仅凭视觉信息自主发现抽象概念,进而支持高层规划。我们在仿真环境中的两个重排任务上验证了该方法,结果表明其能持续识别有意义的抽象概念,显著提升规划效率,且性能优于现有方法。

0
下载
关闭预览

相关内容

【CMU博士论文】强化学习中的涌现式抽象
专知会员服务
16+阅读 · 3月8日
面向视觉的强化学习综述
专知会员服务
21+阅读 · 2025年8月12日
【牛津大学博士论文】强化学习时间抽象和泛化,196页pdf
深度学习与计算机视觉任务应用综述
深度学习与NLP
51+阅读 · 2018年12月18日
【泡泡图灵智库】密集相关的自监督视觉描述学习(RAL)
泡泡机器人SLAM
11+阅读 · 2018年10月6日
干货|浅谈强化学习的方法及学习路线
机器学习算法与Python学习
16+阅读 · 2018年3月28日
【迁移学习】迁移学习在图像分类中的简单应用策略
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员