We are surrounded by various objects with movable, articulated parts, e.g., box, handle, door. An accurate and generalizable perception of articulated parts is essential to enhance robotic manipulation capabilities. Building on this need, recent efforts in articulated parts perception have followed two main directions: One line of work uses pose-based representation, which requires high manual cost; in parallel, affordance-based methods extract future object motion from point tracking without additional manual efforts, but suffer from low-quality data. In this paper, we propose a new representation of articulated parts, Geometric Primary Structure (GPS), an abstraction of the part geometry structure to balance scalability and quality. For efficient and scalable data collection, GPS is integrated with a portable Virtual Reality (VR) device and requires only one minute to annotate one object sequence. This direct human annotation provides higher quality than the estimated affordance. With this efficient VR-GPS system, we collect 41K frames for 234 objects across six part classes, and train a generalizable GPS model with a single RGB-D object image as input. For object manipulation, we deploy a heuristic policy based on GPS prediction. Without any in-domain fine-tuning, our method achieves an 73% success rate, covering 270 initial states for 9 objects. Our code, data and reusable tool are available at https://enlighten0707.github.io/gps.


翻译:我们周围充斥着各种具有可活动部件的物体,例如盒子、把手、门。对可活动部件进行精确且泛化性强的感知,对于提升机器人操作能力至关重要。基于这一需求,近期在可活动部件感知方面的研究主要沿两个方向展开:一种工作采用基于姿态的表示法,需要较高的人工成本;与此同时,基于功能的方法通过点跟踪提取未来物体运动,无需额外人工,但受限于数据质量低。本文提出了一种新的可活动部件表示法——几何主结构(GPS),该结构是对部件几何形状的抽象,旨在平衡可扩展性与数据质量。为实现高效且可扩展的数据采集,GPS与便携式虚拟现实(VR)设备相结合,注释每个物体序列仅需一分钟。这种直接的人工注释比估计的功能方法具有更高的质量。借助高效的VR-GPS系统,我们收集了涵盖6个部件类别的234个物体共41K帧数据,并以单张RGB-D物体图像为输入,训练了一个泛化性强的GPS模型。对于物体操作,我们基于GPS预测部署了一种启发式策略。无需任何领域内微调,我们的方法在9个物体的270种初始状态下达到了73%的成功率。我们的代码、数据和可复用工具已开源在 https://enlighten0707.github.io/gps。

0
下载
关闭预览

相关内容

《机器人弹性物体感知技术研究》227页
专知会员服务
18+阅读 · 2025年11月20日
【干货书】基于深度学习的机器人感知与认知,638页pdf
专知会员服务
113+阅读 · 2022年7月29日
【伯克利博士论文】机器人机械搜索的操作与感知策略
专知会员服务
16+阅读 · 2022年6月4日
【机器人】机器人PID控制
产业智能官
10+阅读 · 2018年11月25日
【机器视觉】机器视觉全面解析
产业智能官
12+阅读 · 2018年11月12日
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Arxiv
11+阅读 · 2023年9月22日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
1+阅读 · 53分钟前
定向能反无人机系统最新发展动态
专知会员服务
3+阅读 · 今天13:50
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
2+阅读 · 今天13:33
相关基金
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员