Robotic manipulation systems benefit from complementary sensing modalities, where each provides unique environmental information. Point clouds capture detailed geometric structure, while RGB images provide rich semantic context. Current point cloud methods struggle to capture fine-grained detail, especially for complex tasks, which RGB methods lack geometric awareness, which hinders their precision and generalization. We introduce PointMapPolicy, a novel approach that conditions diffusion policies on structured grids of points without downsampling. The resulting data type makes it easier to extract shape and spatial relationships from observations, and can be transformed between reference frames. Yet due to their structure in a regular grid, we enable the use of established computer vision techniques directly to 3D data. Using xLSTM as a backbone, our model efficiently fuses the point maps with RGB data for enhanced multi-modal perception. Through extensive experiments on the RoboCasa and CALVIN benchmarks and real robot evaluations, we demonstrate that our method achieves state-of-the-art performance across diverse manipulation tasks. The overview and demos are available on our project page: https://point-map.github.io/Point-Map/


翻译:机器人操作系统得益于互补的感知模态,其中每种模态都能提供独特的环境信息。点云捕捉精细的几何结构,而RGB图像则提供丰富的语义上下文。当前点云方法难以捕捉细粒度细节(尤其在复杂任务中),而RGB方法则缺乏几何感知能力,这限制了其精度与泛化性能。本文提出PointMapPolicy,一种基于结构化点网格(无需下采样)的扩散策略新方法。所生成的数据类型便于从观测中提取形状与空间关系,并可在参考坐标系间进行变换。得益于其在规则网格中的结构特性,我们能够将成熟的计算机视觉技术直接应用于三维数据。以xLSTM为骨干网络,我们的模型能高效融合点云图与RGB数据以增强多模态感知能力。通过在RoboCasa与CALVIN基准测试中的大量实验及真实机器人验证,我们证明该方法在多样化操作任务中均达到最先进的性能水平。项目概览与演示视频详见项目页面:https://point-map.github.io/Point-Map/

0
下载
关闭预览

相关内容

稀疏点云感知的表示学习
专知会员服务
7+阅读 · 2月9日
3D点云基础模型:综述与展望
专知会员服务
17+阅读 · 2025年1月31日
【牛津大学博士论文】学习理解大规模3D点云,191页pdf
专知会员服务
38+阅读 · 2023年6月22日
复旦等最新《预训练3D点云的自监督学习》综述
专知会员服务
31+阅读 · 2023年5月10日
「深度学习3D点云处理」最新2022进展综述
专知会员服务
60+阅读 · 2022年9月4日
专知会员服务
30+阅读 · 2020年9月21日
【泡泡点云时空】PointConv: 3D点云的深度卷积网络
泡泡机器人SLAM
23+阅读 · 2019年6月12日
PointNet系列论文解读
人工智能前沿讲习班
17+阅读 · 2019年5月3日
CVPR 2019 | PointConv:在点云上高效实现卷积操作
机器之心
10+阅读 · 2019年4月21日
基于几何特征的激光雷达地面点云分割
泡泡机器人SLAM
15+阅读 · 2018年4月1日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员