3D meshes are a fundamental representation widely used in computer science and engineering. In robotics, they are particularly valuable because they capture objects in a form that aligns directly with how robots interact with the physical world, enabling core capabilities such as predicting stable grasps, detecting collisions, and simulating dynamics. Although automatic 3D mesh generation methods have shown promising progress in recent years, potentially offering a path toward real-time robot perception, two critical challenges remain. First, generating high-fidelity meshes is prohibitively slow for real-time use, often requiring tens of seconds per object. Second, mesh generation by itself is insufficient. In robotics, a mesh must be contextually grounded, i.e., correctly segmented from the scene and registered with the proper scale and pose. Additionally, unless these contextual grounding steps remain efficient, they simply introduce new bottlenecks. In this work, we introduce an end-to-end system that addresses these challenges, producing a high-quality, contextually grounded 3D mesh from a single RGB-D image in under one second. Our pipeline integrates open-vocabulary object segmentation, accelerated diffusion-based mesh generation, and robust point cloud registration, each optimized for both speed and accuracy. We demonstrate its effectiveness in a real-world manipulation task, showing that it enables meshes to be used as a practical, on-demand representation for robotics perception and planning.


翻译:三维网格是计算机科学与工程领域广泛使用的基础表示方法。在机器人学中,其价值尤为突出,因为这种表示形式能直接对应机器人与物理世界的交互方式,为实现稳定抓取预测、碰撞检测和动力学模拟等核心功能提供了可能。尽管近年来自动三维网格生成方法取得了显著进展,为实现实时机器人感知提供了潜在路径,但仍面临两大关键挑战:首先,生成高保真网格的速度难以满足实时性要求,单个物体通常需要数十秒处理时间;其次,单纯的网格生成并不充分。在机器人应用中,网格必须具有场景上下文基础,即需要从场景中正确分割并配准至合适的尺度与位姿。此外,若这些上下文配准步骤效率不足,反而会形成新的性能瓶颈。本研究提出了一种端到端系统以应对这些挑战,该系统能在单帧RGB-D图像输入后一秒钟内生成具有场景上下文的高质量三维网格。我们的流程整合了开放词汇目标分割、加速扩散式网格生成和鲁棒点云配准三大模块,每个模块均在速度与精度上进行了协同优化。通过真实世界操作任务的验证,我们证明了该系统能使网格成为机器人感知与规划中实用、按需可得的有效表示形式。

0
下载
关闭预览

相关内容

仿生机器人技术的军事应用
专知会员服务
12+阅读 · 2025年12月4日
三维与四维世界建模综述
专知会员服务
29+阅读 · 2025年9月12日
三维物体与场景生成的最新进展:综述
专知会员服务
17+阅读 · 2025年4月17日
【ETHZ博士论文】《人类动作与交互的生成式建模》
专知会员服务
16+阅读 · 2025年3月28日
生成式人工智能在机器人操作中的应用:综述
专知会员服务
29+阅读 · 2025年3月6日
人形机器人深度:产业化渐行渐近,未来前景广阔
专知会员服务
39+阅读 · 2024年7月17日
专知会员服务
67+阅读 · 2021年5月21日
计算机视觉方向简介 | 三维重建技术概述
计算机视觉life
26+阅读 · 2019年6月13日
计算机视觉方向简介 | 基于单目视觉的三维重建算法
计算机视觉life
32+阅读 · 2019年4月9日
SkeletonNet:完整的人体三维位姿重建方法
计算机视觉life
21+阅读 · 2019年1月21日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员