Autonomous robots often view rooms only partially, through a doorway, where the walls and scene structure hide the geometry and task-relevant semantics needed for safe navigation and goal-directed action. We ask whether off-the-shelf pretrained generative vision models can derive this missing structure as zero-shot offline priors for robot reasoning. Such priors should support spatio-semantic queries over unobserved structure, estimating the target object likelihood in hidden regions and the probability that those regions are occupied. Given an egocentric RGB observation and target query, our pipeline uses VLM-guided outpainting, monocular depth estimation, and semantic segmentation to sample semantically labeled 3D point cloud hypotheses of the hidden room. We introduce MatterDoor, a Matterport3D-derived benchmark of doorway-occluded indoor scenes, and evaluate the resulting priors with generative metrics and simulated Stretch robot object-reaching tasks. Our results suggest that useful spatio-semantic priors for planning can be derived without problem-specific fine-tuning.


翻译:自主机器人常通过门廊仅能部分观察房间,墙壁与场景结构遮挡了安全导航与目标导向行动所需的几何信息及任务相关语义。我们探究预训练的即用型生成视觉模型能否作为零样本离线先验,为机器人推理提供缺失结构信息。此类先验应支持对未观测结构的空间-语义查询,估计隐藏区域中目标物体的似然性及该区域被占据的概率。基于以自我为中心的RGB观测与目标查询,我们的流程采用VLM引导的外推绘制、单目深度估计与语义分割,为隐藏房间生成语义标记的3D点云假设样本。我们提出MatterDoor——基于Matterport3D的室内场景门廊遮挡基准数据集,并通过生成指标及模拟Stretch机器人目标拾取任务评估所得先验。结果表明,无需针对特定任务进行微调即可获得用于规划的有效空间-语义先验。

0
下载
关闭预览

相关内容

空间模块化机器人自重构机理与算法研究现状
专知会员服务
17+阅读 · 1月31日
《机器人弹性物体感知技术研究》227页
专知会员服务
18+阅读 · 2025年11月20日
多模态预训练模型简述
专知会员服务
115+阅读 · 2021年4月27日
MaskFusion: 多运动目标实时识别、跟踪和重建
计算机视觉life
11+阅读 · 2019年4月20日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
tensorflow项目学习路径
北京思腾合力科技有限公司
10+阅读 · 2017年11月23日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
10+阅读 · 6月15日
相关资讯
MaskFusion: 多运动目标实时识别、跟踪和重建
计算机视觉life
11+阅读 · 2019年4月20日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
tensorflow项目学习路径
北京思腾合力科技有限公司
10+阅读 · 2017年11月23日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员