Grounded understanding of natural language in physical scenes can greatly benefit robots that follow human instructions. In object manipulation scenarios, existing end-to-end models are proficient at understanding semantic concepts, but typically cannot handle complex instructions involving spatial relations among multiple objects. which require both reasoning object-level spatial relations and learning precise pixel-level manipulation affordances. We take an initial step to this challenge with a decoupled two-stage solution. In the first stage, we propose an object-centric semantic-spatial reasoner to select which objects are relevant for the language instructed task. The segmentation of selected objects are then fused as additional input to the affordance learning stage. Simply incorporating the inductive bias of relevant objects to a vision-language affordance learning agent can effectively boost its performance in a custom testbed designed for object manipulation with spatial-related language instructions.


翻译:物理场景中自然语言的接地理解能够极大提升机器人遵循人类指令的能力。在物体操作场景中,现有端到端模型虽擅长理解语义概念,但通常无法处理涉及多物体空间关系的复杂指令——这类任务既需要推理物体级空间关系,又需要学习精确的像素级操作语义。我们提出一种解耦的两阶段解决方案作为初步探索。第一阶段,我们设计了一个以物体为中心的语义-空间推理器,用于选择与语言指令任务相关的物体。所选物体的分割结果随后被融合为额外输入,进入操作语义学习阶段。简单地将相关物体的归纳偏置引入视觉-语言操作语义学习智能体,即可有效提升其在为空间相关语言指令设计的物体操作定制测试平台中的表现。

0
下载
关闭预览

相关内容

专知会员服务
26+阅读 · 2021年9月19日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
CVPR 2020 | 细粒度文本视频跨模态检索
AI科技评论
17+阅读 · 2020年3月24日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
【泡泡一分钟】端到端的弱监督语义对齐
泡泡机器人SLAM
53+阅读 · 2018年4月5日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
20+阅读 · 2017年12月17日
16篇论文入门manipulation研究
机器人学家
16+阅读 · 2017年6月6日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
VIP会员
最新内容
为初级军官战术训练设计生成式人工智能平台
专知会员服务
2+阅读 · 44分钟前
《美军条令:作战伤员后送保障》
专知会员服务
2+阅读 · 49分钟前
《美空军条令出版物 4-0,维持》
专知会员服务
1+阅读 · 55分钟前
《基于仿真的空军任务规划优化》
专知会员服务
1+阅读 · 今天6:21
CVPR 2026教程:统一多模态模型走向收敛之路
专知会员服务
5+阅读 · 6月8日
《人工智能在网络防御中的机遇》
专知会员服务
6+阅读 · 6月8日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员