Simultaneous object recognition and pose estimation are two key functionalities for robots to safely interact with humans as well as environments. Although both object recognition and pose estimation use visual input, most state-of-the-art tackles them as two separate problems since the former needs a view-invariant representation while object pose estimation necessitates a view-dependent description. Nowadays, multi-view Convolutional Neural Network (MVCNN) approaches show state-of-the-art classification performance. Although MVCNN object recognition has been widely explored, there has been very little research on multi-view object pose estimation methods, and even less on addressing these two problems simultaneously. The pose of virtual cameras in MVCNN methods is often predefined in advance, leading to bound the application of such approaches. In this paper, we propose an approach capable of handling object recognition and pose estimation simultaneously. In particular, we develop a deep object-agnostic entropy estimation model, capable of predicting the best viewpoints of a given 3D object. The obtained views of the object are then fed to the network to simultaneously predict the pose and category label of the target object. Experimental results showed that the views obtained from such positions are descriptive enough to achieve a good accuracy score. Furthermore, we designed a real-life serve drink scenario to demonstrate how well the proposed approach worked in real robot tasks. Code is available online at: github.com/SubhadityaMukherjee/more_mvcnn


翻译:同步实现物体识别与姿态估计是机器人安全地与人类及环境交互的两项关键功能。尽管物体识别与姿态估计均依赖视觉输入,但现有主流方法将二者视为独立问题,因为前者需要视角不变表征,而后者则依赖视角相关的描述。当前,多视角卷积神经网络在分类任务中展现出最先进性能。尽管MVCNN物体识别已被广泛探索,但关于多视角物体姿态估计方法的研究极少,同时解决这两个问题的研究更少。MVCNN方法中虚拟相机的姿态常需预先定义,这限制了此类方法的应用范围。本文提出一种可同时处理物体识别与姿态估计的方法。具体而言,我们开发了深度物体无关熵估计模型,能够预测给定三维物体的最优视角。所获得的物体视角图像随后输入网络,同步预测目标物体的姿态与类别标签。实验结果表明,从这些位置获取的视角具有足够描述性,能够获得良好的精度评分。此外,我们设计了真实场景中的倒饮料任务,验证了所提方法在真实机器人任务中的有效性。代码开源地址:github.com/SubhadityaMukherjee/more_mvcnn

0
下载
关闭预览

相关内容

【CVPR2022】端到端实时矢量边缘提取(E2EC)
专知会员服务
16+阅读 · 2022年4月14日
专知会员服务
32+阅读 · 2021年6月12日
大白话用Transformer做BEV 3D目标检测
PaperWeekly
1+阅读 · 2022年6月7日
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
【泡泡一分钟】在CPU上进行实时无监督单目深度估计
泡泡机器人SLAM
17+阅读 · 2019年5月10日
【泡泡一分钟】基于运动估计的激光雷达和相机标定方法
泡泡机器人SLAM
25+阅读 · 2019年1月17日
【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集
泡泡机器人SLAM
11+阅读 · 2019年1月4日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月24日
Arxiv
27+阅读 · 2020年12月24日
Arxiv
12+阅读 · 2019年1月24日
VIP会员
最新内容
ICML 2026 | SARDI:扩散语言模型的自增强检索
专知会员服务
3+阅读 · 6月6日
《国防领域安全采用大语言模型的战略蓝图》
专知会员服务
5+阅读 · 6月6日
ICML 2026 | 演化选择的因果建模
专知会员服务
6+阅读 · 6月5日
综述|学习式3D表征最新进展与趋势
专知会员服务
6+阅读 · 6月5日
人工智能重塑威慑:算法优势的兴起
专知会员服务
7+阅读 · 6月5日
AgentOps综述:智能体系统运维框架
专知会员服务
17+阅读 · 6月4日
《美陆军最新条令:兵力防护》
专知会员服务
14+阅读 · 6月4日
相关VIP内容
【CVPR2022】端到端实时矢量边缘提取(E2EC)
专知会员服务
16+阅读 · 2022年4月14日
专知会员服务
32+阅读 · 2021年6月12日
相关资讯
大白话用Transformer做BEV 3D目标检测
PaperWeekly
1+阅读 · 2022年6月7日
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
【泡泡一分钟】在CPU上进行实时无监督单目深度估计
泡泡机器人SLAM
17+阅读 · 2019年5月10日
【泡泡一分钟】基于运动估计的激光雷达和相机标定方法
泡泡机器人SLAM
25+阅读 · 2019年1月17日
【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集
泡泡机器人SLAM
11+阅读 · 2019年1月4日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员