The ability to forecast human-environment collisions from egocentric observations is vital to enable collision avoidance in applications such as VR, AR, and wearable assistive robotics. In this work, we introduce the challenging problem of predicting collisions in diverse environments from multi-view egocentric videos captured from body-mounted cameras. Solving this problem requires a generalizable perception system that can classify which human body joints will collide and estimate a collision region heatmap to localize collisions in the environment. To achieve this, we propose a transformer-based model called COPILOT to perform collision prediction and localization simultaneously, which accumulates information across multi-view inputs through a novel 4D space-time-viewpoint attention mechanism. To train our model and enable future research on this task, we develop a synthetic data generation framework that produces egocentric videos of virtual humans moving and colliding within diverse 3D environments. This framework is then used to establish a large-scale dataset consisting of 8.6M egocentric RGBD frames. Extensive experiments show that COPILOT generalizes to unseen synthetic as well as real-world scenes. We further demonstrate COPILOT outputs are useful for downstream collision avoidance through simple closed-loop control. Please visit our project webpage at https://sites.google.com/stanford.edu/copilot.


翻译:从第一视角观测中预测人与环境碰撞的能力对于虚拟现实(VR)、增强现实(AR)及可穿戴辅助机器人等应用中实现碰撞规避至关重要。本文提出一项挑战性问题:基于身体穿戴摄像机采集的多视角第一视角视频,在多样化环境中预测碰撞。解决该问题需要具备泛化能力的感知系统,既能识别将要碰撞的人体关节类别,又能估计碰撞区域热力图以定位环境中的碰撞位置。为此,我们提出名为COPILOT的Transformer模型,通过新型四维时空-视角注意力机制聚合多视角输入信息,同步实现碰撞预测与定位。为训练模型并推动该任务的后续研究,我们开发了合成数据生成框架,可生成虚拟人在多种三维环境中运动并发生碰撞的第一视角视频。基于该框架构建的大规模数据集包含860万帧第一视角RGBD图像。大量实验表明,COPILOT可泛化至未见过的合成场景及真实世界场景。我们进一步通过简单闭环控制验证,COPILOT输出结果可有效支持下游碰撞规避任务。项目网页详见https://sites.google.com/stanford.edu/copilot。

0
下载
关闭预览

相关内容

《行为与认知机器人学》,241页pdf
专知会员服务
55+阅读 · 2021年4月11日
CVPR2020接收论文开源代码
专知
30+阅读 · 2020年2月29日
【泡泡一分钟】变化环境下激光地图辅助视觉惯性定位
泡泡机器人SLAM
15+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
【跟踪Tracking】15篇论文+代码 | 中秋快乐~
专知
18+阅读 · 2018年9月24日
语义分割+视频分割开源代码集合
极市平台
35+阅读 · 2018年3月5日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月12日
Arxiv
11+阅读 · 2018年4月8日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
《行为与认知机器人学》,241页pdf
专知会员服务
55+阅读 · 2021年4月11日
相关资讯
CVPR2020接收论文开源代码
专知
30+阅读 · 2020年2月29日
【泡泡一分钟】变化环境下激光地图辅助视觉惯性定位
泡泡机器人SLAM
15+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
【跟踪Tracking】15篇论文+代码 | 中秋快乐~
专知
18+阅读 · 2018年9月24日
语义分割+视频分割开源代码集合
极市平台
35+阅读 · 2018年3月5日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员