Visibility Aware Human-Object Interaction Tracking from Single RGB Camera - 专知论文

会员服务 ·

0

遮挡 · 重建 · 交互 · 模型估计 · 一致 ·

2023 年 3 月 29 日

Visibility Aware Human-Object Interaction Tracking from Single RGB Camera

翻译：可见性感知的单目RGB摄像机下的人-物交互追踪

Xianghui Xie,Bharat Lal Bhatnagar,Gerard Pons-Moll

from arxiv, accepted to CVPR 2023

Capturing the interactions between humans and their environment in 3D is important for many applications in robotics, graphics, and vision. Recent works to reconstruct the 3D human and object from a single RGB image do not have consistent relative translation across frames because they assume a fixed depth. Moreover, their performance drops significantly when the object is occluded. In this work, we propose a novel method to track the 3D human, object, contacts between them, and their relative translation across frames from a single RGB camera, while being robust to heavy occlusions. Our method is built on two key insights. First, we condition our neural field reconstructions for human and object on per-frame SMPL model estimates obtained by pre-fitting SMPL to a video sequence. This improves neural reconstruction accuracy and produces coherent relative translation across frames. Second, human and object motion from visible frames provides valuable information to infer the occluded object. We propose a novel transformer-based neural network that explicitly uses object visibility and human motion to leverage neighbouring frames to make predictions for the occluded frames. Building on these insights, our method is able to track both human and object robustly even under occlusions. Experiments on two datasets show that our method significantly improves over the state-of-the-art methods. Our code and pretrained models are available at: https://virtualhumans.mpi-inf.mpg.de/VisTracker

翻译：从单张RGB图像中捕捉人类与环境的三维交互对于机器人学、图形学和视觉领域的众多应用至关重要。现有方法在从单张RGB图像重建三维人体和物体时，因假设固定深度而导致帧间相对平移不一致。此外，当物体被遮挡时，其性能会显著下降。本文提出了一种新颖方法，能够通过单目RGB摄像机追踪三维人体、物体及其接触关系，并保持帧间相对平移的一致性，同时对严重遮挡具有鲁棒性。该方法基于两个关键洞察：首先，通过将SMPL模型预先拟合到视频序列获得的逐帧估计结果，作为人体和物体神经场重建的条件，这提升了神经重建精度，并产生连贯的帧间相对平移；其次，可见帧中的人体与物体运动为推断被遮挡物体提供了宝贵信息。我们提出了一种基于Transformer的新型神经网络，该网络显式利用物体可见性和人体运动，借助相邻帧对遮挡帧进行预测。基于这些洞察，我们的方法即使在遮挡条件下也能稳健地追踪人体和物体。在两个数据集上的实验表明，本方法显著优于现有技术。相关代码与预训练模型已开源：https://virtualhumans.mpi-inf.mpg.de/VisTracker

0

相关内容

【CVPR 2022】paper解读——从头盔信号中解析生成3D姿势，这为AR/VR创造可信虚拟形象迈出了重要一步，FLAG: Flow-based 3D Avatar Generation from Sparse Observations

专知会员服务

19+阅读 · 2022年3月6日

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

专知会员服务

28+阅读 · 2022年3月3日

【AAAI 2022】跨模态目标跟踪: 模态感知表示和统一基准

【AAAI 2022】跨模态目标跟踪: 模态感知表示和统一基准

专知会员服务

44+阅读 · 2022年1月6日

【三维物体和手部姿态估计】综述论文最新进展，Recent Advances in 3D Object and Hand Pose Estimation

【三维物体和手部姿态估计】综述论文最新进展，Recent Advances in 3D Object and Hand Pose Estimation

专知会员服务

21+阅读 · 2020年6月13日

AAAI 2020 | 姿态辅助下的多相机协作实现主动目标追踪 Pose-Assisted Multi-Camera Collaboration for Active Object Tracking

AAAI 2020 | 姿态辅助下的多相机协作实现主动目标追踪 Pose-Assisted Multi-Camera Collaboration for Active Object Tracking

专知会员服务

34+阅读 · 2020年3月21日

【香港中文大学-CVPR2020】Rotate-and-Render: Unsupervised Photorealistic Face Rotation from Single-View Images

【香港中文大学-CVPR2020】Rotate-and-Render: Unsupervised Photorealistic Face Rotation from Single-View Images

专知会员服务

22+阅读 · 2020年3月18日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

167+阅读 · 2020年3月18日

【CVPR 2019 | tutorial】自主汽车的感知、预测和大规模数据采集：Perception, Prediction, and Large Scale Data Collection for Autonomous Cars

【CVPR 2019 | tutorial】自主汽车的感知、预测和大规模数据采集：Perception, Prediction, and Large Scale Data Collection for Autonomous Cars

专知会员服务

33+阅读 · 2019年11月28日

【ICCV 2019 Workshop】UGLLI Face Alignment: Estimating Uncertainty with Gaussian Log-Likelihood Loss（UGLLI人脸对齐：估计不确定性与高斯对数似然损失），犹他大学 Abhinav Kumar

【ICCV 2019 Workshop】UGLLI Face Alignment: Estimating Uncertainty with Gaussian Log-Likelihood Loss（UGLLI人脸对齐：估计不确定性与高斯对数似然损失），犹他大学 Abhinav Kumar

专知会员服务

15+阅读 · 2019年10月31日

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

专知会员服务

59+阅读 · 2019年10月17日

Meta元宇宙出狠活！一个摄像头就能捏出个会动的虚拟化身

Meta元宇宙出狠活！一个摄像头就能捏出个会动的虚拟化身

新智元

0+阅读 · 2022年10月13日

【泡泡一分钟】优化对比度增强以提高SLAM重定位环境中视觉跟踪的稳健性

【泡泡一分钟】优化对比度增强以提高SLAM重定位环境中视觉跟踪的稳健性

泡泡机器人SLAM

10+阅读 · 2019年4月26日

MaskFusion: 多运动目标实时识别、跟踪和重建

MaskFusion: 多运动目标实时识别、跟踪和重建

计算机视觉life

11+阅读 · 2019年4月20日

【泡泡一分钟】DS-SLAM: 动态环境下的语义视觉SLAM

【泡泡一分钟】DS-SLAM: 动态环境下的语义视觉SLAM

泡泡机器人SLAM

23+阅读 · 2019年1月18日

【泡泡一分钟】基于机器人的视觉惯性里程计（IROS2018-10）

【泡泡一分钟】基于机器人的视觉惯性里程计（IROS2018-10）

泡泡机器人SLAM

13+阅读 · 2019年1月3日

【跟踪Tracking】15篇论文+代码 | 中秋快乐~

【跟踪Tracking】15篇论文+代码 | 中秋快乐~

专知

18+阅读 · 2018年9月24日

【论文推荐】最新七篇图像分割相关论文—域适应深度表示学习、循环残差卷积、二值分割、图像合成、无监督跨模态

【论文推荐】最新七篇图像分割相关论文—域适应深度表示学习、循环残差卷积、二值分割、图像合成、无监督跨模态

专知

19+阅读 · 2018年6月1日

【论文推荐】最新十篇目标跟踪相关论文—多帧光流跟踪、动态图学习、MV-YOLO、姿态估计、深度核相关滤波、Benchmark

【论文推荐】最新十篇目标跟踪相关论文—多帧光流跟踪、动态图学习、MV-YOLO、姿态估计、深度核相关滤波、Benchmark

专知

13+阅读 · 2018年5月26日

【泡泡一分钟】基于多视图卷积网络的草图三维重建技术(3dv-66)

【泡泡一分钟】基于多视图卷积网络的草图三维重建技术(3dv-66)

泡泡机器人SLAM

11+阅读 · 2018年3月31日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

基于多个小型微惯性/磁强计测量单元的手势识别研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于运动与深度感知的立体视觉舒适度研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于全向深度视觉的高精度人体肢体运动三维重建研究

国家自然科学基金

0+阅读 · 2014年12月31日

跟踪器融合的视觉跟踪方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于多先验信息约束的CT内部问题重建方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

球形视觉模型及全动态场景目标跟踪方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

车辆横向运动中的人机共享控制方法与关键技术研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于图像序列的动态场景三维结构和运动恢复的鲁棒性算法

国家自然科学基金

0+阅读 · 2012年12月31日

具有自我感知特性的主动视觉系统在复杂未知物体三维重建中的研究

国家自然科学基金

0+阅读 · 2011年12月31日

大尺度动态场景下的单目视觉实时同步定位与地图创建方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

Subjective and Objective Quality Assessment for in-the-Wild Computer Graphics Images

Arxiv

0+阅读 · 2023年5月18日

Towards 3D Face Reconstruction in Perspective Projection: Estimating 6DoF Face Pose from Monocular Image

Arxiv

0+阅读 · 2023年5月17日

An Interactively Reinforced Paradigm for Joint Infrared-Visible Image Fusion and Saliency Object Detection

Arxiv

0+阅读 · 2023年5月17日

Correlation Pyramid Network for 3D Single Object Tracking

Arxiv

0+阅读 · 2023年5月16日

TerrainNet: Visual Modeling of Complex Terrain for High-speed, Off-road Navigation

Arxiv

0+阅读 · 2023年5月15日

Cross-Modal Object Tracking: Modality-Aware Representations and A Unified Benchmark

Arxiv

14+阅读 · 2021年11月11日

Towards Robust Visual Information Extraction in Real World: New Dataset and Novel Solution

Arxiv

10+阅读 · 2021年1月24日

3D Hand Shape and Pose Estimation from a Single RGB Image

3D Hand Shape and Pose Estimation from a Single RGB Image

Arxiv

17+阅读 · 2019年3月3日

Improving Multiple Object Tracking with Optical Flow and Edge Preprocessing

Arxiv

10+阅读 · 2018年1月29日

Multi-Pointer Co-Attention Networks for Recommendation

Arxiv

12+阅读 · 2018年1月28日

VIP会员

文章信息

相关主题

最新内容

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

4+阅读 · 6月25日

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

4+阅读 · 6月25日

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

6+阅读 · 6月25日

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

6+阅读 · 6月25日

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

7+阅读 · 6月25日

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

6+阅读 · 6月25日

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

7+阅读 · 6月25日

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

7+阅读 · 6月25日

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

7+阅读 · 6月25日

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

6+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

9+阅读 · 6月24日

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

10+阅读 · 6月24日

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

9+阅读 · 6月24日

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

7+阅读 · 6月24日

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

9+阅读 · 6月24日

相关VIP内容

【CVPR 2022】paper解读——从头盔信号中解析生成3D姿势，这为AR/VR创造可信虚拟形象迈出了重要一步，FLAG: Flow-based 3D Avatar Generation from Sparse Observations

专知会员服务

19+阅读 · 2022年3月6日

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

专知会员服务

28+阅读 · 2022年3月3日

【AAAI 2022】跨模态目标跟踪: 模态感知表示和统一基准

【AAAI 2022】跨模态目标跟踪: 模态感知表示和统一基准

专知会员服务

44+阅读 · 2022年1月6日

【三维物体和手部姿态估计】综述论文最新进展，Recent Advances in 3D Object and Hand Pose Estimation

【三维物体和手部姿态估计】综述论文最新进展，Recent Advances in 3D Object and Hand Pose Estimation

专知会员服务

21+阅读 · 2020年6月13日

AAAI 2020 | 姿态辅助下的多相机协作实现主动目标追踪 Pose-Assisted Multi-Camera Collaboration for Active Object Tracking

AAAI 2020 | 姿态辅助下的多相机协作实现主动目标追踪 Pose-Assisted Multi-Camera Collaboration for Active Object Tracking

专知会员服务

34+阅读 · 2020年3月21日

【香港中文大学-CVPR2020】Rotate-and-Render: Unsupervised Photorealistic Face Rotation from Single-View Images

【香港中文大学-CVPR2020】Rotate-and-Render: Unsupervised Photorealistic Face Rotation from Single-View Images

专知会员服务

22+阅读 · 2020年3月18日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

167+阅读 · 2020年3月18日

【CVPR 2019 | tutorial】自主汽车的感知、预测和大规模数据采集：Perception, Prediction, and Large Scale Data Collection for Autonomous Cars

【CVPR 2019 | tutorial】自主汽车的感知、预测和大规模数据采集：Perception, Prediction, and Large Scale Data Collection for Autonomous Cars

专知会员服务

33+阅读 · 2019年11月28日

【ICCV 2019 Workshop】UGLLI Face Alignment: Estimating Uncertainty with Gaussian Log-Likelihood Loss（UGLLI人脸对齐：估计不确定性与高斯对数似然损失），犹他大学 Abhinav Kumar

【ICCV 2019 Workshop】UGLLI Face Alignment: Estimating Uncertainty with Gaussian Log-Likelihood Loss（UGLLI人脸对齐：估计不确定性与高斯对数似然损失），犹他大学 Abhinav Kumar

专知会员服务

15+阅读 · 2019年10月31日

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

专知会员服务

59+阅读 · 2019年10月17日

热门VIP内容

开通专知VIP会员享更多权益服务

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

网状网络及其在军事领域的运用

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

相关资讯

Meta元宇宙出狠活！一个摄像头就能捏出个会动的虚拟化身

Meta元宇宙出狠活！一个摄像头就能捏出个会动的虚拟化身

新智元

0+阅读 · 2022年10月13日

【泡泡一分钟】优化对比度增强以提高SLAM重定位环境中视觉跟踪的稳健性

【泡泡一分钟】优化对比度增强以提高SLAM重定位环境中视觉跟踪的稳健性

泡泡机器人SLAM

10+阅读 · 2019年4月26日

MaskFusion: 多运动目标实时识别、跟踪和重建

MaskFusion: 多运动目标实时识别、跟踪和重建

计算机视觉life

11+阅读 · 2019年4月20日

【泡泡一分钟】DS-SLAM: 动态环境下的语义视觉SLAM

【泡泡一分钟】DS-SLAM: 动态环境下的语义视觉SLAM

泡泡机器人SLAM

23+阅读 · 2019年1月18日

【泡泡一分钟】基于机器人的视觉惯性里程计（IROS2018-10）

【泡泡一分钟】基于机器人的视觉惯性里程计（IROS2018-10）

泡泡机器人SLAM

13+阅读 · 2019年1月3日

【跟踪Tracking】15篇论文+代码 | 中秋快乐~

【跟踪Tracking】15篇论文+代码 | 中秋快乐~

专知

18+阅读 · 2018年9月24日

【论文推荐】最新七篇图像分割相关论文—域适应深度表示学习、循环残差卷积、二值分割、图像合成、无监督跨模态

【论文推荐】最新七篇图像分割相关论文—域适应深度表示学习、循环残差卷积、二值分割、图像合成、无监督跨模态

专知

19+阅读 · 2018年6月1日

【论文推荐】最新十篇目标跟踪相关论文—多帧光流跟踪、动态图学习、MV-YOLO、姿态估计、深度核相关滤波、Benchmark

【论文推荐】最新十篇目标跟踪相关论文—多帧光流跟踪、动态图学习、MV-YOLO、姿态估计、深度核相关滤波、Benchmark

专知

13+阅读 · 2018年5月26日

【泡泡一分钟】基于多视图卷积网络的草图三维重建技术(3dv-66)

【泡泡一分钟】基于多视图卷积网络的草图三维重建技术(3dv-66)

泡泡机器人SLAM

11+阅读 · 2018年3月31日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

相关论文

Subjective and Objective Quality Assessment for in-the-Wild Computer Graphics Images

Arxiv

0+阅读 · 2023年5月18日

Towards 3D Face Reconstruction in Perspective Projection: Estimating 6DoF Face Pose from Monocular Image

Arxiv

0+阅读 · 2023年5月17日

An Interactively Reinforced Paradigm for Joint Infrared-Visible Image Fusion and Saliency Object Detection

Arxiv

0+阅读 · 2023年5月17日

Correlation Pyramid Network for 3D Single Object Tracking

Arxiv

0+阅读 · 2023年5月16日

TerrainNet: Visual Modeling of Complex Terrain for High-speed, Off-road Navigation

Arxiv

0+阅读 · 2023年5月15日

Cross-Modal Object Tracking: Modality-Aware Representations and A Unified Benchmark

Arxiv

14+阅读 · 2021年11月11日

Towards Robust Visual Information Extraction in Real World: New Dataset and Novel Solution

Arxiv

10+阅读 · 2021年1月24日

3D Hand Shape and Pose Estimation from a Single RGB Image

3D Hand Shape and Pose Estimation from a Single RGB Image

Arxiv

17+阅读 · 2019年3月3日

Improving Multiple Object Tracking with Optical Flow and Edge Preprocessing

Arxiv

10+阅读 · 2018年1月29日

Multi-Pointer Co-Attention Networks for Recommendation

Arxiv

12+阅读 · 2018年1月28日

相关基金

基于多个小型微惯性/磁强计测量单元的手势识别研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于运动与深度感知的立体视觉舒适度研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于全向深度视觉的高精度人体肢体运动三维重建研究

国家自然科学基金

0+阅读 · 2014年12月31日

跟踪器融合的视觉跟踪方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于多先验信息约束的CT内部问题重建方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

球形视觉模型及全动态场景目标跟踪方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

车辆横向运动中的人机共享控制方法与关键技术研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于图像序列的动态场景三维结构和运动恢复的鲁棒性算法

国家自然科学基金

0+阅读 · 2012年12月31日

具有自我感知特性的主动视觉系统在复杂未知物体三维重建中的研究

国家自然科学基金

0+阅读 · 2011年12月31日

大尺度动态场景下的单目视觉实时同步定位与地图创建方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员