ObjectForesight：从人类视频中预测未来三维物体轨迹 (ObjectForesight: Predicting Future 3D Object Trajectories from Human Videos) - 专知论文

会员服务 ·

0

视频 · 三维物体 · 动力模型 · 片段 · 交互 ·

ObjectForesight: Predicting Future 3D Object Trajectories from Human Videos

翻译：ObjectForesight：从人类视频中预测未来三维物体轨迹

Rustin Soraki,Homanga Bharadhwaj,Ali Farhadi,Roozbeh Mottaghi

from arxiv, Preprint. Project Website: objectforesight.github.io

Humans can effortlessly anticipate how objects might move or change through interaction--imagining a cup being lifted, a knife slicing, or a lid being closed. We aim to endow computational systems with a similar ability to predict plausible future object motions directly from passive visual observation. We introduce ObjectForesight, a 3D object-centric dynamics model that predicts future 6-DoF poses and trajectories of rigid objects from short egocentric video sequences. Unlike conventional world or dynamics models that operate in pixel or latent space, ObjectForesight represents the world explicitly in 3D at the object level, enabling geometrically grounded and temporally coherent predictions that capture object affordances and trajectories. To train such a model at scale, we leverage recent advances in segmentation, mesh reconstruction, and 3D pose estimation to curate a dataset of 2 million plus short clips with pseudo-ground-truth 3D object trajectories. Through extensive experiments, we show that ObjectForesight achieves significant gains in accuracy, geometric consistency, and generalization to unseen objects and scenes, establishing a scalable framework for learning physically grounded, object-centric dynamics models directly from observation. objectforesight.github.io

翻译：人类能够毫不费力地预想物体如何通过交互进行移动或改变——例如想象一个杯子被拿起、一把刀在切割或一个盖子被盖上。我们的目标是赋予计算系统类似的能力，使其能够直接从被动视觉观察中预测合理的未来物体运动。我们提出了ObjectForesight，一个以三维物体为中心的动力模型，它能够从简短的第一人称视角视频序列中预测刚性物体未来的六自由度位姿与轨迹。与在像素空间或隐空间中运行的传统世界模型或动力模型不同，ObjectForesight在三维空间中以物体级别显式地表示世界，从而能够生成几何基础扎实、时间连贯的预测，捕捉物体的可供性和运动轨迹。为了大规模训练此类模型，我们利用近期在分割、网格重建和三维位姿估计方面的进展，构建了一个包含超过200万个短视频片段的数据集，这些片段带有伪真实值三维物体轨迹。通过大量实验，我们证明ObjectForesight在预测准确性、几何一致性以及对未见过的物体和场景的泛化能力方面均取得显著提升，从而建立了一个可扩展的框架，用于直接从观察中学习具有物理基础、以物体为中心的动力模型。objectforesight.github.io

0

相关内容

视频

【牛津博士论文】无监督物体学习（Unsupervised Object Learning）

【牛津博士论文】无监督物体学习（Unsupervised Object Learning）

专知会员服务

14+阅读 · 2025年11月30日

黑匣子被打开了！能玩的Transformer可视化解释工具，本地运行GPT-2、还可实时推理

黑匣子被打开了！能玩的Transformer可视化解释工具，本地运行GPT-2、还可实时推理

专知会员服务

36+阅读 · 2024年8月11日

【MIT博士论文】从现实世界中学习并为现实世界服务的三维建模与仿真，251页pdf

【MIT博士论文】从现实世界中学习并为现实世界服务的三维建模与仿真，251页pdf

专知会员服务

32+阅读 · 2024年3月26日

【Virginia Tech博士论文】3D深度学习的目标几何感知，137页pdf

【Virginia Tech博士论文】3D深度学习的目标几何感知，137页pdf

专知会员服务

42+阅读 · 2023年2月27日

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

专知会员服务

39+阅读 · 2022年8月9日

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

专知会员服务

67+阅读 · 2022年7月8日

港中文发布最新《自动驾驶三维物体检测》综述论文，32页pdf涵盖367篇文献全面概述基于激光雷达、基于相机和多模态的物体检测进展

港中文发布最新《自动驾驶三维物体检测》综述论文，32页pdf涵盖367篇文献全面概述基于激光雷达、基于相机和多模态的物体检测进展

专知会员服务

44+阅读 · 2022年6月23日

【吉林大学等】三维人体运动预测研究综述，3D Human Motion Prediction : A Survey

【吉林大学等】三维人体运动预测研究综述，3D Human Motion Prediction : A Survey

专知会员服务

30+阅读 · 2022年3月8日

【三维物体和手部姿态估计】综述论文最新进展，Recent Advances in 3D Object and Hand Pose Estimation

【三维物体和手部姿态估计】综述论文最新进展，Recent Advances in 3D Object and Hand Pose Estimation

专知会员服务

21+阅读 · 2020年6月13日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知会员服务

80+阅读 · 2019年10月12日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知

23+阅读 · 2019年9月5日

密歇根大学40页《20年目标检测综述》最新论文，带你全面了解目标检测方法

密歇根大学40页《20年目标检测综述》最新论文，带你全面了解目标检测方法

专知

70+阅读 · 2019年5月14日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

泡泡机器人SLAM

10+阅读 · 2019年4月18日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

三维感知与三维数据分析最新进展 - 3D传感&人工智能前沿科技论坛

三维感知与三维数据分析最新进展 - 3D传感&人工智能前沿科技论坛

AI科技评论

10+阅读 · 2019年2月2日

一文读懂目标检测：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD

一文读懂目标检测：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD

七月在线实验室

11+阅读 · 2018年7月18日

深度学习的目标检测技术演进：R-CNN、Fast R-CNN、Faster R-CNN

深度学习的目标检测技术演进：R-CNN、Fast R-CNN、Faster R-CNN

数据挖掘入门与实战

13+阅读 · 2018年4月6日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

未知环境下基于单目视觉的移动平台目标跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于语义模型的高分辨率卫星遥感图像人造目标检测方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

物体形状部分视觉显著性度量及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于图像属性和深度学习的大规模物体检测研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于人类视觉仿生的高分辨率遥感影像建筑物提取方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

形状先验和数据驱动的高分辨遥感影像目标提取

国家自然科学基金

3+阅读 · 2014年12月31日

ShapeUP: Scalable Image-Conditioned 3D Editing

Arxiv

0+阅读 · 2月5日

Think3D: Thinking with Space for Spatial Reasoning

Arxiv

0+阅读 · 2月4日

Open-Vocabulary Functional 3D Human-Scene Interaction Generation

Arxiv

0+阅读 · 1月30日

ObjectVisA-120: Object-based Visual Attention Prediction in Interactive Street-crossing Environments

Arxiv

0+阅读 · 1月30日

Open-Vocabulary Functional 3D Human-Scene Interaction Generation

Arxiv

0+阅读 · 1月28日

Think3D: Thinking with Space for Spatial Reasoning

Arxiv

0+阅读 · 1月19日

SceneFoundry: Generating Interactive Infinite 3D Worlds

Arxiv

0+阅读 · 1月9日

LabelAny3D: Label Any Object 3D in the Wild

Arxiv

0+阅读 · 1月4日

PoseStreamer: A Multi-modal Framework for 3D Tracking of Unseen Moving Objects

PoseStreamer: A Multi-modal Framework for 3D Tracking of Unseen Moving Objects

Arxiv

0+阅读 · 1月2日

ArtiSG: Functional 3D Scene Graph Construction via Human-demonstrated Articulated Objects Manipulation

Arxiv

1+阅读 · 2025年12月31日

VIP会员

文章信息

相关主题

相关VIP内容

【牛津博士论文】无监督物体学习（Unsupervised Object Learning）

【牛津博士论文】无监督物体学习（Unsupervised Object Learning）

专知会员服务

14+阅读 · 2025年11月30日

黑匣子被打开了！能玩的Transformer可视化解释工具，本地运行GPT-2、还可实时推理

黑匣子被打开了！能玩的Transformer可视化解释工具，本地运行GPT-2、还可实时推理

专知会员服务

36+阅读 · 2024年8月11日

【MIT博士论文】从现实世界中学习并为现实世界服务的三维建模与仿真，251页pdf

【MIT博士论文】从现实世界中学习并为现实世界服务的三维建模与仿真，251页pdf

专知会员服务

32+阅读 · 2024年3月26日

【Virginia Tech博士论文】3D深度学习的目标几何感知，137页pdf

【Virginia Tech博士论文】3D深度学习的目标几何感知，137页pdf

专知会员服务

42+阅读 · 2023年2月27日

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

专知会员服务

39+阅读 · 2022年8月9日

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

专知会员服务

67+阅读 · 2022年7月8日

港中文发布最新《自动驾驶三维物体检测》综述论文，32页pdf涵盖367篇文献全面概述基于激光雷达、基于相机和多模态的物体检测进展

港中文发布最新《自动驾驶三维物体检测》综述论文，32页pdf涵盖367篇文献全面概述基于激光雷达、基于相机和多模态的物体检测进展

专知会员服务

44+阅读 · 2022年6月23日

【吉林大学等】三维人体运动预测研究综述，3D Human Motion Prediction : A Survey

【吉林大学等】三维人体运动预测研究综述，3D Human Motion Prediction : A Survey

专知会员服务

30+阅读 · 2022年3月8日

【三维物体和手部姿态估计】综述论文最新进展，Recent Advances in 3D Object and Hand Pose Estimation

【三维物体和手部姿态估计】综述论文最新进展，Recent Advances in 3D Object and Hand Pose Estimation

专知会员服务

21+阅读 · 2020年6月13日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知会员服务

80+阅读 · 2019年10月12日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人机与战争：被忽视的环境影响及无人机保护潜力》

俄罗斯规划未来无人机驱动军队

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

《人工智能、武器与影响力：前沿模型在模拟核危机中展现复杂推理》2026最新46页报告

相关资讯

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知

23+阅读 · 2019年9月5日

密歇根大学40页《20年目标检测综述》最新论文，带你全面了解目标检测方法

密歇根大学40页《20年目标检测综述》最新论文，带你全面了解目标检测方法

专知

70+阅读 · 2019年5月14日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

泡泡机器人SLAM

10+阅读 · 2019年4月18日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

三维感知与三维数据分析最新进展 - 3D传感&人工智能前沿科技论坛

三维感知与三维数据分析最新进展 - 3D传感&人工智能前沿科技论坛

AI科技评论

10+阅读 · 2019年2月2日

一文读懂目标检测：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD

一文读懂目标检测：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD

七月在线实验室

11+阅读 · 2018年7月18日

深度学习的目标检测技术演进：R-CNN、Fast R-CNN、Faster R-CNN

深度学习的目标检测技术演进：R-CNN、Fast R-CNN、Faster R-CNN

数据挖掘入门与实战

13+阅读 · 2018年4月6日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

相关论文

ShapeUP: Scalable Image-Conditioned 3D Editing

Arxiv

0+阅读 · 2月5日

Think3D: Thinking with Space for Spatial Reasoning

Arxiv

0+阅读 · 2月4日

Open-Vocabulary Functional 3D Human-Scene Interaction Generation

Arxiv

0+阅读 · 1月30日

ObjectVisA-120: Object-based Visual Attention Prediction in Interactive Street-crossing Environments

Arxiv

0+阅读 · 1月30日

Open-Vocabulary Functional 3D Human-Scene Interaction Generation

Arxiv

0+阅读 · 1月28日

Think3D: Thinking with Space for Spatial Reasoning

Arxiv

0+阅读 · 1月19日

SceneFoundry: Generating Interactive Infinite 3D Worlds

Arxiv

0+阅读 · 1月9日

LabelAny3D: Label Any Object 3D in the Wild

Arxiv

0+阅读 · 1月4日

PoseStreamer: A Multi-modal Framework for 3D Tracking of Unseen Moving Objects

PoseStreamer: A Multi-modal Framework for 3D Tracking of Unseen Moving Objects

Arxiv

0+阅读 · 1月2日

ArtiSG: Functional 3D Scene Graph Construction via Human-demonstrated Articulated Objects Manipulation

Arxiv

1+阅读 · 2025年12月31日

相关基金

未知环境下基于单目视觉的移动平台目标跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于语义模型的高分辨率卫星遥感图像人造目标检测方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

物体形状部分视觉显著性度量及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于图像属性和深度学习的大规模物体检测研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于人类视觉仿生的高分辨率遥感影像建筑物提取方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

形状先验和数据驱动的高分辨遥感影像目标提取

国家自然科学基金

3+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员