Recent advances in world models have demonstrated strong capabilities in simulating physical reality, making them an increasingly important foundation for embodied intelligence. For UAV agents in particular, accurate prediction of complex 3D dynamics is essential for autonomous navigation and robust decision-making in unconstrained environments. However, under the highly dynamic camera trajectories typical of UAV views, existing world models often struggle to maintain spatiotemporal physical consistency. A key reason lies in the distribution bias of current training data: most existing datasets exhibit restricted 2.5D motion patterns, such as ground-constrained autonomous driving scenes or relatively smooth human-centric egocentric videos, and therefore lack realistic high-dynamic 6-DoF UAV motion priors. To address this gap, we present MotionScape, a large-scale real-world UAV-view video dataset with highly dynamic motion for world modeling. MotionScape contains over 30 hours of 4K UAV-view videos, totaling more than 4.5M frames. This novel dataset features semantically and geometrically aligned training samples, where diverse real-world UAV videos are tightly coupled with accurate 6-DoF camera trajectories and fine-grained natural language descriptions. To build the dataset, we develop an automated multi-stage processing pipeline that integrates CLIP-based relevance filtering, temporal segmentation, robust visual SLAM for trajectory recovery, and large-language-model-driven semantic annotation. Extensive experiments show that incorporating such semantically and geometrically aligned annotations effectively improves the ability of existing world models to simulate complex 3D dynamics and handle large viewpoint shifts, thereby benefiting decision-making and planning for UAV agents in complex environments. The dataset is publicly available at https://github.com/Thelegendzz/MotionScape


翻译:近期世界模型的研究进展展示了其在模拟物理现实方面的强大能力,使其成为具身智能日益重要的基础。特别是对于无人机智能体而言,在无约束环境中精准预测复杂三维动态对于自主导航和鲁棒决策至关重要。然而,在无人机视角典型的高度动态相机轨迹下,现有世界模型往往难以维持时空物理一致性。关键原因在于当前训练数据的分布偏差:大多数现有数据集仅呈现受限的2.5维运动模式,例如地面受限的自动驾驶场景或相对平滑的以人为中心的自我中心视频,因此缺乏真实高动态6自由度无人机运动先验。为填补这一空白,我们提出MotionScape——一个用于世界建模的大规模真实世界无人机视角视频数据集,具有高度动态运动特性。MotionScape包含超过30小时时长的4K无人机视角视频,总计超过450万帧。该新颖数据集的特征在于语义与几何对齐的训练样本,其中多样化的真实世界无人机视频与精确的6自由度相机轨迹及细粒度自然语言描述紧密耦合。为构建该数据集,我们开发了一种自动化多阶段处理流水线,集成了基于CLIP的相关性过滤、时间分割、用于轨迹恢复的鲁棒视觉SLAM以及大语言模型驱动的语义标注。大量实验表明,融入此类语义与几何对齐标注可有效提升现有世界模型模拟复杂三维动态及处理大视角变化的能力,从而有益于无人机智能体在复杂环境中的决策与规划。该数据集已在https://github.com/Thelegendzz/MotionScape 公开提供。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
《面向海军应用的无人机网络安全仿真环境》
专知会员服务
19+阅读 · 4月7日
具身智能中的心理世界建模:深度综述
专知会员服务
39+阅读 · 1月10日
三维与四维世界建模综述
专知会员服务
30+阅读 · 2025年9月12日
走向通用人工智能之路,世界模型为何不可或缺?
专知会员服务
19+阅读 · 2025年7月1日
从二维到三维认知:通用世界模型简要综述
专知会员服务
30+阅读 · 2025年6月26日
景象匹配无人机视觉定位
专知会员服务
21+阅读 · 2025年2月20日
自动驾驶的世界模型综述
专知会员服务
47+阅读 · 2025年1月22日
面向无人机的视觉目标跟踪算法:综述与展望
专知会员服务
81+阅读 · 2023年2月28日
国外有人/无人平台协同作战概述
无人机
123+阅读 · 2019年5月28日
无人驾驶仿真软件
智能交通技术
22+阅读 · 2019年5月9日
无人机蜂群作战概念研究
无人机
63+阅读 · 2018年7月9日
智能无人机集群技术概述
无人机
46+阅读 · 2018年2月28日
无人机飞行控制方法概述
无人机
12+阅读 · 2017年10月7日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
19+阅读 · 2011年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关VIP内容
《面向海军应用的无人机网络安全仿真环境》
专知会员服务
19+阅读 · 4月7日
具身智能中的心理世界建模:深度综述
专知会员服务
39+阅读 · 1月10日
三维与四维世界建模综述
专知会员服务
30+阅读 · 2025年9月12日
走向通用人工智能之路,世界模型为何不可或缺?
专知会员服务
19+阅读 · 2025年7月1日
从二维到三维认知:通用世界模型简要综述
专知会员服务
30+阅读 · 2025年6月26日
景象匹配无人机视觉定位
专知会员服务
21+阅读 · 2025年2月20日
自动驾驶的世界模型综述
专知会员服务
47+阅读 · 2025年1月22日
面向无人机的视觉目标跟踪算法:综述与展望
专知会员服务
81+阅读 · 2023年2月28日
相关资讯
国外有人/无人平台协同作战概述
无人机
123+阅读 · 2019年5月28日
无人驾驶仿真软件
智能交通技术
22+阅读 · 2019年5月9日
无人机蜂群作战概念研究
无人机
63+阅读 · 2018年7月9日
智能无人机集群技术概述
无人机
46+阅读 · 2018年2月28日
无人机飞行控制方法概述
无人机
12+阅读 · 2017年10月7日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
19+阅读 · 2011年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员