While recent video world models can generate highly realistic videos, their ability to perform semantic reasoning and planning remains unclear and unquantified. We introduce Target-Bench, the first benchmark that enables comprehensive evaluation of video world models' semantic reasoning, spatial estimation, and planning capabilities. Target-Bench provides 450 robot-collected scenarios spanning 47 semantic categories, with SLAM-based trajectories serving as motion tendency references. Our benchmark reconstructs motion from generated videos with a metric scale recovery mechanism, enabling the evaluation of planning performance with five complementary metrics that focus on target-approaching capability and directional consistency. Our evaluation result shows that the best off-the-shelf model achieves only a 0.341 overall score, revealing a significant gap between realistic visual generation and semantic reasoning in current video world models. Furthermore, we demonstrate that fine-tuning process on a relatively small real-world robot dataset can significantly improve task-level planning performance.


翻译:尽管近期视频世界模型已能生成高度逼真的视频,但其执行语义推理与规划的能力仍不明确且缺乏量化评估。我们提出首个综合性基准测试框架Target-Bench,用于全面评估视频世界模型在语义推理、空间估计及规划能力等方面的表现。该框架包含450个机器人采集场景,覆盖47个语义类别,并以基于SLAM的轨迹作为运动趋势参考。通过引入公制尺度恢复机制,本框架可从生成视频中重建运动信息,并利用五项互补指标评估规划性能,聚焦目标趋近能力与方向一致性。评估结果显示,当前最佳现成模型仅取得0.341的综合评分,揭示了现有视频世界模型在逼真视觉生成与语义推理之间的显著鸿沟。此外,我们证明对较小规模真实机器人数据集进行微调,可显著提升任务级规划性能。

0
下载
关闭预览

相关内容

基于深度学习模型的图像军事目标检测
专知会员服务
27+阅读 · 2025年10月18日
无人机视角下的目标检测研究进展
专知会员服务
127+阅读 · 2023年1月22日
基于深度学习的视觉目标检测技术综述
专知会员服务
61+阅读 · 2022年6月22日
专知会员服务
29+阅读 · 2021年9月13日
专知会员服务
27+阅读 · 2021年3月5日
【文献综述】深度学习目标检测方法及其主流框架综述
专知会员服务
119+阅读 · 2020年6月26日
基于深度学习的目标检测算法剖析与实现【附PPT与视频资料】
人工智能前沿讲习班
12+阅读 · 2018年12月25日
基于视频的目标检测的发展【附PPT与视频资料】
人工智能前沿讲习班
19+阅读 · 2018年12月14日
目标检测算法盘点(最全)
七月在线实验室
17+阅读 · 2018年4月27日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关资讯
基于深度学习的目标检测算法剖析与实现【附PPT与视频资料】
人工智能前沿讲习班
12+阅读 · 2018年12月25日
基于视频的目标检测的发展【附PPT与视频资料】
人工智能前沿讲习班
19+阅读 · 2018年12月14日
目标检测算法盘点(最全)
七月在线实验室
17+阅读 · 2018年4月27日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员