Target-Bench: Can Video World Models Achieve Mapless Path Planning with Semantic Targets? - 专知论文

会员服务 ·

0

视频 · 基准 · 基准测试 · 语义推理 · 世界模型 ·

Target-Bench: Can Video World Models Achieve Mapless Path Planning with Semantic Targets?

翻译：目标基准测试：视频世界模型能否实现基于语义目标的无地图路径规划？

Dingrui Wang,Zhihao Liang,Hongyuan Ye,Zhexiao Sun,Zhaowei Lu,Yuchen Zhang,Yuyu Zhao,Yuan Gao,Marvin Seegert,Finn Schäfer,Haotong Qin,Wei Li,Luigi Palmieri,Felix Jahncke,Mattia Piccinini,Johannes Betz

from arxiv, 19 pages

While recent video world models can generate highly realistic videos, their ability to perform semantic reasoning and planning remains unclear and unquantified. We introduce Target-Bench, the first benchmark that enables comprehensive evaluation of video world models' semantic reasoning, spatial estimation, and planning capabilities. Target-Bench provides 450 robot-collected scenarios spanning 47 semantic categories, with SLAM-based trajectories serving as motion tendency references. Our benchmark reconstructs motion from generated videos with a metric scale recovery mechanism, enabling the evaluation of planning performance with five complementary metrics that focus on target-approaching capability and directional consistency. Our evaluation result shows that the best off-the-shelf model achieves only a 0.341 overall score, revealing a significant gap between realistic visual generation and semantic reasoning in current video world models. Furthermore, we demonstrate that fine-tuning process on a relatively small real-world robot dataset can significantly improve task-level planning performance.

翻译：尽管近期视频世界模型已能生成高度逼真的视频，但其执行语义推理与规划的能力仍不明确且缺乏量化评估。我们提出首个综合性基准测试框架Target-Bench，用于全面评估视频世界模型在语义推理、空间估计及规划能力等方面的表现。该框架包含450个机器人采集场景，覆盖47个语义类别，并以基于SLAM的轨迹作为运动趋势参考。通过引入公制尺度恢复机制，本框架可从生成视频中重建运动信息，并利用五项互补指标评估规划性能，聚焦目标趋近能力与方向一致性。评估结果显示，当前最佳现成模型仅取得0.341的综合评分，揭示了现有视频世界模型在逼真视觉生成与语义推理之间的显著鸿沟。此外，我们证明对较小规模真实机器人数据集进行微调，可显著提升任务级规划性能。

0

相关内容

视频

基于深度学习模型的图像军事目标检测

基于深度学习模型的图像军事目标检测

专知会员服务

27+阅读 · 2025年10月18日

SVBench：首个流视频长上下文理解评估基准｜ICLR'2025 Spotlight

SVBench：首个流视频长上下文理解评估基准｜ICLR'2025 Spotlight

专知会员服务

12+阅读 · 2025年4月9日

无人机视角下的目标检测研究进展

无人机视角下的目标检测研究进展

专知会员服务

127+阅读 · 2023年1月22日

小目标如何检测？西工大韩军伟等发布《大规模小目标检测》综述，20页pdf全面阐述小目标检测方法和自动驾驶与空中场景基准数据集

小目标如何检测？西工大韩军伟等发布《大规模小目标检测》综述，20页pdf全面阐述小目标检测方法和自动驾驶与空中场景基准数据集

专知会员服务

94+阅读 · 2022年7月29日

基于深度学习的视觉目标检测技术综述

基于深度学习的视觉目标检测技术综述

专知会员服务

61+阅读 · 2022年6月22日

基于深度学习的视频目标检测综述

专知会员服务

29+阅读 · 2021年9月13日

【CVPR2021】面向开放世界的目标检测

专知会员服务

27+阅读 · 2021年3月5日

【文献综述】深度学习目标检测方法及其主流框架综述

【文献综述】深度学习目标检测方法及其主流框架综述

专知会员服务

119+阅读 · 2020年6月26日

【目标检测 | 2019最新综述】目标检测的最新进展，附40页PDF，Recent Advances in Deep Learning for Object Detection

【目标检测 | 2019最新综述】目标检测的最新进展，附40页PDF，Recent Advances in Deep Learning for Object Detection

专知会员服务

86+阅读 · 2019年11月15日

【目标检测 | 2019最新综述】基于深度学习的目标检测综述，附30页PDF， A Survey of Deep Learning-based Object Detection（From Fast R-CNN to NAS-FPN）

【目标检测 | 2019最新综述】基于深度学习的目标检测综述，附30页PDF， A Survey of Deep Learning-based Object Detection（From Fast R-CNN to NAS-FPN）

专知会员服务

56+阅读 · 2019年11月15日

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

机器之心

17+阅读 · 2019年6月28日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

基于深度学习的目标检测算法剖析与实现【附PPT与视频资料】

基于深度学习的目标检测算法剖析与实现【附PPT与视频资料】

人工智能前沿讲习班

12+阅读 · 2018年12月25日

基于视频的目标检测的发展【附PPT与视频资料】

基于视频的目标检测的发展【附PPT与视频资料】

人工智能前沿讲习班

19+阅读 · 2018年12月14日

基于 TensorFlow 、OpenCV 和 Docker 的实时视频目标检测

基于 TensorFlow 、OpenCV 和 Docker 的实时视频目标检测

AI研习社

10+阅读 · 2018年7月23日

目标检测算法盘点（最全）

目标检测算法盘点（最全）

七月在线实验室

17+阅读 · 2018年4月27日

干货 | 目标检测入门，看这篇就够了（下）

干货 | 目标检测入门，看这篇就够了（下）

AI100

10+阅读 · 2018年3月17日

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

全球人工智能

10+阅读 · 2017年12月19日

目标检测101：一文带你读懂深度学习框架下的目标检测

目标检测101：一文带你读懂深度学习框架下的目标检测

大数据文摘

23+阅读 · 2017年9月27日

教程 | 深度学习 + OpenCV，Python实现实时视频目标检测

教程 | 深度学习 + OpenCV，Python实现实时视频目标检测

机器之心

18+阅读 · 2017年9月21日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于多源视频的大范围场景目标跟踪

国家自然科学基金

2+阅读 · 2015年12月31日

基于语义模型的高分辨率卫星遥感图像人造目标检测方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于特征学习的空间非合作目标单目视觉位姿测量研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向无人机基于在线场景建模的室外目标检测与跟踪方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

场景深度关系下的视频遮挡目标检测

国家自然科学基金

1+阅读 · 2015年12月31日

基于自学习对比度视觉注意模型和自适应深度特征的无分类目标检测

国家自然科学基金

2+阅读 · 2015年12月31日

运动目标间语义关系的时空建模及可视化研究

国家自然科学基金

1+阅读 · 2014年12月31日

形状先验和数据驱动的高分辨遥感影像目标提取

国家自然科学基金

3+阅读 · 2014年12月31日

语义关联的地理视频数据自适应组织方法

国家自然科学基金

1+阅读 · 2014年12月31日

LLM-WikiRace Benchmark: How Far Can LLMs Plan over Real-World Knowledge Graphs?

Arxiv

0+阅读 · 6月15日

SemGeoNav:A Safety-Guided Visual Navigation Approach with Semantic Reasoning and Geometric Planning

Arxiv

0+阅读 · 6月15日

PIGEON: VLM-Driven Object Navigation via Points of Interest Selection

Arxiv

0+阅读 · 6月10日

AVI-Bench: Toward Human-like Audio-Visual Intelligence of Omni-MLLMs

Arxiv

0+阅读 · 6月1日

3D-Belief: Embodied Belief Inference via Generative 3D World Modeling

Arxiv

0+阅读 · 5月29日

YoCausal: How Far is Video Generation from World Model? A Causality Perspective

Arxiv

0+阅读 · 5月28日

Chartographer: Counterfactual Chart Generation for Evaluating Vision-Language Models

Arxiv

0+阅读 · 5月26日

Benchmarks are Not Enough: RAMP for Runtime Assessing of Agentic Models in Production Systems

Arxiv

0+阅读 · 5月26日

Three-Step Nav: A Hierarchical Global-Local Planner for Zero-Shot Vision-and-Language Navigation

Arxiv

0+阅读 · 4月29日

Benchmarking PhD-Level Coding in 3D Geometric Computer Vision

Arxiv

0+阅读 · 3月31日

VIP会员

文章信息

相关主题

最新内容

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

0+阅读 · 6分钟前

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

1+阅读 · 18分钟前

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

1+阅读 · 29分钟前

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

1+阅读 · 38分钟前

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

1+阅读 · 42分钟前

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

1+阅读 · 46分钟前

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

1+阅读 · 50分钟前

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

6+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

相关VIP内容

基于深度学习模型的图像军事目标检测

基于深度学习模型的图像军事目标检测

专知会员服务

27+阅读 · 2025年10月18日

SVBench：首个流视频长上下文理解评估基准｜ICLR'2025 Spotlight

SVBench：首个流视频长上下文理解评估基准｜ICLR'2025 Spotlight

专知会员服务

12+阅读 · 2025年4月9日

无人机视角下的目标检测研究进展

无人机视角下的目标检测研究进展

专知会员服务

127+阅读 · 2023年1月22日

小目标如何检测？西工大韩军伟等发布《大规模小目标检测》综述，20页pdf全面阐述小目标检测方法和自动驾驶与空中场景基准数据集

小目标如何检测？西工大韩军伟等发布《大规模小目标检测》综述，20页pdf全面阐述小目标检测方法和自动驾驶与空中场景基准数据集

专知会员服务

94+阅读 · 2022年7月29日

基于深度学习的视觉目标检测技术综述

基于深度学习的视觉目标检测技术综述

专知会员服务

61+阅读 · 2022年6月22日

基于深度学习的视频目标检测综述

专知会员服务

29+阅读 · 2021年9月13日

【CVPR2021】面向开放世界的目标检测

专知会员服务

27+阅读 · 2021年3月5日

【文献综述】深度学习目标检测方法及其主流框架综述

【文献综述】深度学习目标检测方法及其主流框架综述

专知会员服务

119+阅读 · 2020年6月26日

【目标检测 | 2019最新综述】目标检测的最新进展，附40页PDF，Recent Advances in Deep Learning for Object Detection

【目标检测 | 2019最新综述】目标检测的最新进展，附40页PDF，Recent Advances in Deep Learning for Object Detection

专知会员服务

86+阅读 · 2019年11月15日

【目标检测 | 2019最新综述】基于深度学习的目标检测综述，附30页PDF， A Survey of Deep Learning-based Object Detection（From Fast R-CNN to NAS-FPN）

【目标检测 | 2019最新综述】基于深度学习的目标检测综述，附30页PDF， A Survey of Deep Learning-based Object Detection（From Fast R-CNN to NAS-FPN）

专知会员服务

56+阅读 · 2019年11月15日

热门VIP内容

开通专知VIP会员享更多权益服务

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

美以伊冲突：无人机与人工智能的运用

《特种部队在透明战场中的生存力》最新报告

相关资讯

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

机器之心

17+阅读 · 2019年6月28日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

基于深度学习的目标检测算法剖析与实现【附PPT与视频资料】

基于深度学习的目标检测算法剖析与实现【附PPT与视频资料】

人工智能前沿讲习班

12+阅读 · 2018年12月25日

基于视频的目标检测的发展【附PPT与视频资料】

基于视频的目标检测的发展【附PPT与视频资料】

人工智能前沿讲习班

19+阅读 · 2018年12月14日

基于 TensorFlow 、OpenCV 和 Docker 的实时视频目标检测

基于 TensorFlow 、OpenCV 和 Docker 的实时视频目标检测

AI研习社

10+阅读 · 2018年7月23日

目标检测算法盘点（最全）

目标检测算法盘点（最全）

七月在线实验室

17+阅读 · 2018年4月27日

干货 | 目标检测入门，看这篇就够了（下）

干货 | 目标检测入门，看这篇就够了（下）

AI100

10+阅读 · 2018年3月17日

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

全球人工智能

10+阅读 · 2017年12月19日

目标检测101：一文带你读懂深度学习框架下的目标检测

目标检测101：一文带你读懂深度学习框架下的目标检测

大数据文摘

23+阅读 · 2017年9月27日

教程 | 深度学习 + OpenCV，Python实现实时视频目标检测

教程 | 深度学习 + OpenCV，Python实现实时视频目标检测

机器之心

18+阅读 · 2017年9月21日

相关论文

LLM-WikiRace Benchmark: How Far Can LLMs Plan over Real-World Knowledge Graphs?

Arxiv

0+阅读 · 6月15日

SemGeoNav:A Safety-Guided Visual Navigation Approach with Semantic Reasoning and Geometric Planning

Arxiv

0+阅读 · 6月15日

PIGEON: VLM-Driven Object Navigation via Points of Interest Selection

Arxiv

0+阅读 · 6月10日

AVI-Bench: Toward Human-like Audio-Visual Intelligence of Omni-MLLMs

Arxiv

0+阅读 · 6月1日

3D-Belief: Embodied Belief Inference via Generative 3D World Modeling

Arxiv

0+阅读 · 5月29日

YoCausal: How Far is Video Generation from World Model? A Causality Perspective

Arxiv

0+阅读 · 5月28日

Chartographer: Counterfactual Chart Generation for Evaluating Vision-Language Models

Arxiv

0+阅读 · 5月26日

Benchmarks are Not Enough: RAMP for Runtime Assessing of Agentic Models in Production Systems

Arxiv

0+阅读 · 5月26日

Three-Step Nav: A Hierarchical Global-Local Planner for Zero-Shot Vision-and-Language Navigation

Arxiv

0+阅读 · 4月29日

Benchmarking PhD-Level Coding in 3D Geometric Computer Vision

Arxiv

0+阅读 · 3月31日

相关基金

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于多源视频的大范围场景目标跟踪

国家自然科学基金

2+阅读 · 2015年12月31日

基于语义模型的高分辨率卫星遥感图像人造目标检测方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于特征学习的空间非合作目标单目视觉位姿测量研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向无人机基于在线场景建模的室外目标检测与跟踪方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

场景深度关系下的视频遮挡目标检测

国家自然科学基金

1+阅读 · 2015年12月31日

基于自学习对比度视觉注意模型和自适应深度特征的无分类目标检测

国家自然科学基金

2+阅读 · 2015年12月31日

运动目标间语义关系的时空建模及可视化研究

国家自然科学基金

1+阅读 · 2014年12月31日

形状先验和数据驱动的高分辨遥感影像目标提取

国家自然科学基金

3+阅读 · 2014年12月31日

语义关联的地理视频数据自适应组织方法

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员