HA-VLN 2.0: An Open Benchmark and Leaderboard for Human-Aware Navigation in Discrete and Continuous Environments with Dynamic Multi-Human Interactions - 专知论文

会员服务 ·

0

基准 · 离散 · 交互 · 社交 · 约束 ·

HA-VLN 2.0: An Open Benchmark and Leaderboard for Human-Aware Navigation in Discrete and Continuous Environments with Dynamic Multi-Human Interactions

翻译：HA-VLN 2.0：面向离散与连续环境中动态多人交互的人类感知导航开放基准与排行榜

Yifei Dong,Fengyi Wu,Qi He,Lingdong Kong,Heng Li,Minghan Li,Zebang Cheng,Yuxuan Zhou,Jingdong Sun,Qi Dai,Alexander G Hauptmann,Zhi-Qi Cheng

from arxiv, 35 pages, 20 figures, website: https://f1y1113.github.io/HA-VLN-webpage/

Vision-and-Language Navigation (VLN) has been studied mainly in either discrete or continuous spaces, with little attention to dynamic, crowded environments. We present HA-VLN 2.0, a unified benchmark introducing explicit social-awareness constraints. Our contributions are: (i) a standardized task and metrics capturing both goal accuracy and personal-space adherence; (ii) HAPS 2.0 dataset and simulators modeling multi-human interactions, outdoor contexts, and finer language-motion alignment; (iii) benchmarks on 16,844 socially grounded instructions, revealing sharp performance drops of leading agents under human dynamics and partial observability; and (iv) real-world robot experiments validating sim-to-real transfer, with an open leaderboard enabling transparent comparison. Results show that explicit social modeling improves navigation robustness and reduces collisions, underscoring necessity of human-centric approaches. By releasing datasets, simulators, baselines, and protocols, HA-VLN 2.0 provides a strong foundation for safe, human-aware navigation research.

翻译：视觉-语言导航（VLN）主要在离散或连续空间中得到研究，而对动态、拥挤环境的关注较少。我们提出HA-VLN 2.0，一个引入显式社交感知约束的统一基准。我们的贡献包括：(i) 一个标准化任务及同时捕捉目标准确性和个人空间遵守度的指标；(ii) HAPS 2.0数据集与模拟器，模拟多人交互、室外场景及更精细的语言-运动对齐；(iii) 基于16,844个社交约束指令的基准测试，揭示领先智能体在人类动力学和部分可观测性下的性能显著下降；(iv) 真实世界机器人实验验证了仿真到现实的迁移，并提供一个开放排行榜以实现透明比较。结果表明，显式社交建模能提升导航鲁棒性并减少碰撞，凸显了以人为中心方法的必要性。通过发布数据集、模拟器、基线和协议，HA-VLN 2.0为安全、人类感知导航研究奠定了坚实基础。

0

相关内容

[ICML 2026] 看见的还是思考的？用奖励机制区分“看错”与“想错”：视觉语言模型奖励感知

[ICML 2026] 看见的还是思考的？用奖励机制区分“看错”与“想错”：视觉语言模型奖励感知

专知会员服务

10+阅读 · 5月15日

无人机视觉语言导航：研究进展、挑战与技术路线图

无人机视觉语言导航：研究进展、挑战与技术路线图

专知会员服务

16+阅读 · 4月16日

面向空中机器人的视觉语言导航：迈向大语言模型时代

面向空中机器人的视觉语言导航：迈向大语言模型时代

专知会员服务

16+阅读 · 4月11日

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

专知会员服务

42+阅读 · 2025年3月9日

【ICLR2025】视觉与语言导航的通用场景适应

【ICLR2025】视觉与语言导航的通用场景适应

专知会员服务

9+阅读 · 2025年1月31日

视觉语言导航：大模型时代的综述

视觉语言导航：大模型时代的综述

专知会员服务

51+阅读 · 2024年7月10日

【CVPR2024】用于视觉-语言导航的体积环境表示

【CVPR2024】用于视觉-语言导航的体积环境表示

专知会员服务

19+阅读 · 2024年3月24日

【AAAI2024】VLN-VIDEO: 利用驾驶视频进行户外视觉语言导航

【AAAI2024】VLN-VIDEO: 利用驾驶视频进行户外视觉语言导航

专知会员服务

10+阅读 · 2024年2月10日

【CVPR2023】KERM:面向视觉语言导航的知识增强推理

【CVPR2023】KERM:面向视觉语言导航的知识增强推理

专知会员服务

24+阅读 · 2023年3月30日

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

专知会员服务

38+阅读 · 2022年3月25日

重磅！斯坦福HAI《2023人工智能指数报告》出炉，386页pdf了解AI十大态势进展（附中文版报告下载）

重磅！斯坦福HAI《2023人工智能指数报告》出炉，386页pdf了解AI十大态势进展（附中文版报告下载）

专知

24+阅读 · 2023年4月4日

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

专知

111+阅读 · 2022年4月28日

【泡泡图灵智库】VPGNet：用于车道和道路标志检测与识别的灭点引导网络

【泡泡图灵智库】VPGNet：用于车道和道路标志检测与识别的灭点引导网络

泡泡机器人SLAM

32+阅读 · 2019年9月6日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

超越标准 GNN ！DeepMind、谷歌提出图匹配网络| ICML最新论文

超越标准 GNN ！DeepMind、谷歌提出图匹配网络| ICML最新论文

新智元

20+阅读 · 2019年5月6日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

最新｜深度离散哈希算法，可用于图像检索！

最新｜深度离散哈希算法，可用于图像检索！

全球人工智能

14+阅读 · 2017年12月15日

【360人工智能研究院与NUS颜水成团队】HashGAN:基于注意力机制的深度对抗哈希模型提升跨模态检索效果

【360人工智能研究院与NUS颜水成团队】HashGAN:基于注意力机制的深度对抗哈希模型提升跨模态检索效果

专知

16+阅读 · 2017年11月29日

视觉里程计：起源、优势、对比、应用

视觉里程计：起源、优势、对比、应用

计算机视觉life

18+阅读 · 2017年7月17日

海上认知无线通信系统非授权频谱感知与资源分配算法研究

国家自然科学基金

2+阅读 · 2015年12月31日

车联网环境下基于路段负载链估测与优化的动态交通诱导方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

基于二值传感网络及隐私保护的人物室内动态定位、多行为识别与老人摔倒实时监测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于日常移动平台的用户状态感知与软件协同技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视频图像处理的神经导航空间配准方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

融入驾驶人感知的交通流建模方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

网络化环境下面向态势感知的多无人机协同控制与管理方法

国家自然科学基金

24+阅读 · 2011年12月31日

Act on What You See: Unlocking Safe Social Navigation in Vision-Language-Action Models

Arxiv

0+阅读 · 6月14日

MapDream: Task-Driven Map Learning for Vision-Language Navigation

Arxiv

0+阅读 · 6月13日

PIGEON: VLM-Driven Object Navigation via Points of Interest Selection

Arxiv

0+阅读 · 6月10日

AgenticNav: Zero-Shot Vision-and-Language Navigation as a Tool-Calling Harness

Arxiv

0+阅读 · 6月9日

SpaceVLN: A Zero-Shot Vision-and-Language Navigation Agent with Online Spatial Cognitive Memory and Reasoning

Arxiv

0+阅读 · 6月8日

ImagineUAV: Aerial Vision-Language Navigation via World-Action Modeling and Kinodynamic Planning

Arxiv

0+阅读 · 6月8日

Beyond Waypoints: A Trajectory-Centric Waypointing Paradigm for Vision-Language Navigation

Arxiv

0+阅读 · 6月5日

SEDualVLN: A Spatially-Enhanced Dual-System for Vision-Language Navigation

Arxiv

0+阅读 · 6月4日

LangMap: A Human-Verified Benchmark for Hierarchical Open-Vocabulary Goal Navigation

Arxiv

0+阅读 · 5月29日

AwareVLN: Reasoning with Self-awareness for Vision-Language Navigation

Arxiv

0+阅读 · 5月21日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

3+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

5+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

7+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

10+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

11+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

15+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

8+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

10+阅读 · 6月17日

相关VIP内容

[ICML 2026] 看见的还是思考的？用奖励机制区分“看错”与“想错”：视觉语言模型奖励感知

[ICML 2026] 看见的还是思考的？用奖励机制区分“看错”与“想错”：视觉语言模型奖励感知

专知会员服务

10+阅读 · 5月15日

无人机视觉语言导航：研究进展、挑战与技术路线图

无人机视觉语言导航：研究进展、挑战与技术路线图

专知会员服务

16+阅读 · 4月16日

面向空中机器人的视觉语言导航：迈向大语言模型时代

面向空中机器人的视觉语言导航：迈向大语言模型时代

专知会员服务

16+阅读 · 4月11日

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

专知会员服务

42+阅读 · 2025年3月9日

【ICLR2025】视觉与语言导航的通用场景适应

【ICLR2025】视觉与语言导航的通用场景适应

专知会员服务

9+阅读 · 2025年1月31日

视觉语言导航：大模型时代的综述

视觉语言导航：大模型时代的综述

专知会员服务

51+阅读 · 2024年7月10日

【CVPR2024】用于视觉-语言导航的体积环境表示

【CVPR2024】用于视觉-语言导航的体积环境表示

专知会员服务

19+阅读 · 2024年3月24日

【AAAI2024】VLN-VIDEO: 利用驾驶视频进行户外视觉语言导航

【AAAI2024】VLN-VIDEO: 利用驾驶视频进行户外视觉语言导航

专知会员服务

10+阅读 · 2024年2月10日

【CVPR2023】KERM:面向视觉语言导航的知识增强推理

【CVPR2023】KERM:面向视觉语言导航的知识增强推理

专知会员服务

24+阅读 · 2023年3月30日

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

专知会员服务

38+阅读 · 2022年3月25日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

重磅！斯坦福HAI《2023人工智能指数报告》出炉，386页pdf了解AI十大态势进展（附中文版报告下载）

重磅！斯坦福HAI《2023人工智能指数报告》出炉，386页pdf了解AI十大态势进展（附中文版报告下载）

专知

24+阅读 · 2023年4月4日

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

专知

111+阅读 · 2022年4月28日

【泡泡图灵智库】VPGNet：用于车道和道路标志检测与识别的灭点引导网络

【泡泡图灵智库】VPGNet：用于车道和道路标志检测与识别的灭点引导网络

泡泡机器人SLAM

32+阅读 · 2019年9月6日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

超越标准 GNN ！DeepMind、谷歌提出图匹配网络| ICML最新论文

超越标准 GNN ！DeepMind、谷歌提出图匹配网络| ICML最新论文

新智元

20+阅读 · 2019年5月6日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

最新｜深度离散哈希算法，可用于图像检索！

最新｜深度离散哈希算法，可用于图像检索！

全球人工智能

14+阅读 · 2017年12月15日

【360人工智能研究院与NUS颜水成团队】HashGAN:基于注意力机制的深度对抗哈希模型提升跨模态检索效果

【360人工智能研究院与NUS颜水成团队】HashGAN:基于注意力机制的深度对抗哈希模型提升跨模态检索效果

专知

16+阅读 · 2017年11月29日

视觉里程计：起源、优势、对比、应用

视觉里程计：起源、优势、对比、应用

计算机视觉life

18+阅读 · 2017年7月17日

相关论文

Act on What You See: Unlocking Safe Social Navigation in Vision-Language-Action Models

Arxiv

0+阅读 · 6月14日

MapDream: Task-Driven Map Learning for Vision-Language Navigation

Arxiv

0+阅读 · 6月13日

PIGEON: VLM-Driven Object Navigation via Points of Interest Selection

Arxiv

0+阅读 · 6月10日

AgenticNav: Zero-Shot Vision-and-Language Navigation as a Tool-Calling Harness

Arxiv

0+阅读 · 6月9日

SpaceVLN: A Zero-Shot Vision-and-Language Navigation Agent with Online Spatial Cognitive Memory and Reasoning

Arxiv

0+阅读 · 6月8日

ImagineUAV: Aerial Vision-Language Navigation via World-Action Modeling and Kinodynamic Planning

Arxiv

0+阅读 · 6月8日

Beyond Waypoints: A Trajectory-Centric Waypointing Paradigm for Vision-Language Navigation

Arxiv

0+阅读 · 6月5日

SEDualVLN: A Spatially-Enhanced Dual-System for Vision-Language Navigation

Arxiv

0+阅读 · 6月4日

LangMap: A Human-Verified Benchmark for Hierarchical Open-Vocabulary Goal Navigation

Arxiv

0+阅读 · 5月29日

AwareVLN: Reasoning with Self-awareness for Vision-Language Navigation

Arxiv

0+阅读 · 5月21日

相关基金

海上认知无线通信系统非授权频谱感知与资源分配算法研究

国家自然科学基金

2+阅读 · 2015年12月31日

车联网环境下基于路段负载链估测与优化的动态交通诱导方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

基于二值传感网络及隐私保护的人物室内动态定位、多行为识别与老人摔倒实时监测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于日常移动平台的用户状态感知与软件协同技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视频图像处理的神经导航空间配准方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

融入驾驶人感知的交通流建模方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

网络化环境下面向态势感知的多无人机协同控制与管理方法

国家自然科学基金

24+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员