ETPNav: Evolving Topological Planning for Vision-Language Navigation in Continuous Environments - 专知论文

会员服务 ·

0

避障 · 控制器 · 启发式方法 · 物理模拟 · HTTPS ·

2023 年 4 月 6 日

ETPNav: Evolving Topological Planning for Vision-Language Navigation in Continuous Environments

翻译：ETPNav：连续环境中视觉语言导航的演化拓扑规划

Dong An,Hanqing Wang,Wenguan Wang,Zun Wang,Yan Huang,Keji He,Liang Wang

from arxiv, Our code is available at https://github.com/MarSaKi/ETPNav

Vision-language navigation is a task that requires an agent to follow instructions to navigate in environments. It becomes increasingly crucial in the field of embodied AI, with potential applications in autonomous navigation, search and rescue, and human-robot interaction. In this paper, we propose to address a more practical yet challenging counterpart setting - vision-language navigation in continuous environments (VLN-CE). To develop a robust VLN-CE agent, we propose a new navigation framework, ETPNav, which focuses on two critical skills: 1) the capability to abstract environments and generate long-range navigation plans, and 2) the ability of obstacle-avoiding control in continuous environments. ETPNav performs online topological mapping of environments by self-organizing predicted waypoints along a traversed path, without prior environmental experience. It privileges the agent to break down the navigation procedure into high-level planning and low-level control. Concurrently, ETPNav utilizes a transformer-based cross-modal planner to generate navigation plans based on topological maps and instructions. The plan is then performed through an obstacle-avoiding controller that leverages a trial-and-error heuristic to prevent navigation from getting stuck in obstacles. Experimental results demonstrate the effectiveness of the proposed method. ETPNav yields more than 10% and 20% improvements over prior state-of-the-art on R2R-CE and RxR-CE datasets, respectively. Our code is available at https://github.com/MarSaKi/ETPNav.

翻译：视觉语言导航是一项要求智能体根据指令在环境中导航的任务，在具身人工智能领域日益重要，潜在应用包括自主导航、搜索救援与人机交互。本文针对更具实际挑战性的变体——连续环境中的视觉语言导航（VLN-CE）提出解决方案。为构建鲁棒的VLN-CE智能体，我们提出新导航框架ETPNav，聚焦两个关键能力：1）抽象环境并生成长程导航规划的能力，2）在连续环境中实现避障控制的能力。ETPNav通过沿行进路径自组织预测航点，无需先验环境经验即可在线构建环境的拓扑地图，使智能体能够将导航过程分解为高层规划与低层控制。同时，ETPNav采用基于Transformer的跨模态规划器，根据拓扑地图与指令生成导航计划，并通过利用试错启发式的避障控制器执行该计划，防止导航陷入障碍物。实验结果表明所提方法的有效性。在R2R-CE和RxR-CE数据集上，ETPNav相较先前最优方法分别提升超过10%和20%。我们的代码开源在https://github.com/MarSaKi/ETPNav。

0

相关内容

JCIM丨DRlinker：深度强化学习优化片段连接设计

JCIM丨DRlinker：深度强化学习优化片段连接设计

专知会员服务

7+阅读 · 2022年12月9日

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

专知会员服务

38+阅读 · 2022年3月25日

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

专知会员服务

24+阅读 · 2022年3月19日

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

专知会员服务

64+阅读 · 2022年3月6日

国防科大《视觉-语言导航》综述论文，24页pdf154篇文献

国防科大《视觉-语言导航》综述论文，24页pdf154篇文献

专知会员服务

64+阅读 · 2021年8月27日

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

专知会员服务

52+阅读 · 2020年5月26日

【ICLR2020-CMU】学习使用主动神经SLAM进行探索，Active Neural SLAM

【ICLR2020-CMU】学习使用主动神经SLAM进行探索，Active Neural SLAM

专知会员服务

38+阅读 · 2020年4月13日

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

专知会员服务

31+阅读 · 2020年3月11日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

61+阅读 · 2019年10月17日

【Pieter Abbeel 报告@CMU】元学习与深度强化学习机器人应用，Deep Learning to Learn，84页ppt

【Pieter Abbeel 报告@CMU】元学习与深度强化学习机器人应用，Deep Learning to Learn，84页ppt

专知会员服务

32+阅读 · 2019年10月12日

7 Papers & Radios | SIGGRAPH 2022最佳博士论文；DeepMind AI西洋陆军棋中对人胜率84%

7 Papers & Radios | SIGGRAPH 2022最佳博士论文；DeepMind AI西洋陆军棋中对人胜率84%

机器之心

3+阅读 · 2022年7月10日

【泡泡一分钟】变化环境下激光地图辅助视觉惯性定位

【泡泡一分钟】变化环境下激光地图辅助视觉惯性定位

泡泡机器人SLAM

15+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

【泡泡一分钟】学习行人如何导航：一种深度逆强化学习的方法

【泡泡一分钟】学习行人如何导航：一种深度逆强化学习的方法

泡泡机器人SLAM

20+阅读 · 2019年4月22日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【泡泡一分钟】用于RGBD语义分割的三维图神经网络(ICCV2017-546)

【泡泡一分钟】用于RGBD语义分割的三维图神经网络(ICCV2017-546)

泡泡机器人SLAM

22+阅读 · 2018年12月4日

【泡泡一分钟】神经SLAM：使用外部存储器让智能体学习探索环境

【泡泡一分钟】神经SLAM：使用外部存储器让智能体学习探索环境

泡泡机器人SLAM

12+阅读 · 2018年4月17日

【泡泡一分钟】Matterport3D: 从室内RGBD数据集中训练 (3dv-22)

【泡泡一分钟】Matterport3D: 从室内RGBD数据集中训练 (3dv-22)

泡泡机器人SLAM

16+阅读 · 2017年12月31日

基于地形辅助的深海长航时ARV自主导航技术研究

国家自然科学基金

15+阅读 · 2017年12月31日

具有路径约束非线性系统的最优控制及其在机器人系统中的应用

国家自然科学基金

2+阅读 · 2014年12月31日

一类Schrodinger-Maxwell 系统解的存在性与多解性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于四叉树直方图的空间关系描述理论与机器人问路导航方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

GAT介导的植物株型形成的调控机理研究

国家自然科学基金

0+阅读 · 2013年12月31日

外加应力及含水蒸气环境中CoNiCrAlY涂层表面氧化层的生长机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

盲环境中基于触觉信息的灵巧手实时抓取策略的研究

国家自然科学基金

1+阅读 · 2012年12月31日

无穷维动力系统的随机小扰动

国家自然科学基金

0+阅读 · 2012年12月31日

多物体跟踪现象中的物体知觉连续性及其神经机制

国家自然科学基金

0+阅读 · 2011年12月31日

自然与人文因素驱动下的黄河源高寒湿地演化动态模拟

国家自然科学基金

0+阅读 · 2009年12月31日

Trends and Challenges Towards an Effective Data-Driven Decision Making in UK SMEs: Case Studies and Lessons Learnt from the Analysis of 85 SMEs

Arxiv

0+阅读 · 2023年5月24日

Robust Imaging Sonar-based Place Recognition and Localization in Underwater Environments

Arxiv

0+阅读 · 2023年5月24日

Vision + Language Applications: A Survey

Arxiv

0+阅读 · 2023年5月24日

TalkUp: A Novel Dataset Paving the Way for Understanding Empowering Language

Arxiv

0+阅读 · 2023年5月23日

Large Language Models as Commonsense Knowledge for Large-Scale Task Planning

Arxiv

0+阅读 · 2023年5月23日

CTopPRM: Clustering Topological PRM for Planning Multiple Distinct Paths in 3D Environments

Arxiv

0+阅读 · 2023年5月23日

Multi-Agent Reinforcement Learning: Methods, Applications, Visionary Prospects, and Challenges

Arxiv

19+阅读 · 2023年5月17日

SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense Reasoning

Arxiv

11+阅读 · 2021年12月16日

Learning Neural Models for Natural Language Processing in the Face of Distributional Shift

Arxiv

11+阅读 · 2021年9月3日

Learning to Count Objects in Natural Images for Visual Question Answering

Arxiv

12+阅读 · 2018年2月15日

VIP会员

文章信息

相关主题

启发式方法

最新内容

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

12+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

7+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

7+阅读 · 7月19日

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

8+阅读 · 7月19日

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

10+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

8+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

13+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

9+阅读 · 7月18日

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

10+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

10+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

6+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

6+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

8+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

6+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

7+阅读 · 7月17日

相关VIP内容

JCIM丨DRlinker：深度强化学习优化片段连接设计

JCIM丨DRlinker：深度强化学习优化片段连接设计

专知会员服务

7+阅读 · 2022年12月9日

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

专知会员服务

38+阅读 · 2022年3月25日

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

专知会员服务

24+阅读 · 2022年3月19日

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

专知会员服务

64+阅读 · 2022年3月6日

国防科大《视觉-语言导航》综述论文，24页pdf154篇文献

国防科大《视觉-语言导航》综述论文，24页pdf154篇文献

专知会员服务

64+阅读 · 2021年8月27日

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

专知会员服务

52+阅读 · 2020年5月26日

【ICLR2020-CMU】学习使用主动神经SLAM进行探索，Active Neural SLAM

【ICLR2020-CMU】学习使用主动神经SLAM进行探索，Active Neural SLAM

专知会员服务

38+阅读 · 2020年4月13日

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

专知会员服务

31+阅读 · 2020年3月11日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

61+阅读 · 2019年10月17日

【Pieter Abbeel 报告@CMU】元学习与深度强化学习机器人应用，Deep Learning to Learn，84页ppt

【Pieter Abbeel 报告@CMU】元学习与深度强化学习机器人应用，Deep Learning to Learn，84页ppt

专知会员服务

32+阅读 · 2019年10月12日

热门VIP内容

开通专知VIP会员享更多权益服务

锻造未来士兵：外骨骼、基因工程与赛博格

《无人机蜂群通信技术研究》50页

深入Project Maven：为何人工智能在战场上依然失灵

《无人机系统（UAS）通信网状网络试验性部署》50页报告

相关资讯

7 Papers & Radios | SIGGRAPH 2022最佳博士论文；DeepMind AI西洋陆军棋中对人胜率84%

7 Papers & Radios | SIGGRAPH 2022最佳博士论文；DeepMind AI西洋陆军棋中对人胜率84%

机器之心

3+阅读 · 2022年7月10日

【泡泡一分钟】变化环境下激光地图辅助视觉惯性定位

【泡泡一分钟】变化环境下激光地图辅助视觉惯性定位

泡泡机器人SLAM

15+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

【泡泡一分钟】学习行人如何导航：一种深度逆强化学习的方法

【泡泡一分钟】学习行人如何导航：一种深度逆强化学习的方法

泡泡机器人SLAM

20+阅读 · 2019年4月22日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【泡泡一分钟】用于RGBD语义分割的三维图神经网络(ICCV2017-546)

【泡泡一分钟】用于RGBD语义分割的三维图神经网络(ICCV2017-546)

泡泡机器人SLAM

22+阅读 · 2018年12月4日

【泡泡一分钟】神经SLAM：使用外部存储器让智能体学习探索环境

【泡泡一分钟】神经SLAM：使用外部存储器让智能体学习探索环境

泡泡机器人SLAM

12+阅读 · 2018年4月17日

【泡泡一分钟】Matterport3D: 从室内RGBD数据集中训练 (3dv-22)

【泡泡一分钟】Matterport3D: 从室内RGBD数据集中训练 (3dv-22)

泡泡机器人SLAM

16+阅读 · 2017年12月31日

相关论文

Trends and Challenges Towards an Effective Data-Driven Decision Making in UK SMEs: Case Studies and Lessons Learnt from the Analysis of 85 SMEs

Arxiv

0+阅读 · 2023年5月24日

Robust Imaging Sonar-based Place Recognition and Localization in Underwater Environments

Arxiv

0+阅读 · 2023年5月24日

Vision + Language Applications: A Survey

Arxiv

0+阅读 · 2023年5月24日

TalkUp: A Novel Dataset Paving the Way for Understanding Empowering Language

Arxiv

0+阅读 · 2023年5月23日

Large Language Models as Commonsense Knowledge for Large-Scale Task Planning

Arxiv

0+阅读 · 2023年5月23日

CTopPRM: Clustering Topological PRM for Planning Multiple Distinct Paths in 3D Environments

Arxiv

0+阅读 · 2023年5月23日

Multi-Agent Reinforcement Learning: Methods, Applications, Visionary Prospects, and Challenges

Arxiv

19+阅读 · 2023年5月17日

SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense Reasoning

Arxiv

11+阅读 · 2021年12月16日

Learning Neural Models for Natural Language Processing in the Face of Distributional Shift

Arxiv

11+阅读 · 2021年9月3日

Learning to Count Objects in Natural Images for Visual Question Answering

Arxiv

12+阅读 · 2018年2月15日

相关基金

基于地形辅助的深海长航时ARV自主导航技术研究

国家自然科学基金

15+阅读 · 2017年12月31日

具有路径约束非线性系统的最优控制及其在机器人系统中的应用

国家自然科学基金

2+阅读 · 2014年12月31日

一类Schrodinger-Maxwell 系统解的存在性与多解性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于四叉树直方图的空间关系描述理论与机器人问路导航方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

GAT介导的植物株型形成的调控机理研究

国家自然科学基金

0+阅读 · 2013年12月31日

外加应力及含水蒸气环境中CoNiCrAlY涂层表面氧化层的生长机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

盲环境中基于触觉信息的灵巧手实时抓取策略的研究

国家自然科学基金

1+阅读 · 2012年12月31日

无穷维动力系统的随机小扰动

国家自然科学基金

0+阅读 · 2012年12月31日

多物体跟踪现象中的物体知觉连续性及其神经机制

国家自然科学基金

0+阅读 · 2011年12月31日

自然与人文因素驱动下的黄河源高寒湿地演化动态模拟

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员