Assisting humans in open-world outdoor environments requires robots to translate high-level natural-language intentions into safe, long-horizon, and socially compliant navigation behavior. Existing map-based methods rely on costly pre-built HD maps, while learning-based policies are mostly limited to indoor and short-horizon settings. To bridge this gap, we propose Walk with Me, a map-free framework for long-horizon social navigation from high-level human instructions. Walk with Me leverages GPS context and lightweight candidate points-of-interest from a public map API for semantic destination grounding and waypoint proposal. A High-Level Vision-Language Model grounds abstract instructions into concrete destinations and plans coarse waypoint sequences. During execution, an observation-aware routing mechanism determines whether the Low-Level Vision-Language-Action policy can handle the current situation or whether explicit safety reasoning from the High-Level VLM is needed. Routine segments are executed by the Low-Level VLA, while complex situations such as crowded crossings trigger high-level reasoning and stop-and-wait behavior when unsafe. By combining semantic intent grounding, map-free long-horizon planning, safety-aware reasoning, and low-level action generation, Walk with Me enables practical outdoor social navigation for human-centric assistance.


翻译:在开放世界户外环境中协助人类,需要机器人将高级自然语言意图转化为安全、长时域且符合社会规范的导航行为。现有基于地图的方法依赖昂贵预建的高清地图,而基于学习的策略大多局限于室内和短时域场景。为弥合这一差距,我们提出“与我同行”(Walk with Me)——一种无需地图的框架,用于从高级人类指令出发进行长时域社交导航。该框架利用GPS背景信息及公共地图API中的轻量级候选兴趣点,实现语义目的地定位与路径点提议。高级视觉语言模型将抽象指令具象化为具体目的地,并规划粗略的路径点序列。在执行过程中,一种感知感知的路由机制会判断低级视觉-语言-动作策略能否应对当前情境,或是否需要高级视觉语言模型进行显式安全推理。常规路段由低级视觉-语言-动作策略执行,而拥挤路口等复杂场景则会触发高级推理,并在不安全时触发“停等”行为。通过结合语义意图定位、无地图长时域规划、安全感知推理与低级动作生成,“与我同行”实现了面向以人为本辅助的实用型户外社交导航。

0
下载
关闭预览

相关内容

【ICLR2025】视觉与语言导航的通用场景适应
专知会员服务
9+阅读 · 2025年1月31日
【AAAI2024】VLN-VIDEO: 利用驾驶视频进行户外视觉语言导航
专知会员服务
10+阅读 · 2024年2月10日
国防科大《视觉-语言导航》综述论文,24页pdf154篇文献
专知会员服务
63+阅读 · 2021年8月27日
IROS2020|机器人自主探索与建图算法,代码已开源!
中国图象图形学报
34+阅读 · 2020年9月8日
高精地图在车路协同中的应用
智能交通技术
10+阅读 · 2019年7月11日
MaskFusion: 多运动目标实时识别、跟踪和重建
计算机视觉life
11+阅读 · 2019年4月20日
【未来黑科技】深度玩转行人重识别与跨境追踪
炼数成金订阅号
11+阅读 · 2019年4月18日
车路协同应用场景分析
智能交通技术
24+阅读 · 2019年4月13日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
从人脸识别到行人重识别,下一个风口
计算机视觉战队
13+阅读 · 2017年11月24日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
VIP会员
最新内容
世界动作模型: 具身AI的下一个前沿
专知会员服务
1+阅读 · 今天12:28
全球十大防空反导系统:列表、射程与用途
专知会员服务
10+阅读 · 今天3:53
相关VIP内容
【ICLR2025】视觉与语言导航的通用场景适应
专知会员服务
9+阅读 · 2025年1月31日
【AAAI2024】VLN-VIDEO: 利用驾驶视频进行户外视觉语言导航
专知会员服务
10+阅读 · 2024年2月10日
国防科大《视觉-语言导航》综述论文,24页pdf154篇文献
专知会员服务
63+阅读 · 2021年8月27日
相关资讯
IROS2020|机器人自主探索与建图算法,代码已开源!
中国图象图形学报
34+阅读 · 2020年9月8日
高精地图在车路协同中的应用
智能交通技术
10+阅读 · 2019年7月11日
MaskFusion: 多运动目标实时识别、跟踪和重建
计算机视觉life
11+阅读 · 2019年4月20日
【未来黑科技】深度玩转行人重识别与跨境追踪
炼数成金订阅号
11+阅读 · 2019年4月18日
车路协同应用场景分析
智能交通技术
24+阅读 · 2019年4月13日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
从人脸识别到行人重识别,下一个风口
计算机视觉战队
13+阅读 · 2017年11月24日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员