Lifelong embodied navigation requires agents to accumulate, retain, and exploit spatial-semantic experience across tasks, enabling efficient exploration in novel environments and rapid goal reaching in familiar ones. While object-centric memory is interpretable, it depends on detection and reconstruction pipelines that limit robustness and scalability. We propose an image-centric memory framework that achieves long-term implicit memory via an efficient visual context compression module end-to-end coupled with a Qwen2.5-VL-based navigation policy. Built atop a ViT backbone with frozen DINOv3 features and lightweight PixelUnshuffle+Conv blocks, our visual tokenizer supports configurable compression rates; for example, under a representative 16$\times$ compression setting, each image is encoded with about 30 tokens, expanding the effective context capacity from tens to hundreds of images. Experimental results on GOAT-Bench and HM3D-OVON show that our method achieves state-of-the-art navigation performance, improving exploration in unfamiliar environments and shortening paths in familiar ones. Ablation studies further reveal that moderate compression provides the best balance between efficiency and accuracy. These findings position compressed image-centric memory as a practical and scalable interface for lifelong embodied agents, enabling them to reason over long visual histories and navigate with human-like efficiency.


翻译:终身具身导航要求智能体能够跨任务积累、保持并利用空间语义经验,从而在新环境中实现高效探索,在熟悉环境中实现快速目标抵达。虽然以物体为中心的记忆具有可解释性,但其依赖于检测与重建流程,限制了鲁棒性与可扩展性。我们提出了一种以图像为中心的记忆框架,该框架通过一个高效的视觉上下文压缩模块(端到端地与基于 Qwen2.5-VL 的导航策略耦合)实现了长时隐式记忆。我们的视觉分词器构建于采用冻结 DINOv3 特征的 ViT 骨干网络及轻量级 PixelUnshuffle+Conv 模块之上,支持可配置的压缩率;例如,在具有代表性的 16$\times$ 压缩设置下,每张图像被编码为约 30 个 token,将有效上下文容量从数十张图像扩展至数百张。在 GOAT-Bench 和 HM3D-OVON 上的实验结果表明,我们的方法实现了最先进的导航性能,提升了在陌生环境中的探索效率,并缩短了在熟悉环境中的路径长度。消融研究进一步表明,适度的压缩在效率与准确性之间提供了最佳平衡。这些发现确立了压缩式以图像为中心的记忆作为终身具身智能体的一种实用且可扩展的接口,使其能够对长视觉历史进行推理,并以类人的效率进行导航。

0
下载
关闭预览

相关内容

【CVPR2022】提示分布学习
专知会员服务
31+阅读 · 2022年5月17日
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
21+阅读 · 2018年7月26日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关资讯
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
21+阅读 · 2018年7月26日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员