Visual-audio navigation (VAN) is attracting more and more attention from the robotic community due to its broad applications, \emph{e.g.}, household robots and rescue robots. In this task, an embodied agent must search for and navigate to the sound source with egocentric visual and audio observations. However, the existing methods are limited in two aspects: 1) poor generalization to unheard sound categories; 2) sample inefficient in training. Focusing on these two problems, we propose a brain-inspired plug-and-play method to learn a semantic-agnostic and spatial-aware representation for generalizable visual-audio navigation. We meticulously design two auxiliary tasks for respectively accelerating learning representations with the above-desired characteristics. With these two auxiliary tasks, the agent learns a spatially-correlated representation of visual and audio inputs that can be applied to work on environments with novel sounds and maps. Experiment results on realistic 3D scenes (Replica and Matterport3D) demonstrate that our method achieves better generalization performance when zero-shot transferred to scenes with unseen maps and unheard sound categories.


翻译:视觉-音频导航(VAN)因其在家庭机器人和救援机器人等领域的广泛应用而受到机器人学界越来越多的关注。在该任务中,具身智能体需利用第一人称视觉与音频观测搜索并导航至声源位置。然而现有方法存在两方面局限:1)对未见声音类别的泛化能力不足;2)训练样本效率低下。针对这两大问题,我们提出一种受脑启发的即插即用方法,以学习面向通用视觉-音频导航的语义无关与空间感知表征。我们精心设计了两项辅助任务,分别加速具有上述期望特性的表征学习。通过这两项辅助任务,智能体能够学习视觉与音频输入的空间关联表征,该表征可应用于包含新颖声音与地图的环境。在真实三维场景(Replica和Matterport3D)上的实验结果表明,当零样本迁移至包含未见地图与未听声音类别的场景时,我们的方法实现了更优的泛化性能。

0
下载
关闭预览

相关内容

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习
【NUS博士论文】学习视觉场景的结构化表示,137页pdf
专知会员服务
38+阅读 · 2022年7月15日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
25+阅读 · 2021年6月25日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习
【NUS博士论文】学习视觉场景的结构化表示,137页pdf
专知会员服务
38+阅读 · 2022年7月15日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员