Embodied Question Answering (EQA) combines visual scene understanding, goal-directed exploration, spatial and temporal reasoning under partial observability. A central challenge is to confine physical search to question-relevant subspaces while maintaining a compact, actionable memory of observations. Furthermore, for real-world deployment, fast inference time during exploration is crucial. We introduce FAST-EQA, a question-conditioned framework that (i) identifies likely visual targets, (ii) scores global regions of interest to guide navigation, and (iii) employs Chain-of-Thought (CoT) reasoning over visual memory to answer confidently. FAST-EQA maintains a bounded scene memory that stores a fixed-capacity set of region-target hypotheses and updates them online, enabling robust handling of both single and multi-target questions without unbounded growth. To expand coverage efficiently, a global exploration policy treats narrow openings and doors as high-value frontiers, complementing local target seeking with minimal computation. Together, these components focus the agent's attention, improve scene coverage, and improve answer reliability while running substantially faster than prior approaches. On HMEQA and EXPRESS-Bench, FAST-EQA achieves state-of-the-art performance, while performing competitively on OpenEQA and MT-HM3D.


翻译:具身问答结合了视觉场景理解、目标导向探索以及在部分可观测条件下的时空推理。一个核心挑战在于将物理搜索限制在与问题相关的子空间内,同时维持一个紧凑且可操作的观测记忆。此外,在实际部署中,探索过程中的快速推理时间至关重要。我们提出了FAST-EQA,这是一个以问题为条件的框架,它能够:(i) 识别可能的视觉目标,(ii) 对感兴趣的全局区域进行评分以指导导航,以及(iii) 在视觉记忆上采用思维链推理来给出可靠的答案。FAST-EQA维护一个有界的场景记忆,该记忆存储一个固定容量的区域-目标假设集,并在线更新它们,从而能够稳健地处理单目标和多目标问题,而无需无限制地增长记忆。为了高效扩展覆盖范围,一个全局探索策略将狭窄开口和门视为高价值边界,以最小的计算量补充局部目标寻找。这些组件共同作用,聚焦智能体的注意力,提高场景覆盖率,并提升答案的可靠性,同时运行速度显著快于先前的方法。在HMEQA和EXPRESS-Bench上,FAST-EQA实现了最先进的性能,同时在OpenEQA和MT-HM3D上也表现出竞争力。

0
下载
关闭预览

相关内容

FAST:Conference on File and Storage Technologies。 Explanation:文件和存储技术会议。 Publisher:USENIX。 SIT:http://dblp.uni-trier.de/db/conf/fast/
中文版 | 利用快速部署技术将任何环境转化为监控区域
专知会员服务
20+阅读 · 2025年4月15日
一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD
七月在线实验室
11+阅读 · 2018年7月18日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
63+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关VIP内容
中文版 | 利用快速部署技术将任何环境转化为监控区域
专知会员服务
20+阅读 · 2025年4月15日
相关资讯
一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD
七月在线实验室
11+阅读 · 2018年7月18日
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
63+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员