Embodied Reference Understanding requires identifying a target object in a visual scene based on both language instructions and pointing cues. While prior works have shown progress in open-vocabulary object detection, they often fail in ambiguous scenarios where multiple candidate objects exist in the scene. To address these challenges, we propose a novel ERU framework that jointly leverages LLM-based data augmentation, depth-map modality, and a depth-aware decision module. This design enables robust integration of linguistic and embodied cues, improving disambiguation in complex or cluttered environments. Experimental results on two datasets demonstrate that our approach significantly outperforms existing baselines, achieving more accurate and reliable referent detection.


翻译:具身指代理解要求根据语言指令和指向线索在视觉场景中识别目标物体。尽管先前工作在开放词汇目标检测方面取得了进展,但在场景中存在多个候选物体的歧义情境下,这些方法往往失效。为解决上述挑战,我们提出了一种新颖的ERU框架,该框架联合利用基于大语言模型的数据增强、深度图模态以及深度感知决策模块。该设计能够实现语言线索与具身线索的鲁棒整合,提升复杂或杂乱环境中的消歧能力。在两个数据集上的实验结果表明,我们的方法显著优于现有基线模型,实现了更准确、更可靠的指代物检测。

0
下载
关闭预览

相关内容

具身智能中的心理世界建模:深度综述
专知会员服务
39+阅读 · 1月10日
多模态指代分割综述
专知会员服务
17+阅读 · 2025年8月4日
基于多模态大模型的具身智能体研究进展与展望
专知会员服务
27+阅读 · 2025年7月2日
数据驱动的具身学习探索
专知会员服务
18+阅读 · 2025年2月26日
【博士论文】学习视觉-语言表示以实现多模态理解
专知会员服务
28+阅读 · 2025年2月8日
【斯坦福博士论文】具身物体搜索的操作与推理方法
专知会员服务
39+阅读 · 2023年9月13日
多模态认知计算
专知会员服务
182+阅读 · 2022年9月16日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
2+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
具身智能中的心理世界建模:深度综述
专知会员服务
39+阅读 · 1月10日
多模态指代分割综述
专知会员服务
17+阅读 · 2025年8月4日
基于多模态大模型的具身智能体研究进展与展望
专知会员服务
27+阅读 · 2025年7月2日
数据驱动的具身学习探索
专知会员服务
18+阅读 · 2025年2月26日
【博士论文】学习视觉-语言表示以实现多模态理解
专知会员服务
28+阅读 · 2025年2月8日
【斯坦福博士论文】具身物体搜索的操作与推理方法
专知会员服务
39+阅读 · 2023年9月13日
多模态认知计算
专知会员服务
182+阅读 · 2022年9月16日
相关基金
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员