Beyond Language: Grounding Referring Expressions with Hand Pointing in Egocentric Vision - 专知论文

会员服务 ·

0

多模 · 模态 · 数据集 · 多模态 · 交互 ·

Beyond Language: Grounding Referring Expressions with Hand Pointing in Egocentric Vision

翻译：超越语言：在自我中心视觉中利用手势指向实现指代表达定位

Ling Li,Bowen Liu,Zinuo Zhan,Peng Jie,Jianhui Zhong,Kenglun Chang,Zhidong Deng

Traditional Visual Grounding (VG) predominantly relies on textual descriptions to localize objects, a paradigm that inherently struggles with linguistic ambiguity and often ignores non-verbal deictic cues prevalent in real-world interactions. In natural egocentric engagements, hand-pointing combined with speech forms the most intuitive referring mechanism. To bridge this gap, we introduce EgoPoint-Ground, the first large-scale multimodal dataset dedicated to egocentric deictic visual grounding. Comprising over \textbf{15k} interactive samples in complex scenes, the dataset provides rich, multi-grained annotations including hand-target bounding box pairs and dense semantic captions. We establish a comprehensive benchmark for hand-pointing referring expression resolution, evaluating a wide spectrum of mainstream Multimodal Large Language Models (MLLMs) and state-of-the-art VG architectures. Furthermore, we propose SV-CoT, a novel baseline framework that reformulates grounding as a structured inference process, synergizing gestural and linguistic cues through a Visual Chain-of-Thought paradigm. Extensive experiments demonstrate that SV-CoT achieves an $\textbf{11.7\%}$ absolute improvement over existing methods, effectively mitigating semantic ambiguity and advancing the capability of agents to comprehend multimodal physical intents. The dataset and code will be made publicly available.

翻译：传统视觉定位(Visual Grounding, VG)主要依赖文本描述来定位目标，这一范式本质上难以处理语言歧义，且往往忽略现实交互中普遍存在的非语言指向线索。在自然的自我中心互动中，手势指向与语音结合构成了最直观的指代机制。为弥补这一空白，我们提出了EgoPoint-Ground——首个专门用于自我中心指向视觉定位的大规模多模态数据集。该数据集包含复杂场景中超过**1.5万**个交互样本，提供丰富且多粒度的标注，包括手-目标边界框配对和密集语义描述。我们为手势指向指代表达消解建立了全面基准，评估了主流多模态大语言模型(MLLMs)及先进VG架构的广泛范围。此外，我们提出了SV-CoT，一种新颖的基线框架，将定位重新表述为结构化推理过程，通过视觉思维链(Visual Chain-of-Thought)范式协同手势与语言线索。大量实验表明，SV-CoT相比现有方法实现了**11.7%**的绝对提升，有效缓解了语义歧义，并提升了智能体理解多模态物理意图的能力。数据集和代码将公开提供。

0

相关内容

[ICML 2026] 看见的还是思考的？用奖励机制区分“看错”与“想错”：视觉语言模型奖励感知

[ICML 2026] 看见的还是思考的？用奖励机制区分“看错”与“想错”：视觉语言模型奖励感知

专知会员服务

10+阅读 · 5月15日

【CVPR2025】超图视觉Transformer：图像不仅仅是节点，也不仅仅是边

【CVPR2025】超图视觉Transformer：图像不仅仅是节点，也不仅仅是边

专知会员服务

13+阅读 · 2025年4月14日

【博士论文】基于视觉的手语处理：识别、翻译与生成

【博士论文】基于视觉的手语处理：识别、翻译与生成

专知会员服务

13+阅读 · 2025年3月3日

27页综述，354篇参考文献！最详尽的视觉定位综述来了

27页综述，354篇参考文献！最详尽的视觉定位综述来了

专知会员服务

21+阅读 · 2025年2月20日

【博士论文】学习视觉-语言表示以实现多模态理解

【博士论文】学习视觉-语言表示以实现多模态理解

专知会员服务

28+阅读 · 2025年2月8日

【CVPR2024】用于视觉-语言导航的体积环境表示

【CVPR2024】用于视觉-语言导航的体积环境表示

专知会员服务

19+阅读 · 2024年3月24日

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

专知会员服务

38+阅读 · 2022年3月25日

动态手势理解与交互综述

专知会员服务

34+阅读 · 2021年10月11日

中科院计算所刘昊淼博士论文《面向物体语义理解的视觉表示学习》

中科院计算所刘昊淼博士论文《面向物体语义理解的视觉表示学习》

专知会员服务

44+阅读 · 2020年12月4日

【DeepMind-牛津-CMU-CVPR2020】无监督文字翻译视频中的视觉基础，Visual Grounding in Video for Unsupervised Word Translation

【DeepMind-牛津-CMU-CVPR2020】无监督文字翻译视频中的视觉基础，Visual Grounding in Video for Unsupervised Word Translation

专知会员服务

13+阅读 · 2020年3月12日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

《视觉跟踪最新方法与趋势》，44页最新综述带你全面了解视觉跟踪领域发展方向

《视觉跟踪最新方法与趋势》，44页最新综述带你全面了解视觉跟踪领域发展方向

专知

32+阅读 · 2019年5月22日

超像素、语义分割、实例分割、全景分割傻傻分不清？

超像素、语义分割、实例分割、全景分割傻傻分不清？

计算机视觉life

19+阅读 · 2018年11月27日

【优青论文】视觉问答技术研究

【优青论文】视觉问答技术研究

计算机研究与发展

13+阅读 · 2018年9月21日

ECCV发布：228页教程全面理解视觉定位技术

ECCV发布：228页教程全面理解视觉定位技术

专知

17+阅读 · 2018年9月12日

入门 | 一文了解什么是语义分割及常用的语义分割方法有哪些

入门 | 一文了解什么是语义分割及常用的语义分割方法有哪些

机器之心

10+阅读 · 2018年6月4日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

新智元

35+阅读 · 2018年1月24日

面向大类别的空中手写中英文识别技术研究

国家自然科学基金

3+阅读 · 2017年12月31日

基于RGB-D数据的个性化手势交互技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

“自然语言-草图”耦合的地理场景查询方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

视觉信息的局部特征表示及应用研究

国家自然科学基金

2+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

儿童手写运动促进中英文感知的认知神经机制

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

中文句子语义概念图自动构建方法及应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

Do MLLMs Understand Pointing? Benchmarking and Enhancing Referential Reasoning in Egocentric Vision

Arxiv

0+阅读 · 4月23日

Beyond Referring Expressions: Scenario Comprehension Visual Grounding

Arxiv

0+阅读 · 4月2日

GroundVTS: Visual Token Sampling in Multimodal Large Language Models for Video Temporal Grounding

Arxiv

0+阅读 · 4月2日

Objestures: Everyday Objects Meet Mid-Air Gestures for Expressive Interaction

Arxiv

0+阅读 · 3月30日

The People's Gaze: Co-Designing and Refining Gaze Gestures with General Users and Gaze Interaction Experts

Arxiv

0+阅读 · 3月24日

Meanings and Measurements: Multi-Agent Probabilistic Grounding for Vision-Language Navigation

Arxiv

0+阅读 · 3月19日

\textsc{NaVIDA}: Vision-Language Navigation with Inverse Dynamics Augmentation

Arxiv

0+阅读 · 3月16日

Beyond Text: Aligning Vision and Language for Multimodal E-Commerce Retrieval

Arxiv

0+阅读 · 3月5日

Beyond the Grid: Layout-Informed Multi-Vector Retrieval with Parsed Visual Document Representations

Arxiv

0+阅读 · 3月2日

SAGE: Spatial-visual Adaptive Graph Exploration for Efficient Visual Place Recognition

Arxiv

0+阅读 · 2月23日

VIP会员

文章信息

相关主题

最新内容

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

3+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

2+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

1+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

13+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

4+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

7+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

8+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

11+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

12+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

8+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

21+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

10+阅读 · 6月17日

相关VIP内容

[ICML 2026] 看见的还是思考的？用奖励机制区分“看错”与“想错”：视觉语言模型奖励感知

[ICML 2026] 看见的还是思考的？用奖励机制区分“看错”与“想错”：视觉语言模型奖励感知

专知会员服务

10+阅读 · 5月15日

【CVPR2025】超图视觉Transformer：图像不仅仅是节点，也不仅仅是边

【CVPR2025】超图视觉Transformer：图像不仅仅是节点，也不仅仅是边

专知会员服务

13+阅读 · 2025年4月14日

【博士论文】基于视觉的手语处理：识别、翻译与生成

【博士论文】基于视觉的手语处理：识别、翻译与生成

专知会员服务

13+阅读 · 2025年3月3日

27页综述，354篇参考文献！最详尽的视觉定位综述来了

27页综述，354篇参考文献！最详尽的视觉定位综述来了

专知会员服务

21+阅读 · 2025年2月20日

【博士论文】学习视觉-语言表示以实现多模态理解

【博士论文】学习视觉-语言表示以实现多模态理解

专知会员服务

28+阅读 · 2025年2月8日

【CVPR2024】用于视觉-语言导航的体积环境表示

【CVPR2024】用于视觉-语言导航的体积环境表示

专知会员服务

19+阅读 · 2024年3月24日

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

专知会员服务

38+阅读 · 2022年3月25日

动态手势理解与交互综述

专知会员服务

34+阅读 · 2021年10月11日

中科院计算所刘昊淼博士论文《面向物体语义理解的视觉表示学习》

中科院计算所刘昊淼博士论文《面向物体语义理解的视觉表示学习》

专知会员服务

44+阅读 · 2020年12月4日

【DeepMind-牛津-CMU-CVPR2020】无监督文字翻译视频中的视觉基础，Visual Grounding in Video for Unsupervised Word Translation

【DeepMind-牛津-CMU-CVPR2020】无监督文字翻译视频中的视觉基础，Visual Grounding in Video for Unsupervised Word Translation

专知会员服务

13+阅读 · 2020年3月12日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

相关资讯

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

《视觉跟踪最新方法与趋势》，44页最新综述带你全面了解视觉跟踪领域发展方向

《视觉跟踪最新方法与趋势》，44页最新综述带你全面了解视觉跟踪领域发展方向

专知

32+阅读 · 2019年5月22日

超像素、语义分割、实例分割、全景分割傻傻分不清？

超像素、语义分割、实例分割、全景分割傻傻分不清？

计算机视觉life

19+阅读 · 2018年11月27日

【优青论文】视觉问答技术研究

【优青论文】视觉问答技术研究

计算机研究与发展

13+阅读 · 2018年9月21日

ECCV发布：228页教程全面理解视觉定位技术

ECCV发布：228页教程全面理解视觉定位技术

专知

17+阅读 · 2018年9月12日

入门 | 一文了解什么是语义分割及常用的语义分割方法有哪些

入门 | 一文了解什么是语义分割及常用的语义分割方法有哪些

机器之心

10+阅读 · 2018年6月4日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

新智元

35+阅读 · 2018年1月24日

相关论文

Do MLLMs Understand Pointing? Benchmarking and Enhancing Referential Reasoning in Egocentric Vision

Arxiv

0+阅读 · 4月23日

Beyond Referring Expressions: Scenario Comprehension Visual Grounding

Arxiv

0+阅读 · 4月2日

GroundVTS: Visual Token Sampling in Multimodal Large Language Models for Video Temporal Grounding

Arxiv

0+阅读 · 4月2日

Objestures: Everyday Objects Meet Mid-Air Gestures for Expressive Interaction

Arxiv

0+阅读 · 3月30日

The People's Gaze: Co-Designing and Refining Gaze Gestures with General Users and Gaze Interaction Experts

Arxiv

0+阅读 · 3月24日

Meanings and Measurements: Multi-Agent Probabilistic Grounding for Vision-Language Navigation

Arxiv

0+阅读 · 3月19日

\textsc{NaVIDA}: Vision-Language Navigation with Inverse Dynamics Augmentation

Arxiv

0+阅读 · 3月16日

Beyond Text: Aligning Vision and Language for Multimodal E-Commerce Retrieval

Arxiv

0+阅读 · 3月5日

Beyond the Grid: Layout-Informed Multi-Vector Retrieval with Parsed Visual Document Representations

Arxiv

0+阅读 · 3月2日

SAGE: Spatial-visual Adaptive Graph Exploration for Efficient Visual Place Recognition

Arxiv

0+阅读 · 2月23日

相关基金

面向大类别的空中手写中英文识别技术研究

国家自然科学基金

3+阅读 · 2017年12月31日

基于RGB-D数据的个性化手势交互技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

“自然语言-草图”耦合的地理场景查询方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

视觉信息的局部特征表示及应用研究

国家自然科学基金

2+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

儿童手写运动促进中英文感知的认知神经机制

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

中文句子语义概念图自动构建方法及应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员