Gold Points Sniper: Self-guided Visual Reasoning in VLM for Fine-grained Action Understanding - 专知论文

会员服务 ·

0

可理解性 · MoDELS · Performer · 数据集 · 机器人 ·

Gold Points Sniper: Self-guided Visual Reasoning in VLM for Fine-grained Action Understanding

翻译：暂无翻译

Haodi Liu,Xinhang Yang,Kunda Yan,Sen Cui,Zeyu Zhang,Changshui Zhang

Robots operating in everyday environments must understand fine-grained human actions, intentions, and contextual cues from broad views where people occupy only small regions, a capability unmet by current systems. While open-vocabulary action recognition methods remain limited to assigning predefined labels, and vision-language models (VLMs) face an inherent trade-off between informational richness and factual fidelity in their outputs, neither approach achieves the deep semantic interpretation required for reliable human-robot interaction. We propose Gold Points Sniper (GPS), a novel framework that empowers lightweight VLMs with self-guided multimodal reasoning capabilities for fine-grained human action understanding. Our approach comprises three key modules: Gold Points Extractor trains VLMs to identify critical action-relevant details, Selective Socratic Questioner validates and refines these details through selective self-questioning, and Semantic Entailment Evaluator quantitatively assesses factual consistency using semantic entailment classification. Extensive experiments on our curated instruction-tuning dataset based on the CAP benchmark demonstrate that GPS-enhanced lightweight VLMs achieve substantial performance improvements, with some models reaching performance comparable to proprietary GPT-4o while maintaining superior factual accuracy. Our work establishes a reliable foundation for fine-grained action understanding in domestic robotics, enabling robots to safely interpret human behavior through information-dense yet factually grounded descriptions. Source code, training configurations, annotation prompts, and dataset details are released at https://github.com/Haodi-Liu/GPS-Gold-Point-Sniper.

翻译：暂无翻译

0

相关内容

可理解性

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

专知会员服务

14+阅读 · 6月16日

《人机协作中的自适应任务规划与动态角色分配》最新30页报告

《人机协作中的自适应任务规划与动态角色分配》最新30页报告

专知会员服务

27+阅读 · 2025年11月21日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

CVPR 2025 Highlight | OmniManip：以对象为中心的机器人通用操作框架

CVPR 2025 Highlight | OmniManip：以对象为中心的机器人通用操作框架

专知会员服务

9+阅读 · 2025年4月15日

【AI/脑机接口+军事】含论文+ppt《基于可穿戴大脑和身体传感的用于认知负荷和训练的多模态评估方法》，美国德雷塞尔大学、洛克希德马丁、宾夕法尼亚大学等

【AI/脑机接口+军事】含论文+ppt《基于可穿戴大脑和身体传感的用于认知负荷和训练的多模态评估方法》，美国德雷塞尔大学、洛克希德马丁、宾夕法尼亚大学等

专知会员服务

67+阅读 · 2022年4月7日

【USC-Aaron Chan博士答辩Slides】可信自然语言处理机器解释的生成与利用, 242页ppt，Generating and Utilizing Machine Explanations for Trustworthy NLP

【USC-Aaron Chan博士答辩Slides】可信自然语言处理机器解释的生成与利用, 242页ppt，Generating and Utilizing Machine Explanations for Trustworthy NLP

专知会员服务

16+阅读 · 2022年3月13日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

【ICML2019 tutorial】主动学习:从理论到实践（Active Learning: From Theory to Practice），Robert Nowak，Steve Hanneke

【ICML2019 tutorial】主动学习:从理论到实践（Active Learning: From Theory to Practice），Robert Nowak，Steve Hanneke

专知会员服务

48+阅读 · 2019年6月10日

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

机器之心

15+阅读 · 2019年9月3日

【泡泡一分钟】单目视觉惯性SLAM的重定位，全局优化和地图融合

【泡泡一分钟】单目视觉惯性SLAM的重定位，全局优化和地图融合

泡泡机器人SLAM

59+阅读 · 2019年7月15日

【泡泡一分钟】基于合成数据训练的卷积神经网络的目标检测与姿态估计

【泡泡一分钟】基于合成数据训练的卷积神经网络的目标检测与姿态估计

泡泡机器人SLAM

13+阅读 · 2019年5月8日

【泡泡一分钟】优化对比度增强以提高SLAM重定位环境中视觉跟踪的稳健性

【泡泡一分钟】优化对比度增强以提高SLAM重定位环境中视觉跟踪的稳健性

泡泡机器人SLAM

10+阅读 · 2019年4月26日

从虚拟到现实，北大等提出基于强化学习的端到端主动目标跟踪方法

从虚拟到现实，北大等提出基于强化学习的端到端主动目标跟踪方法

机器之心

23+阅读 · 2019年4月13日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【泡泡一分钟】Trifo-VIO：使用点和线的稳健且高效的双目视觉惯导里程计

【泡泡一分钟】Trifo-VIO：使用点和线的稳健且高效的双目视觉惯导里程计

泡泡机器人SLAM

13+阅读 · 2018年12月20日

【泡泡图灵智库】密集相关的自监督视觉描述学习（RAL）

【泡泡图灵智库】密集相关的自监督视觉描述学习（RAL）

泡泡机器人SLAM

11+阅读 · 2018年10月6日

IJCAI 2018 | 腾讯知文等提出新型生成式摘要模型：结合主题信息和强化训练生成更优摘要

IJCAI 2018 | 腾讯知文等提出新型生成式摘要模型：结合主题信息和强化训练生成更优摘要

机器之心

12+阅读 · 2018年5月18日

共融机器人战略规划研究和学术交流

国家自然科学基金

15+阅读 · 2016年12月31日

融合人脑意图与力觉反馈的外骨骼机器人步态控制CPG模型及调节方法

国家自然科学基金

0+阅读 · 2015年12月31日

改进智能优化策略多机动目标跟踪方法研究

国家自然科学基金

20+阅读 · 2015年12月31日

康复外骨骼机器人主-从无约束辅助行走训练中生物反馈信息的量化表征方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

CGF战场空间认知行为建模研究

国家自然科学基金

51+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

From Pixels to Concepts: Growing Rich 3D Semantic Scene Graph Forests utilizing Foundation Models

Arxiv

0+阅读 · 6月22日

NeuPAN: Direct Point Robot Navigation with End-to-End Model-based Learning

Arxiv

0+阅读 · 6月20日

HumanHalo -- Safe and Efficient 3D Navigation Among Humans via Minimally Conservative MPC

Arxiv

0+阅读 · 6月19日

Overcoming Imperfect Kinematics in Surgical Robotics Through Sim-to-Real Visuomotor Learning

Arxiv

0+阅读 · 6月19日

Vesta: A Generalist Embodied Reasoning Model

Arxiv

0+阅读 · 6月18日

AI-Driven Assessment of Human Tutors: Linking Training Performance to Real-Life Practice

Arxiv

0+阅读 · 6月17日

MolmoMotion: Forecasting Point Trajectories in 3D with Language Instruction

Arxiv

0+阅读 · 6月17日

Recover, Discover, Plan: Learning Skills and Concepts from Robot Failures

Arxiv

0+阅读 · 6月16日

Visual Verification Enables Inference-time Steering and Autonomous Policy Improvement

Arxiv

0+阅读 · 6月16日

Optimizing Reusable Knowledge for Continual Learning via Metalearning

Arxiv

15+阅读 · 2021年6月9日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

3+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

专知会员服务

14+阅读 · 6月16日

《人机协作中的自适应任务规划与动态角色分配》最新30页报告

《人机协作中的自适应任务规划与动态角色分配》最新30页报告

专知会员服务

27+阅读 · 2025年11月21日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

CVPR 2025 Highlight | OmniManip：以对象为中心的机器人通用操作框架

CVPR 2025 Highlight | OmniManip：以对象为中心的机器人通用操作框架

专知会员服务

9+阅读 · 2025年4月15日

【AI/脑机接口+军事】含论文+ppt《基于可穿戴大脑和身体传感的用于认知负荷和训练的多模态评估方法》，美国德雷塞尔大学、洛克希德马丁、宾夕法尼亚大学等

【AI/脑机接口+军事】含论文+ppt《基于可穿戴大脑和身体传感的用于认知负荷和训练的多模态评估方法》，美国德雷塞尔大学、洛克希德马丁、宾夕法尼亚大学等

专知会员服务

67+阅读 · 2022年4月7日

【USC-Aaron Chan博士答辩Slides】可信自然语言处理机器解释的生成与利用, 242页ppt，Generating and Utilizing Machine Explanations for Trustworthy NLP

【USC-Aaron Chan博士答辩Slides】可信自然语言处理机器解释的生成与利用, 242页ppt，Generating and Utilizing Machine Explanations for Trustworthy NLP

专知会员服务

16+阅读 · 2022年3月13日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

【ICML2019 tutorial】主动学习:从理论到实践（Active Learning: From Theory to Practice），Robert Nowak，Steve Hanneke

【ICML2019 tutorial】主动学习:从理论到实践（Active Learning: From Theory to Practice），Robert Nowak，Steve Hanneke

专知会员服务

48+阅读 · 2019年6月10日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

机器之心

15+阅读 · 2019年9月3日

【泡泡一分钟】单目视觉惯性SLAM的重定位，全局优化和地图融合

【泡泡一分钟】单目视觉惯性SLAM的重定位，全局优化和地图融合

泡泡机器人SLAM

59+阅读 · 2019年7月15日

【泡泡一分钟】基于合成数据训练的卷积神经网络的目标检测与姿态估计

【泡泡一分钟】基于合成数据训练的卷积神经网络的目标检测与姿态估计

泡泡机器人SLAM

13+阅读 · 2019年5月8日

【泡泡一分钟】优化对比度增强以提高SLAM重定位环境中视觉跟踪的稳健性

【泡泡一分钟】优化对比度增强以提高SLAM重定位环境中视觉跟踪的稳健性

泡泡机器人SLAM

10+阅读 · 2019年4月26日

从虚拟到现实，北大等提出基于强化学习的端到端主动目标跟踪方法

从虚拟到现实，北大等提出基于强化学习的端到端主动目标跟踪方法

机器之心

23+阅读 · 2019年4月13日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【泡泡一分钟】Trifo-VIO：使用点和线的稳健且高效的双目视觉惯导里程计

【泡泡一分钟】Trifo-VIO：使用点和线的稳健且高效的双目视觉惯导里程计

泡泡机器人SLAM

13+阅读 · 2018年12月20日

【泡泡图灵智库】密集相关的自监督视觉描述学习（RAL）

【泡泡图灵智库】密集相关的自监督视觉描述学习（RAL）

泡泡机器人SLAM

11+阅读 · 2018年10月6日

IJCAI 2018 | 腾讯知文等提出新型生成式摘要模型：结合主题信息和强化训练生成更优摘要

IJCAI 2018 | 腾讯知文等提出新型生成式摘要模型：结合主题信息和强化训练生成更优摘要

机器之心

12+阅读 · 2018年5月18日

相关论文

From Pixels to Concepts: Growing Rich 3D Semantic Scene Graph Forests utilizing Foundation Models

Arxiv

0+阅读 · 6月22日

NeuPAN: Direct Point Robot Navigation with End-to-End Model-based Learning

Arxiv

0+阅读 · 6月20日

HumanHalo -- Safe and Efficient 3D Navigation Among Humans via Minimally Conservative MPC

Arxiv

0+阅读 · 6月19日

Overcoming Imperfect Kinematics in Surgical Robotics Through Sim-to-Real Visuomotor Learning

Arxiv

0+阅读 · 6月19日

Vesta: A Generalist Embodied Reasoning Model

Arxiv

0+阅读 · 6月18日

AI-Driven Assessment of Human Tutors: Linking Training Performance to Real-Life Practice

Arxiv

0+阅读 · 6月17日

MolmoMotion: Forecasting Point Trajectories in 3D with Language Instruction

Arxiv

0+阅读 · 6月17日

Recover, Discover, Plan: Learning Skills and Concepts from Robot Failures

Arxiv

0+阅读 · 6月16日

Visual Verification Enables Inference-time Steering and Autonomous Policy Improvement

Arxiv

0+阅读 · 6月16日

Optimizing Reusable Knowledge for Continual Learning via Metalearning

Arxiv

15+阅读 · 2021年6月9日

相关基金

共融机器人战略规划研究和学术交流

国家自然科学基金

15+阅读 · 2016年12月31日

融合人脑意图与力觉反馈的外骨骼机器人步态控制CPG模型及调节方法

国家自然科学基金

0+阅读 · 2015年12月31日

改进智能优化策略多机动目标跟踪方法研究

国家自然科学基金

20+阅读 · 2015年12月31日

康复外骨骼机器人主-从无约束辅助行走训练中生物反馈信息的量化表征方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

CGF战场空间认知行为建模研究

国家自然科学基金

51+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员