Zero-shot Interactive Perception - 专知论文

会员服务 ·

0

交互 · IP · 交互感知 · 样本 · 零样本 ·

Zero-shot Interactive Perception

翻译：零样本交互感知

Venkatesh Sripada,Frank Guerin,Amir Ghalamzan

from arxiv, Original manuscript submitted on April 24, 2025. Timestamped and publicly available on OpenReview: https://openreview.net/forum?id=7MhpFcr5Nx

Interactive perception (IP) enables robots to extract hidden information in their workspace and execute manipulation plans by physically interacting with objects and altering the state of the environment -- crucial for resolving occlusions and ambiguity in complex, partially observable scenarios. We present Zero-Shot IP (ZS-IP), a novel framework that couples multi-strategy manipulation (pushing and grasping) with a memory-driven Vision Language Model (VLM) to guide robotic interactions and resolve semantic queries. ZS-IP integrates three key components: (1) an Enhanced Observation (EO) module that augments the VLM's visual perception with both conventional keypoints and our proposed pushlines -- a novel 2D visual augmentation tailored to pushing actions, (2) a memory-guided action module that reinforces semantic reasoning through context lookup, and (3) a robotic controller that executes pushing, pulling, or grasping based on VLM output. Unlike grid-based augmentations optimized for pick-and-place, pushlines capture affordances for contact-rich actions, substantially improving pushing performance. We evaluate ZS-IP on a 7-DOF Franka Panda arm across diverse scenes with varying occlusions and task complexities. Our experiments demonstrate that ZS-IP outperforms passive and viewpoint-based perception techniques such as Mark-Based Visual Prompting (MOKA), particularly in pushing tasks, while preserving the integrity of non-target elements.

翻译：交互感知（IP）使机器人能够通过物理交互改变物体与环境状态，从而提取工作空间中隐藏的信息并执行操控规划——这对于解决复杂、部分可观测场景中的遮挡与模糊性问题至关重要。本文提出零样本交互感知（ZS-IP），这是一个将多策略操控（推动与抓取）与记忆驱动的视觉语言模型（VLM）相结合的新型框架，用于引导机器人交互并解析语义查询。ZS-IP包含三个核心组件：（1）增强观测（EO）模块，通过传统关键点与我们提出的推进行迹（一种专为推动动作设计的二维视觉增强表征）来提升VLM的视觉感知能力；（2）记忆引导动作模块，通过上下文检索强化语义推理；（3）机器人控制器，根据VLM输出执行推动、拉动或抓取动作。与针对抓放任务优化的网格增强方法不同，推进行迹能够捕捉密集接触动作的功能特性，显著提升推动任务性能。我们在配备7自由度Franka Panda机械臂的多样化场景中评估ZS-IP，这些场景具有不同程度的遮挡与任务复杂度。实验表明，ZS-IP在推动任务中显著优于被动感知与基于视角的感知方法（如Mark-Based Visual Prompting (MOKA)），同时能保持非目标元素的完整性。

0

相关内容

组合式零样本学习综述

组合式零样本学习综述

专知会员服务

17+阅读 · 2025年11月7日

【伯克利博士论文】零样本机器人感知的视觉-语言表示，74页pdf

【伯克利博士论文】零样本机器人感知的视觉-语言表示，74页pdf

专知会员服务

30+阅读 · 2024年5月13日

【CVPR2024】渐进式语义引导视觉变换器用于零样本学习

【CVPR2024】渐进式语义引导视觉变换器用于零样本学习

专知会员服务

19+阅读 · 2024年4月13日

【ISWC 2022教程】知识感知零样本学习(K-ZSL): 概念、方法和资源，237页ppt

【ISWC 2022教程】知识感知零样本学习(K-ZSL): 概念、方法和资源，237页ppt

专知会员服务

37+阅读 · 2022年11月1日

【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络

【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络

专知会员服务

21+阅读 · 2022年3月8日

【NeuraIPS2021】HSVA:面向零样本学习的分层语义视觉自适应

专知会员服务

14+阅读 · 2021年10月1日

【WWW2021】本体增强零样本学习

【WWW2021】本体增强零样本学习

专知会员服务

37+阅读 · 2021年2月26日

基于知识的零样本视觉识别任务综述

专知会员服务

51+阅读 · 2020年12月26日

【异构图迁移的零样本学习】Heterogeneous Graph-based Knowledge Transfer for Generalized Zero-shot Learning

【异构图迁移的零样本学习】Heterogeneous Graph-based Knowledge Transfer for Generalized Zero-shot Learning

专知会员服务

66+阅读 · 2020年4月17日

【视频中的零样本动作识别：综述】Zero-Shot Action Recognition in Videos: A Survey

【视频中的零样本动作识别：综述】Zero-Shot Action Recognition in Videos: A Survey

专知会员服务

39+阅读 · 2019年10月12日

零样本文本分类，Zero-Shot Learning for Text Classification

零样本文本分类，Zero-Shot Learning for Text Classification

专知

16+阅读 · 2020年5月31日

小样本也能增量学习？CVPR 2020 Oral最新干货：小样本类增量学习

小样本也能增量学习？CVPR 2020 Oral最新干货：小样本类增量学习

CVer

54+阅读 · 2020年5月1日

零样本图像识别综述论文

零样本图像识别综述论文

专知

22+阅读 · 2020年4月4日

【Google AI-Luong】无标记数据学习, 83ppt, 一致性学习与自监督学习是什么？

【Google AI-Luong】无标记数据学习, 83ppt, 一致性学习与自监督学习是什么？

专知

12+阅读 · 2020年3月5日

新加坡南洋理工最新37页《零样本学习综述》论文

新加坡南洋理工最新37页《零样本学习综述》论文

专知

104+阅读 · 2019年2月27日

Zero-Shot Learning相关资源大列表

Zero-Shot Learning相关资源大列表

专知

52+阅读 · 2019年1月1日

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

开放知识图谱

22+阅读 · 2018年9月26日

CVPR 2018 | 伯克利等提出无监督特征学习新方法，代码已开源

CVPR 2018 | 伯克利等提出无监督特征学习新方法，代码已开源

AI前线

12+阅读 · 2018年5月13日

交互设计理论：视觉感知、认知摩擦、认知负荷和情境认知

交互设计理论：视觉感知、认知摩擦、认知负荷和情境认知

人人都是产品经理

20+阅读 · 2018年5月10日

【团队新作】连续情感识别，精准捕捉你的小情绪！

【团队新作】连续情感识别，精准捕捉你的小情绪！

中国科学院自动化研究所

16+阅读 · 2018年4月17日

群智感知中基于可信交互的细粒度众包机制研究

国家自然科学基金

1+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于MEMS加速度传感器的智能终端手势识别及三维交互模型

国家自然科学基金

6+阅读 · 2015年12月31日

基于无线传感网的工业人机交互网络移动接入与动态路由机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于零相关序列的精确同步方法及其在航空集群交感网络中的应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

基于环境异质信息的机器觉察与仿生知觉方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

无线认知传感器网络中时空相关频谱感知算法研究

国家自然科学基金

2+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

Zero-Shot Adaptation of Behavioral Foundation Models to Unseen Dynamics

Arxiv

0+阅读 · 5月4日

High-Speed Vision Improves Zero-Shot Semantic Understanding of Human Actions

Arxiv

0+阅读 · 5月1日

Towards Unconstrained Human-Object Interaction

Arxiv

0+阅读 · 4月15日

Cross-Modal Visuo-Tactile Object Perception

Arxiv

0+阅读 · 4月2日

Zero-Shot Depth from Defocus

Arxiv

0+阅读 · 3月27日

MolmoB0T: Large-Scale Simulation Enables Zero-Shot Manipulation

Arxiv

0+阅读 · 3月26日

Schrödinger's Navigator: Imagining an Ensemble of Futures for Zero-Shot Object Navigation

Arxiv

0+阅读 · 3月24日

Zero-Shot Generalization from Motion Demonstrations to New Tasks

Arxiv

0+阅读 · 3月16日

A Unified Framework for Zero-Shot Reinforcement Learning

Arxiv

0+阅读 · 3月9日

Evaluating Zero-Shot and One-Shot Adaptation of Small Language Models in Leader-Follower Interaction

Arxiv

0+阅读 · 2月26日

VIP会员

文章信息

相关主题

最新内容

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

3+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

3+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

4+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

5+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

14+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

7+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

8+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

8+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

11+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

6+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

6+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

8+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

6+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

6+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

10+阅读 · 5月29日

相关VIP内容

组合式零样本学习综述

组合式零样本学习综述

专知会员服务

17+阅读 · 2025年11月7日

【伯克利博士论文】零样本机器人感知的视觉-语言表示，74页pdf

【伯克利博士论文】零样本机器人感知的视觉-语言表示，74页pdf

专知会员服务

30+阅读 · 2024年5月13日

【CVPR2024】渐进式语义引导视觉变换器用于零样本学习

【CVPR2024】渐进式语义引导视觉变换器用于零样本学习

专知会员服务

19+阅读 · 2024年4月13日

【ISWC 2022教程】知识感知零样本学习(K-ZSL): 概念、方法和资源，237页ppt

【ISWC 2022教程】知识感知零样本学习(K-ZSL): 概念、方法和资源，237页ppt

专知会员服务

37+阅读 · 2022年11月1日

【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络

【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络

专知会员服务

21+阅读 · 2022年3月8日

【NeuraIPS2021】HSVA:面向零样本学习的分层语义视觉自适应

专知会员服务

14+阅读 · 2021年10月1日

【WWW2021】本体增强零样本学习

【WWW2021】本体增强零样本学习

专知会员服务

37+阅读 · 2021年2月26日

基于知识的零样本视觉识别任务综述

专知会员服务

51+阅读 · 2020年12月26日

【异构图迁移的零样本学习】Heterogeneous Graph-based Knowledge Transfer for Generalized Zero-shot Learning

【异构图迁移的零样本学习】Heterogeneous Graph-based Knowledge Transfer for Generalized Zero-shot Learning

专知会员服务

66+阅读 · 2020年4月17日

【视频中的零样本动作识别：综述】Zero-Shot Action Recognition in Videos: A Survey

【视频中的零样本动作识别：综述】Zero-Shot Action Recognition in Videos: A Survey

专知会员服务

39+阅读 · 2019年10月12日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

美以伊战争：首次人工智能战争——军事自主性困境

BES：让语言模型通过双向进化搜索自我改进

以色列-美国-伊朗战争中的无人机：关键要点

相关资讯

零样本文本分类，Zero-Shot Learning for Text Classification

零样本文本分类，Zero-Shot Learning for Text Classification

专知

16+阅读 · 2020年5月31日

小样本也能增量学习？CVPR 2020 Oral最新干货：小样本类增量学习

小样本也能增量学习？CVPR 2020 Oral最新干货：小样本类增量学习

CVer

54+阅读 · 2020年5月1日

零样本图像识别综述论文

零样本图像识别综述论文

专知

22+阅读 · 2020年4月4日

【Google AI-Luong】无标记数据学习, 83ppt, 一致性学习与自监督学习是什么？

【Google AI-Luong】无标记数据学习, 83ppt, 一致性学习与自监督学习是什么？

专知

12+阅读 · 2020年3月5日

新加坡南洋理工最新37页《零样本学习综述》论文

新加坡南洋理工最新37页《零样本学习综述》论文

专知

104+阅读 · 2019年2月27日

Zero-Shot Learning相关资源大列表

Zero-Shot Learning相关资源大列表

专知

52+阅读 · 2019年1月1日

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

开放知识图谱

22+阅读 · 2018年9月26日

CVPR 2018 | 伯克利等提出无监督特征学习新方法，代码已开源

CVPR 2018 | 伯克利等提出无监督特征学习新方法，代码已开源

AI前线

12+阅读 · 2018年5月13日

交互设计理论：视觉感知、认知摩擦、认知负荷和情境认知

交互设计理论：视觉感知、认知摩擦、认知负荷和情境认知

人人都是产品经理

20+阅读 · 2018年5月10日

【团队新作】连续情感识别，精准捕捉你的小情绪！

【团队新作】连续情感识别，精准捕捉你的小情绪！

中国科学院自动化研究所

16+阅读 · 2018年4月17日

相关论文

Zero-Shot Adaptation of Behavioral Foundation Models to Unseen Dynamics

Arxiv

0+阅读 · 5月4日

High-Speed Vision Improves Zero-Shot Semantic Understanding of Human Actions

Arxiv

0+阅读 · 5月1日

Towards Unconstrained Human-Object Interaction

Arxiv

0+阅读 · 4月15日

Cross-Modal Visuo-Tactile Object Perception

Arxiv

0+阅读 · 4月2日

Zero-Shot Depth from Defocus

Arxiv

0+阅读 · 3月27日

MolmoB0T: Large-Scale Simulation Enables Zero-Shot Manipulation

Arxiv

0+阅读 · 3月26日

Schrödinger's Navigator: Imagining an Ensemble of Futures for Zero-Shot Object Navigation

Arxiv

0+阅读 · 3月24日

Zero-Shot Generalization from Motion Demonstrations to New Tasks

Arxiv

0+阅读 · 3月16日

A Unified Framework for Zero-Shot Reinforcement Learning

Arxiv

0+阅读 · 3月9日

Evaluating Zero-Shot and One-Shot Adaptation of Small Language Models in Leader-Follower Interaction

Arxiv

0+阅读 · 2月26日

相关基金

群智感知中基于可信交互的细粒度众包机制研究

国家自然科学基金

1+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于MEMS加速度传感器的智能终端手势识别及三维交互模型

国家自然科学基金

6+阅读 · 2015年12月31日

基于无线传感网的工业人机交互网络移动接入与动态路由机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于零相关序列的精确同步方法及其在航空集群交感网络中的应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

基于环境异质信息的机器觉察与仿生知觉方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

无线认知传感器网络中时空相关频谱感知算法研究

国家自然科学基金

2+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员