《递我的杯子！基于视觉注意力提示的视觉-语言-动作模型个性化方法》 (Bring My Cup! Personalizing Vision-Language-Action Models with Visual Attentive Prompting) - 专知论文

会员服务 ·

0

视觉注意 · 视觉注意力 · 注意力提示 · 操作 · 识别 ·

2025 年 12 月 23 日

Bring My Cup! Personalizing Vision-Language-Action Models with Visual Attentive Prompting

翻译：《递我的杯子！基于视觉注意力提示的视觉-语言-动作模型个性化方法》

Sangoh Lee,Sangwoo Mo,Wook-Shin Han

While Vision-Language-Action (VLA) models generalize well to generic instructions, they struggle with personalized commands such as "bring my cup", where the robot must act on one specific instance among visually similar objects. We study this setting of manipulating personal objects, in which a VLA must identify and control a user-specific object unseen during training using only a few reference images. To address this challenge, we propose Visual Attentive Prompting (VAP), a simple-yet-effective training-free perceptual adapter that equips frozen VLAs with top-down selective attention. VAP treats the reference images as a non-parametric visual memory, grounds the personal object in the scene through open-vocabulary detection and embedding-based matching, and then injects this grounding as a visual prompt by highlighting the object and rewriting the instruction. We construct two simulation benchmarks, Personalized-SIMPLER and Personalized-VLABench, and a real-world tabletop benchmark to evaluate personalized manipulation across multiple robots and tasks. Experiments show that VAP consistently outperforms generic policies and token-learning baselines in both success rate and correct-object manipulation, helping to bridge the gap between semantic understanding and instance-level control.

翻译：尽管视觉-语言-动作（VLA）模型能够较好地泛化至通用指令，但在处理如“递我的杯子”这类个性化指令时仍面临困难——机器人需在视觉相似的物体中识别并操作特定实例。本研究聚焦于个性化物体操控场景：VLA模型需仅凭少量参考图像，识别并操控训练阶段未见过、属于特定用户的物体。为解决这一挑战，我们提出视觉注意力提示（VAP），这是一种简单而有效的免训练感知适配器，能为冻结的VLA模型注入自上而下的选择性注意力。VAP将参考图像视为非参数化视觉记忆，通过开放词汇检测与基于嵌入的匹配在场景中定位个性化物体，随后通过高亮目标物体并重写指令的方式，将该定位信息作为视觉提示注入模型。我们构建了两个模拟基准测试集（Personalized-SIMPLER与Personalized-VLABench）及一个真实世界桌面操作基准，用于评估跨多机器人平台与任务类型的个性化操控性能。实验表明，VAP在任务成功率与正确物体操作率上均持续优于通用策略及基于令牌学习的基线方法，有助于弥合语义理解与实例级控制之间的鸿沟。

0

相关内容

视觉注意

面向具身操作的高效视觉–语言–动作模型：系统综述

面向具身操作的高效视觉–语言–动作模型：系统综述

专知会员服务

24+阅读 · 2025年10月22日

《跨时空与跨模态学习事件模式构建体系（LESTAT）》57页DARPA研究报告

《跨时空与跨模态学习事件模式构建体系（LESTAT）》57页DARPA研究报告

专知会员服务

26+阅读 · 2025年7月13日

【CVPR2025】CrayonRobo：面向机器人操作的以对象为中心的提示驱动视觉-语言-动作模型

【CVPR2025】CrayonRobo：面向机器人操作的以对象为中心的提示驱动视觉-语言-动作模型

专知会员服务

10+阅读 · 2025年5月6日

《Med3DVLM：面向三维医学图像分析的高效视觉-语言模型》

《Med3DVLM：面向三维医学图像分析的高效视觉-语言模型》

专知会员服务

9+阅读 · 2025年3月27日

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

专知会员服务

41+阅读 · 2025年3月9日

《探索用于场景生成的大型语言模型：支持 C2SIM 自主系统本体扩展开发》

《探索用于场景生成的大型语言模型：支持 C2SIM 自主系统本体扩展开发》

专知会员服务

58+阅读 · 2024年12月24日

《作战智能体：历史战役的多模态动态仿真以补充历史分析》大型视觉语言模型（VLM）和多智能体系统（MAS）的详细仿真演示系统

《作战智能体：历史战役的多模态动态仿真以补充历史分析》大型视觉语言模型（VLM）和多智能体系统（MAS）的详细仿真演示系统

专知会员服务

90+阅读 · 2024年5月24日

《基于大模型的智能体决策：利用大型语言模型指令仿真现实人类活动》CMU2023最新29页报告

《基于大模型的智能体决策：利用大型语言模型指令仿真现实人类活动》CMU2023最新29页报告

专知会员服务

129+阅读 · 2023年12月15日

《多模态3D场景理解》最新综述

《多模态3D场景理解》最新综述

专知会员服务

191+阅读 · 2023年10月28日

美海军《表征军事领域的新奇性》开发和评估对新事物具有鲁棒性的智能体；DARPA人工智能科学和开放世界新事物学习（SAIL-ON）项目

美海军《表征军事领域的新奇性》开发和评估对新事物具有鲁棒性的智能体；DARPA人工智能科学和开放世界新事物学习（SAIL-ON）项目

专知会员服务

32+阅读 · 2023年3月1日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

26+阅读 · 2022年11月24日

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

专知

54+阅读 · 2022年6月2日

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

专知

11+阅读 · 2021年4月23日

最新《知识驱动的文本生成》综述论文，44页pdf

最新《知识驱动的文本生成》综述论文，44页pdf

专知

25+阅读 · 2020年10月14日

初学者系列：Deep FM详解

初学者系列：Deep FM详解

专知

110+阅读 · 2019年8月26日

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

开放知识图谱

22+阅读 · 2018年9月26日

CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记

CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记

统计学习与视觉计算组

44+阅读 · 2018年4月25日

实战 | 基于深度学习模型VGG的图像识别（附代码）

实战 | 基于深度学习模型VGG的图像识别（附代码）

七月在线实验室

13+阅读 · 2018年3月30日

FAIR何恺明团队提出全景分割，开辟图像分割新方向（附论文）

FAIR何恺明团队提出全景分割，开辟图像分割新方向（附论文）

论智

12+阅读 · 2018年1月5日

机器翻译新时代：Facebook 开源无监督机器翻译模型和大规模训练语料

机器翻译新时代：Facebook 开源无监督机器翻译模型和大规模训练语料

机器学习研究会

12+阅读 · 2017年12月24日

2D/3D视觉信息融合仿生SLAM关键问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于稀疏表示和低秩矩阵分解的鲁棒人脸识别研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于稀疏表达理论和RGBD图像的人脸表情识别

国家自然科学基金

0+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

46+阅读 · 2015年12月31日

基于上下文感知和异质特征集成的SAR图像分割与评价

国家自然科学基金

2+阅读 · 2015年12月31日

基于非对称群体兴趣相关性并融合情境与群体信任的Web服务推荐研究

国家自然科学基金

1+阅读 · 2015年12月31日

CGF战场空间认知行为建模研究

国家自然科学基金

51+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

基于机器学习的人脑MR图像结构区域层次化自动标记方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

Bring My Cup! Personalizing Vision-Language-Action Models with Visual Attentive Prompting

Arxiv

0+阅读 · 1月29日

GOFAI meets Generative AI: Development of Expert Systems by means of Large Language Models

Arxiv

0+阅读 · 1月27日

LangForce: Bayesian Decomposition of Vision Language Action Models via Latent Action Queries

Arxiv

0+阅读 · 1月24日

BayesianVLA: Bayesian Decomposition of Vision Language Action Models via Latent Action Queries

Arxiv

0+阅读 · 1月22日

Tackling the Scaffolding Paradox: A Person-Centered Adaptive Robotic Interview Coach

Arxiv

0+阅读 · 1月22日

Taming the Long-Tail: Efficient Reasoning RL Training with Adaptive Drafter

Arxiv

0+阅读 · 1月21日

LiViBench: An Omnimodal Benchmark for Interactive Livestream Video Understanding

Arxiv

0+阅读 · 1月21日

Generative Personality Simulation via Theory-Informed Structured Interview

Arxiv

0+阅读 · 1月20日

LLM-Based Agentic Systems for Software Engineering: Challenges and Opportunities

Arxiv

0+阅读 · 1月19日

Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization

Arxiv

0+阅读 · 1月19日

VIP会员

文章信息

相关主题

视觉注意力

注意力提示

相关VIP内容

面向具身操作的高效视觉–语言–动作模型：系统综述

面向具身操作的高效视觉–语言–动作模型：系统综述

专知会员服务

24+阅读 · 2025年10月22日

《跨时空与跨模态学习事件模式构建体系（LESTAT）》57页DARPA研究报告

《跨时空与跨模态学习事件模式构建体系（LESTAT）》57页DARPA研究报告

专知会员服务

26+阅读 · 2025年7月13日

【CVPR2025】CrayonRobo：面向机器人操作的以对象为中心的提示驱动视觉-语言-动作模型

【CVPR2025】CrayonRobo：面向机器人操作的以对象为中心的提示驱动视觉-语言-动作模型

专知会员服务

10+阅读 · 2025年5月6日

《Med3DVLM：面向三维医学图像分析的高效视觉-语言模型》

《Med3DVLM：面向三维医学图像分析的高效视觉-语言模型》

专知会员服务

9+阅读 · 2025年3月27日

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

专知会员服务

41+阅读 · 2025年3月9日

《探索用于场景生成的大型语言模型：支持 C2SIM 自主系统本体扩展开发》

《探索用于场景生成的大型语言模型：支持 C2SIM 自主系统本体扩展开发》

专知会员服务

58+阅读 · 2024年12月24日

《作战智能体：历史战役的多模态动态仿真以补充历史分析》大型视觉语言模型（VLM）和多智能体系统（MAS）的详细仿真演示系统

《作战智能体：历史战役的多模态动态仿真以补充历史分析》大型视觉语言模型（VLM）和多智能体系统（MAS）的详细仿真演示系统

专知会员服务

90+阅读 · 2024年5月24日

《基于大模型的智能体决策：利用大型语言模型指令仿真现实人类活动》CMU2023最新29页报告

《基于大模型的智能体决策：利用大型语言模型指令仿真现实人类活动》CMU2023最新29页报告

专知会员服务

129+阅读 · 2023年12月15日

《多模态3D场景理解》最新综述

《多模态3D场景理解》最新综述

专知会员服务

191+阅读 · 2023年10月28日

美海军《表征军事领域的新奇性》开发和评估对新事物具有鲁棒性的智能体；DARPA人工智能科学和开放世界新事物学习（SAIL-ON）项目

美海军《表征军事领域的新奇性》开发和评估对新事物具有鲁棒性的智能体；DARPA人工智能科学和开放世界新事物学习（SAIL-ON）项目

专知会员服务

32+阅读 · 2023年3月1日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人机与战争：被忽视的环境影响及无人机保护潜力》

俄罗斯规划未来无人机驱动军队

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

《人工智能、武器与影响力：前沿模型在模拟核危机中展现复杂推理》2026最新46页报告

相关资讯

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

26+阅读 · 2022年11月24日

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

专知

54+阅读 · 2022年6月2日

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

专知

11+阅读 · 2021年4月23日

最新《知识驱动的文本生成》综述论文，44页pdf

最新《知识驱动的文本生成》综述论文，44页pdf

专知

25+阅读 · 2020年10月14日

初学者系列：Deep FM详解

初学者系列：Deep FM详解

专知

110+阅读 · 2019年8月26日

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

开放知识图谱

22+阅读 · 2018年9月26日

CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记

CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记

统计学习与视觉计算组

44+阅读 · 2018年4月25日

实战 | 基于深度学习模型VGG的图像识别（附代码）

实战 | 基于深度学习模型VGG的图像识别（附代码）

七月在线实验室

13+阅读 · 2018年3月30日

FAIR何恺明团队提出全景分割，开辟图像分割新方向（附论文）

FAIR何恺明团队提出全景分割，开辟图像分割新方向（附论文）

论智

12+阅读 · 2018年1月5日

机器翻译新时代：Facebook 开源无监督机器翻译模型和大规模训练语料

机器翻译新时代：Facebook 开源无监督机器翻译模型和大规模训练语料

机器学习研究会

12+阅读 · 2017年12月24日

相关论文

Bring My Cup! Personalizing Vision-Language-Action Models with Visual Attentive Prompting

Arxiv

0+阅读 · 1月29日

GOFAI meets Generative AI: Development of Expert Systems by means of Large Language Models

Arxiv

0+阅读 · 1月27日

LangForce: Bayesian Decomposition of Vision Language Action Models via Latent Action Queries

Arxiv

0+阅读 · 1月24日

BayesianVLA: Bayesian Decomposition of Vision Language Action Models via Latent Action Queries

Arxiv

0+阅读 · 1月22日

Tackling the Scaffolding Paradox: A Person-Centered Adaptive Robotic Interview Coach

Arxiv

0+阅读 · 1月22日

Taming the Long-Tail: Efficient Reasoning RL Training with Adaptive Drafter

Arxiv

0+阅读 · 1月21日

LiViBench: An Omnimodal Benchmark for Interactive Livestream Video Understanding

Arxiv

0+阅读 · 1月21日

Generative Personality Simulation via Theory-Informed Structured Interview

Arxiv

0+阅读 · 1月20日

LLM-Based Agentic Systems for Software Engineering: Challenges and Opportunities

Arxiv

0+阅读 · 1月19日

Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization

Arxiv

0+阅读 · 1月19日

相关基金

2D/3D视觉信息融合仿生SLAM关键问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于稀疏表示和低秩矩阵分解的鲁棒人脸识别研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于稀疏表达理论和RGBD图像的人脸表情识别

国家自然科学基金

0+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

46+阅读 · 2015年12月31日

基于上下文感知和异质特征集成的SAR图像分割与评价

国家自然科学基金

2+阅读 · 2015年12月31日

基于非对称群体兴趣相关性并融合情境与群体信任的Web服务推荐研究

国家自然科学基金

1+阅读 · 2015年12月31日

CGF战场空间认知行为建模研究

国家自然科学基金

51+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

基于机器学习的人脑MR图像结构区域层次化自动标记方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员