注意力特征聚合：策略如何学会不再担忧鲁棒性并关注任务相关视觉线索 (Attentive Feature Aggregation or: How Policies Learn to Stop Worrying about Robustness and Attend to Task-Relevant Visual Cues) - 专知论文

会员服务 ·

0

鲁棒 · 特征聚合 · 池化 · 扰动 · 数据集增强 ·

Attentive Feature Aggregation or: How Policies Learn to Stop Worrying about Robustness and Attend to Task-Relevant Visual Cues

翻译：注意力特征聚合：策略如何学会不再担忧鲁棒性并关注任务相关视觉线索

Nikolaos Tsagkas,Andreas Sochopoulos,Duolikun Danier,Sethu Vijayakumar,Alexandros Kouris,Oisin Mac Aodha,Chris Xiaoxuan Lu

from arxiv, This paper stems from a split of our earlier work "When Pre-trained Visual Representations Fall Short: Limitations in Visuo-Motor Robot Learning." While "The Temporal Trap" replaces the original and focuses on temporal entanglement, this companion study examines policy robustness and task-relevant visual cue selection. arXiv admin note: text overlap with arXiv:2502.03270

The adoption of pre-trained visual representations (PVRs), leveraging features from large-scale vision models, has become a popular paradigm for training visuomotor policies. However, these powerful representations can encode a broad range of task-irrelevant scene information, making the resulting trained policies vulnerable to out-of-domain visual changes and distractors. In this work we address visuomotor policy feature pooling as a solution to the observed lack of robustness in perturbed scenes. We achieve this via Attentive Feature Aggregation (AFA), a lightweight, trainable pooling mechanism that learns to naturally attend to task-relevant visual cues, ignoring even semantically rich scene distractors. Through extensive experiments in both simulation and the real world, we demonstrate that policies trained with AFA significantly outperform standard pooling approaches in the presence of visual perturbations, without requiring expensive dataset augmentation or fine-tuning of the PVR. Our findings show that ignoring extraneous visual information is a crucial step towards deploying robust and generalisable visuomotor policies. Project Page: tsagkas.github.io/afa

翻译：利用大规模视觉模型特征的预训练视觉表征（PVRs）已成为训练视觉运动策略的流行范式。然而，这些强大的表征可能编码大量与任务无关的场景信息，导致训练出的策略在面对域外视觉变化和干扰物时表现脆弱。在本工作中，我们将视觉运动策略的特征池化视为解决扰动场景中观察到的鲁棒性不足的方案。我们通过注意力特征聚合（AFA）实现这一目标——这是一种轻量级、可训练的池化机制，能够学会自然地关注任务相关的视觉线索，甚至忽略语义丰富的场景干扰物。通过在仿真和真实世界中的大量实验，我们证明：在存在视觉扰动的情况下，采用AFA训练的策略显著优于标准池化方法，且无需昂贵的数据集增强或PVR微调。我们的研究结果表明，忽略无关视觉信息是实现鲁棒且可泛化视觉运动策略部署的关键步骤。项目页面：tsagkas.github.io/afa

0

相关内容

在无标注条件下适配视觉—语言模型：全面综述

在无标注条件下适配视觉—语言模型：全面综述

专知会员服务

13+阅读 · 2025年8月9日

面向视觉语言模型的持续学习：遗忘之外的综述与分类体系

面向视觉语言模型的持续学习：遗忘之外的综述与分类体系

专知会员服务

21+阅读 · 2025年8月9日

视觉语言模型泛化到新领域：全面综述

视觉语言模型泛化到新领域：全面综述

专知会员服务

38+阅读 · 2025年6月27日

【NeurIPS2024】注意力迁移对视觉Transformer的惊人有效性研究

【NeurIPS2024】注意力迁移对视觉Transformer的惊人有效性研究

专知会员服务

19+阅读 · 2024年11月16日

西安交大等最新《鲁棒视觉问题回答》综述，20页pdf详述RVQA数据集、方法和未来挑战

西安交大等最新《鲁棒视觉问题回答》综述，20页pdf详述RVQA数据集、方法和未来挑战

专知会员服务

21+阅读 · 2023年7月25日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

清华&南开最新「视觉注意力机制Attention」综述论文，带你全面了解六大类注意力机制方法

清华&南开最新「视觉注意力机制Attention」综述论文，带你全面了解六大类注意力机制方法

专知会员服务

99+阅读 · 2021年11月20日

最新《注意力机制与深度学习结合》综述论文

最新《注意力机制与深度学习结合》综述论文

专知会员服务

76+阅读 · 2021年6月17日

GRAPH-BERT ：学习图表示只需要注意力，GRAPH-BERT : Only Attention is Needed for Learning Graph Representations

GRAPH-BERT ：学习图表示只需要注意力，GRAPH-BERT : Only Attention is Needed for Learning Graph Representations

专知会员服务

78+阅读 · 2020年5月31日

【图机器学习论文】综述：图注意力模型（Attention Models in Graphs: A Survey）

【图机器学习论文】综述：图注意力模型（Attention Models in Graphs: A Survey）

专知会员服务

144+阅读 · 2019年12月16日

白话attention综述（上）

白话attention综述（上）

AINLP

12+阅读 · 2019年12月14日

【论文笔记】通过自注意力网络的动态图表示学习

【论文笔记】通过自注意力网络的动态图表示学习

专知

90+阅读 · 2019年12月2日

Attention！注意力机制模型最新综述（附下载）

Attention！注意力机制模型最新综述（附下载）

THU数据派

29+阅读 · 2019年4月13日

Attention！注意力机制模型最新综述

Attention！注意力机制模型最新综述

中国人工智能学会

18+阅读 · 2019年4月8日

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

专知

36+阅读 · 2019年2月20日

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

专知

10+阅读 · 2018年6月8日

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

专知

17+阅读 · 2018年6月7日

【论文推荐】最新七篇视觉问答（VQA）相关论文—差别注意力机制、视觉问题推理、视觉对话、数据可视化、记忆增强网络、显式推理

【论文推荐】最新七篇视觉问答（VQA）相关论文—差别注意力机制、视觉问题推理、视觉对话、数据可视化、记忆增强网络、显式推理

专知

17+阅读 · 2018年4月19日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文推荐】最新5篇图像分割相关论文—条件随机场和深度特征学习、移动端网络、长期视觉定位、主动学习、主动轮廓模型、生成对抗性网络

【论文推荐】最新5篇图像分割相关论文—条件随机场和深度特征学习、移动端网络、长期视觉定位、主动学习、主动轮廓模型、生成对抗性网络

专知

13+阅读 · 2018年1月23日

基于共性视觉特征与反馈机制的SAR图像目标检测方法研究

国家自然科学基金

3+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

主被动视角联合的细粒度行为识别

国家自然科学基金

1+阅读 · 2015年12月31日

视觉信息的局部特征表示及应用研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于记忆的不变图像特征学习方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

面向生物特征识别的鲁棒判别结构化特征表示方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

知觉学习影响视觉刺激显著性的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

Vision and Language: Novel Representations and Artificial intelligence for Driving Scene Safety Assessment and Autonomous Vehicle Planning

Arxiv

0+阅读 · 2月18日

Attention, Please! Revisiting Attentive Probing Through the Lens of Efficiency

Arxiv

0+阅读 · 2月18日

Grounding Bodily Awareness in Visual Representations for Efficient Policy Learning

Arxiv

0+阅读 · 2月14日

Revis: Sparse Latent Steering to Mitigate Object Hallucination in Large Vision-Language Models

Arxiv

0+阅读 · 2月12日

Attention to details, logits to truth: visual-aware attention and logits enhancement to mitigate hallucinations in LVLMs

Arxiv

0+阅读 · 2月10日

Vision and language: Novel Representations and Artificial intelligence for Driving Scene Safety Assessment and Autonomous Vehicle Planning

Arxiv

0+阅读 · 2月7日

Focus-Scan-Refine: From Human Visual Perception to Efficient Visual Token Pruning

Arxiv

0+阅读 · 2月5日

Beyond Static Cropping: Layer-Adaptive Visual Localization and Decoding Enhancement

Arxiv

0+阅读 · 2月4日

Segment to Focus: Guiding Latent Action Models in the Presence of Distractors

Arxiv

0+阅读 · 2月2日

Vision-Language Models Unlock Task-Centric Latent Actions

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

数据集增强

最新内容

《火力下的敏捷作战部署：定量与历史视角》120页

《火力下的敏捷作战部署：定量与历史视角》120页

专知会员服务

5+阅读 · 今天6:21

《作战研究是实现战场人工智能潜力的关键》

《作战研究是实现战场人工智能潜力的关键》

专知会员服务

7+阅读 · 今天6:08

《美空军技术学院：自动驾驶系统中的决策支持问题》

《美空军技术学院：自动驾驶系统中的决策支持问题》

专知会员服务

1+阅读 · 今天6:05

《日本军事能力转型方向（1）：防区外防御能力、一体化防空反导、太平洋地区及海上交通线防卫》

《日本军事能力转型方向（1）：防区外防御能力、一体化防空反导、太平洋地区及海上交通线防卫》

专知会员服务

2+阅读 · 今天5:59

《日本军事能力转型方向（2）：无人防御能力／空间领域／网络领域／电磁领域／指挥控制与通信》

《日本军事能力转型方向（2）：无人防御能力／空间领域／网络领域／电磁领域／指挥控制与通信》

专知会员服务

4+阅读 · 今天5:46

《军事训练与行动期间新鲜膳食营养保障》380页

《军事训练与行动期间新鲜膳食营养保障》380页

专知会员服务

2+阅读 · 今天5:40

伊朗战争时间线：关键节点与袭击事件

伊朗战争时间线：关键节点与袭击事件

专知会员服务

4+阅读 · 今天5:34

【剑桥博士论文】迈向高效、科学且普适的小语言模型开发之道

【剑桥博士论文】迈向高效、科学且普适的小语言模型开发之道

专知会员服务

10+阅读 · 4月7日

从预训练模型到大语言模型：人工智能驱动的心理计算综述

从预训练模型到大语言模型：人工智能驱动的心理计算综述

专知会员服务

8+阅读 · 4月7日

乌克兰-委内瑞拉-伊朗冲突：人工智能在现代军事行动中的飞速演进

乌克兰-委内瑞拉-伊朗冲突：人工智能在现代军事行动中的飞速演进

专知会员服务

13+阅读 · 4月7日

《对信息环境分析实现人工智能预测冲突》96页

《对信息环境分析实现人工智能预测冲突》96页

专知会员服务

7+阅读 · 4月7日

《面向海军应用的无人机网络安全仿真环境》

《面向海军应用的无人机网络安全仿真环境》

专知会员服务

11+阅读 · 4月7日

乌克兰部署新型拦截型无人机应对“沙希德”式威胁

乌克兰部署新型拦截型无人机应对“沙希德”式威胁

专知会员服务

7+阅读 · 4月7日

无人机与僵局：俄乌战争难以突破

无人机与僵局：俄乌战争难以突破

专知会员服务

4+阅读 · 4月7日

《美国海岸警卫队研发中心2026财年研究项目计划》40页slides

《美国海岸警卫队研发中心2026财年研究项目计划》40页slides

专知会员服务

9+阅读 · 4月7日

相关VIP内容

在无标注条件下适配视觉—语言模型：全面综述

在无标注条件下适配视觉—语言模型：全面综述

专知会员服务

13+阅读 · 2025年8月9日

面向视觉语言模型的持续学习：遗忘之外的综述与分类体系

面向视觉语言模型的持续学习：遗忘之外的综述与分类体系

专知会员服务

21+阅读 · 2025年8月9日

视觉语言模型泛化到新领域：全面综述

视觉语言模型泛化到新领域：全面综述

专知会员服务

38+阅读 · 2025年6月27日

【NeurIPS2024】注意力迁移对视觉Transformer的惊人有效性研究

【NeurIPS2024】注意力迁移对视觉Transformer的惊人有效性研究

专知会员服务

19+阅读 · 2024年11月16日

西安交大等最新《鲁棒视觉问题回答》综述，20页pdf详述RVQA数据集、方法和未来挑战

西安交大等最新《鲁棒视觉问题回答》综述，20页pdf详述RVQA数据集、方法和未来挑战

专知会员服务

21+阅读 · 2023年7月25日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

清华&南开最新「视觉注意力机制Attention」综述论文，带你全面了解六大类注意力机制方法

清华&南开最新「视觉注意力机制Attention」综述论文，带你全面了解六大类注意力机制方法

专知会员服务

99+阅读 · 2021年11月20日

最新《注意力机制与深度学习结合》综述论文

最新《注意力机制与深度学习结合》综述论文

专知会员服务

76+阅读 · 2021年6月17日

GRAPH-BERT ：学习图表示只需要注意力，GRAPH-BERT : Only Attention is Needed for Learning Graph Representations

GRAPH-BERT ：学习图表示只需要注意力，GRAPH-BERT : Only Attention is Needed for Learning Graph Representations

专知会员服务

78+阅读 · 2020年5月31日

【图机器学习论文】综述：图注意力模型（Attention Models in Graphs: A Survey）

【图机器学习论文】综述：图注意力模型（Attention Models in Graphs: A Survey）

专知会员服务

144+阅读 · 2019年12月16日

热门VIP内容

开通专知VIP会员享更多权益服务

《作战研究是实现战场人工智能潜力的关键》

《日本军事能力转型方向（1）：防区外防御能力、一体化防空反导、太平洋地区及海上交通线防卫》

《火力下的敏捷作战部署：定量与历史视角》120页

《美空军技术学院：自动驾驶系统中的决策支持问题》

相关资讯

白话attention综述（上）

白话attention综述（上）

AINLP

12+阅读 · 2019年12月14日

【论文笔记】通过自注意力网络的动态图表示学习

【论文笔记】通过自注意力网络的动态图表示学习

专知

90+阅读 · 2019年12月2日

Attention！注意力机制模型最新综述（附下载）

Attention！注意力机制模型最新综述（附下载）

THU数据派

29+阅读 · 2019年4月13日

Attention！注意力机制模型最新综述

Attention！注意力机制模型最新综述

中国人工智能学会

18+阅读 · 2019年4月8日

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

专知

36+阅读 · 2019年2月20日

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

专知

10+阅读 · 2018年6月8日

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

专知

17+阅读 · 2018年6月7日

【论文推荐】最新七篇视觉问答（VQA）相关论文—差别注意力机制、视觉问题推理、视觉对话、数据可视化、记忆增强网络、显式推理

【论文推荐】最新七篇视觉问答（VQA）相关论文—差别注意力机制、视觉问题推理、视觉对话、数据可视化、记忆增强网络、显式推理

专知

17+阅读 · 2018年4月19日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文推荐】最新5篇图像分割相关论文—条件随机场和深度特征学习、移动端网络、长期视觉定位、主动学习、主动轮廓模型、生成对抗性网络

【论文推荐】最新5篇图像分割相关论文—条件随机场和深度特征学习、移动端网络、长期视觉定位、主动学习、主动轮廓模型、生成对抗性网络

专知

13+阅读 · 2018年1月23日

相关论文

Vision and Language: Novel Representations and Artificial intelligence for Driving Scene Safety Assessment and Autonomous Vehicle Planning

Arxiv

0+阅读 · 2月18日

Attention, Please! Revisiting Attentive Probing Through the Lens of Efficiency

Arxiv

0+阅读 · 2月18日

Grounding Bodily Awareness in Visual Representations for Efficient Policy Learning

Arxiv

0+阅读 · 2月14日

Revis: Sparse Latent Steering to Mitigate Object Hallucination in Large Vision-Language Models

Arxiv

0+阅读 · 2月12日

Attention to details, logits to truth: visual-aware attention and logits enhancement to mitigate hallucinations in LVLMs

Arxiv

0+阅读 · 2月10日

Vision and language: Novel Representations and Artificial intelligence for Driving Scene Safety Assessment and Autonomous Vehicle Planning

Arxiv

0+阅读 · 2月7日

Focus-Scan-Refine: From Human Visual Perception to Efficient Visual Token Pruning

Arxiv

0+阅读 · 2月5日

Beyond Static Cropping: Layer-Adaptive Visual Localization and Decoding Enhancement

Arxiv

0+阅读 · 2月4日

Segment to Focus: Guiding Latent Action Models in the Presence of Distractors

Arxiv

0+阅读 · 2月2日

Vision-Language Models Unlock Task-Centric Latent Actions

Arxiv

0+阅读 · 1月30日

相关基金

基于共性视觉特征与反馈机制的SAR图像目标检测方法研究

国家自然科学基金

3+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

主被动视角联合的细粒度行为识别

国家自然科学基金

1+阅读 · 2015年12月31日

视觉信息的局部特征表示及应用研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于记忆的不变图像特征学习方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

面向生物特征识别的鲁棒判别结构化特征表示方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

知觉学习影响视觉刺激显著性的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

微信扫码咨询专知VIP会员