PALM：通过感知对齐增强局部视觉运动策略的泛化能力 (PALM: Enhanced Generalizability for Local Visuomotor Policies via Perception Alignment) - 专知论文

会员服务 ·

0

Palm · 泛化 · 对齐 · 泛化能力 · 操作 ·

PALM: Enhanced Generalizability for Local Visuomotor Policies via Perception Alignment

翻译：PALM：通过感知对齐增强局部视觉运动策略的泛化能力

Ruiyu Wang,Zheyu Zhuang,Danica Kragic,Florian T. Pokorny

Generalizing beyond the training domain in image-based behavior cloning remains challenging. Existing methods address individual axes of generalization, workspace shifts, viewpoint changes, and cross-embodiment transfer, yet they are typically developed in isolation and often rely on complex pipelines. We introduce PALM (Perception Alignment for Local Manipulation), which leverages the invariance of local action distributions between out-of-distribution (OOD) and demonstrated domains to address these OOD shifts concurrently, without additional input modalities, model changes, or data collection. PALM modularizes the manipulation policy into coarse global components and a local policy for fine-grained actions. We reduce the discrepancy between in-domain and OOD inputs at the local policy level by enforcing local visual focus and consistent proprioceptive representation, allowing the policy to retrieve invariant local actions under OOD conditions. Experiments show that PALM limits OOD performance drops to 8% in simulation and 24% in the real world, compared to 45% and 77% for baselines.

翻译：基于图像的行为克隆在训练域之外的泛化仍然具有挑战性。现有方法分别处理泛化的各个维度，如工作空间偏移、视角变化和跨具身迁移，但这些方法通常是孤立开发的，并且常常依赖于复杂的处理流程。我们提出了PALM（面向局部操作的感知对齐），它利用分布外（OOD）域与演示域之间局部动作分布的不变性，来同时应对这些OOD偏移，而无需额外的输入模态、模型修改或数据收集。PALM将操作策略模块化为粗略的全局组件和用于细粒度动作的局部策略。我们通过在局部策略层面强制局部视觉聚焦和一致的本体感觉表征，来减少域内输入与OOD输入之间的差异，从而使策略能够在OOD条件下检索到不变的局部动作。实验表明，与基线方法45%和77%的OOD性能下降相比，PALM将OOD性能下降限制在模拟环境中8%，真实世界中24%。

0

相关内容

Palm

Palm（官方中文名称奔迈）是一种掌上电脑硬件的品牌名称，采用名为 Palm OS 的操作系统。

深度学习中泛化的量化、理解与改进

深度学习中泛化的量化、理解与改进

专知会员服务

17+阅读 · 2025年9月13日

【ICML2025】GCAL：使图模型适应不断演变的领域偏移

【ICML2025】GCAL：使图模型适应不断演变的领域偏移

专知会员服务

9+阅读 · 2025年5月23日

《多模态适应与泛化》进展综述：从传统方法到基础模型

《多模态适应与泛化》进展综述：从传统方法到基础模型

专知会员服务

30+阅读 · 2025年1月31日

【NeurIPS2024】MoTE：在视觉语言到视频知识转移中协调泛化与专门化

【NeurIPS2024】MoTE：在视觉语言到视频知识转移中协调泛化与专门化

专知会员服务

13+阅读 · 2024年10月16日

【NeurIPS2023】多样化的时空感知用于视频域泛化

【NeurIPS2023】多样化的时空感知用于视频域泛化

专知会员服务

21+阅读 · 2023年10月30日

ChatGPT鲁棒性如何？微软等WSDM2023《领域泛化》教程，阐述域泛化(DG)最新进展以及ChatGPT等大模型分布外性能

ChatGPT鲁棒性如何？微软等WSDM2023《领域泛化》教程，阐述域泛化(DG)最新进展以及ChatGPT等大模型分布外性能

专知会员服务

40+阅读 · 2023年3月1日

知识如何用在预训练？北邮等最新《知识增强的预训练语言模型》综述，详述KEPLMs的方法与评估

知识如何用在预训练？北邮等最新《知识增强的预训练语言模型》综述，详述KEPLMs的方法与评估

专知会员服务

58+阅读 · 2022年12月31日

最新《计算机视觉领域泛化Domain Generalization》综述论文，18页pdf229篇文献

专知会员服务

58+阅读 · 2021年7月27日

机器学习模型如何泛化到未知领域？微软亚研「领域泛化 (Domain Generalization)」综述论文概述理论、算法等

机器学习模型如何泛化到未知领域？微软亚研「领域泛化 (Domain Generalization)」综述论文概述理论、算法等

专知会员服务

59+阅读 · 2021年3月13日

【NeurIPS2019|杰出新方向论文奖】统一收敛可能无法解释深度学习中的泛化性（Uniform convergence maybe unable to explain generalization in deep learning）

【NeurIPS2019|杰出新方向论文奖】统一收敛可能无法解释深度学习中的泛化性（Uniform convergence maybe unable to explain generalization in deep learning）

专知会员服务

13+阅读 · 2019年12月9日

【ICML2021】因果匹配领域泛化

【ICML2021】因果匹配领域泛化

专知

12+阅读 · 2021年8月12日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知

10+阅读 · 2020年8月12日

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

专知

27+阅读 · 2020年7月26日

【CVPR2020-清华大学】渐进对抗网络的细粒度域适应，Progressive Adversarial Networks

【CVPR2020-清华大学】渐进对抗网络的细粒度域适应，Progressive Adversarial Networks

专知

31+阅读 · 2020年4月4日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

迁移学习之Domain Adaptation

迁移学习之Domain Adaptation

全球人工智能

18+阅读 · 2018年4月11日

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

专知

17+阅读 · 2018年2月11日

【论文推荐】最新5篇图像分割相关论文—条件随机场和深度特征学习、移动端网络、长期视觉定位、主动学习、主动轮廓模型、生成对抗性网络

【论文推荐】最新5篇图像分割相关论文—条件随机场和深度特征学习、移动端网络、长期视觉定位、主动学习、主动轮廓模型、生成对抗性网络

专知

13+阅读 · 2018年1月23日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

视知觉学习中的脑功能网络变化及其与学习效果的关系

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

基于压缩感知的高精度实时视觉跟踪方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

知觉学习影响视觉刺激显著性的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

融合目标感知与对比度的图像和视频显著性检测技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于稀疏表示的多摄像机非重叠视野域运动目标跟踪方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

泛在计算环境中社会化驱动的情境感知个性化信息服务研究

国家自然科学基金

2+阅读 · 2014年12月31日

Efficiently Assemble Normalization Layers and Regularization for Federated Domain Generalization

Arxiv

0+阅读 · 2月16日

ReText: Text Boosts Generalization in Image-Based Person Re-identification

Arxiv

0+阅读 · 2月5日

Adaptive Global and Fine-Grained Perceptual Fusion for MLLM Embeddings Compatible with Hard Negative Amplification

Arxiv

0+阅读 · 2月5日

PEPR: Privileged Event-based Predictive Regularization for Domain Generalization

Arxiv

0+阅读 · 2月4日

PALM: PAnoramic Learning Map Integrating Learning Analytics and Curriculum Map for Scalable Insights Across Courses

Arxiv

0+阅读 · 2月3日

3D Dynamics-Aware Manipulation: Endowing Manipulation Policies with 3D Foresight

Arxiv

0+阅读 · 2月2日

CLAMP: Contrastive Learning for 3D Multi-View Action-Conditioned Robotic Manipulation Pretraining

Arxiv

0+阅读 · 1月31日

Semantic-aware Random Convolution and Source Matching for Domain Generalization in Medical Image Segmentation

Arxiv

0+阅读 · 1月27日

PEAfowl: Perception-Enhanced Multi-View Vision-Language-Action for Bimanual Manipulation

Arxiv

0+阅读 · 1月25日

Spatially Generalizable Mobile Manipulation via Adaptive Experience Selection and Dynamic Imagination

Arxiv

0+阅读 · 1月21日

VIP会员

文章信息

相关主题

相关VIP内容

深度学习中泛化的量化、理解与改进

深度学习中泛化的量化、理解与改进

专知会员服务

17+阅读 · 2025年9月13日

【ICML2025】GCAL：使图模型适应不断演变的领域偏移

【ICML2025】GCAL：使图模型适应不断演变的领域偏移

专知会员服务

9+阅读 · 2025年5月23日

《多模态适应与泛化》进展综述：从传统方法到基础模型

《多模态适应与泛化》进展综述：从传统方法到基础模型

专知会员服务

30+阅读 · 2025年1月31日

【NeurIPS2024】MoTE：在视觉语言到视频知识转移中协调泛化与专门化

【NeurIPS2024】MoTE：在视觉语言到视频知识转移中协调泛化与专门化

专知会员服务

13+阅读 · 2024年10月16日

【NeurIPS2023】多样化的时空感知用于视频域泛化

【NeurIPS2023】多样化的时空感知用于视频域泛化

专知会员服务

21+阅读 · 2023年10月30日

ChatGPT鲁棒性如何？微软等WSDM2023《领域泛化》教程，阐述域泛化(DG)最新进展以及ChatGPT等大模型分布外性能

ChatGPT鲁棒性如何？微软等WSDM2023《领域泛化》教程，阐述域泛化(DG)最新进展以及ChatGPT等大模型分布外性能

专知会员服务

40+阅读 · 2023年3月1日

知识如何用在预训练？北邮等最新《知识增强的预训练语言模型》综述，详述KEPLMs的方法与评估

知识如何用在预训练？北邮等最新《知识增强的预训练语言模型》综述，详述KEPLMs的方法与评估

专知会员服务

58+阅读 · 2022年12月31日

最新《计算机视觉领域泛化Domain Generalization》综述论文，18页pdf229篇文献

专知会员服务

58+阅读 · 2021年7月27日

机器学习模型如何泛化到未知领域？微软亚研「领域泛化 (Domain Generalization)」综述论文概述理论、算法等

机器学习模型如何泛化到未知领域？微软亚研「领域泛化 (Domain Generalization)」综述论文概述理论、算法等

专知会员服务

59+阅读 · 2021年3月13日

【NeurIPS2019|杰出新方向论文奖】统一收敛可能无法解释深度学习中的泛化性（Uniform convergence maybe unable to explain generalization in deep learning）

【NeurIPS2019|杰出新方向论文奖】统一收敛可能无法解释深度学习中的泛化性（Uniform convergence maybe unable to explain generalization in deep learning）

专知会员服务

13+阅读 · 2019年12月9日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

【ICML2021】因果匹配领域泛化

【ICML2021】因果匹配领域泛化

专知

12+阅读 · 2021年8月12日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知

10+阅读 · 2020年8月12日

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

专知

27+阅读 · 2020年7月26日

【CVPR2020-清华大学】渐进对抗网络的细粒度域适应，Progressive Adversarial Networks

【CVPR2020-清华大学】渐进对抗网络的细粒度域适应，Progressive Adversarial Networks

专知

31+阅读 · 2020年4月4日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

迁移学习之Domain Adaptation

迁移学习之Domain Adaptation

全球人工智能

18+阅读 · 2018年4月11日

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

专知

17+阅读 · 2018年2月11日

【论文推荐】最新5篇图像分割相关论文—条件随机场和深度特征学习、移动端网络、长期视觉定位、主动学习、主动轮廓模型、生成对抗性网络

【论文推荐】最新5篇图像分割相关论文—条件随机场和深度特征学习、移动端网络、长期视觉定位、主动学习、主动轮廓模型、生成对抗性网络

专知

13+阅读 · 2018年1月23日

相关论文

Efficiently Assemble Normalization Layers and Regularization for Federated Domain Generalization

Arxiv

0+阅读 · 2月16日

ReText: Text Boosts Generalization in Image-Based Person Re-identification

Arxiv

0+阅读 · 2月5日

Adaptive Global and Fine-Grained Perceptual Fusion for MLLM Embeddings Compatible with Hard Negative Amplification

Arxiv

0+阅读 · 2月5日

PEPR: Privileged Event-based Predictive Regularization for Domain Generalization

Arxiv

0+阅读 · 2月4日

PALM: PAnoramic Learning Map Integrating Learning Analytics and Curriculum Map for Scalable Insights Across Courses

Arxiv

0+阅读 · 2月3日

3D Dynamics-Aware Manipulation: Endowing Manipulation Policies with 3D Foresight

Arxiv

0+阅读 · 2月2日

CLAMP: Contrastive Learning for 3D Multi-View Action-Conditioned Robotic Manipulation Pretraining

Arxiv

0+阅读 · 1月31日

Semantic-aware Random Convolution and Source Matching for Domain Generalization in Medical Image Segmentation

Arxiv

0+阅读 · 1月27日

PEAfowl: Perception-Enhanced Multi-View Vision-Language-Action for Bimanual Manipulation

Arxiv

0+阅读 · 1月25日

Spatially Generalizable Mobile Manipulation via Adaptive Experience Selection and Dynamic Imagination

Arxiv

0+阅读 · 1月21日

相关基金

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

视知觉学习中的脑功能网络变化及其与学习效果的关系

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

基于压缩感知的高精度实时视觉跟踪方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

知觉学习影响视觉刺激显著性的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

融合目标感知与对比度的图像和视频显著性检测技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于稀疏表示的多摄像机非重叠视野域运动目标跟踪方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

泛在计算环境中社会化驱动的情境感知个性化信息服务研究

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员