Flow-based Policy Adaptation without Policy Updates - 专知论文

会员服务 ·

0

自适应 · 策略自适应 · 演示 · 智能体 · 操作 ·

Flow-based Policy Adaptation without Policy Updates

翻译：基于流的策略自适应方法：无需更新策略

Luzhe Sun,Jingtian Ji,Haoran Chen,Jiawei Zhou,Matthew R. Walter

Leveraging prior knowledge from pretrained policies, foundation models, or human operators offers an efficient alternative to learning robot skills from scratch. However, these agents often provide actions that are suboptimal, noisy, or misaligned with task-specific expert behavior. We propose GLOVES, a family of flow-based adaptation methods that correct non-expert actions by transporting them toward an expert action distribution. Rather than replacing agentic control with full autonomy, GLOVES performs selective action-level adaptation, improving task success while preserving agent intent. The learned flow also provides a natural in-distribution scoring mechanism through reverse flow evaluation. We use this signal as an intervention gate: actions that appear consistent with the expert distribution are passed through unchanged, while anomalous or out-of-distribution (OOD) actions are corrected. In this way, assistance is only provided when necessary. GLOVES requires only limited expert supervision, using a small number of demonstrations or reusable successful skill segments. By learning local expert action patterns and stitching them during execution, GLOVES provides a lightweight shared-control module for robust action adaptation across tasks and environments. Code and demos are available at ripl.github.io/GLOVES_web.

翻译：利用预训练策略、基础模型或人类操作员提供的先验知识，是从零开始学习机器人技能的高效替代方案。然而，这些智能体提供的动作往往存在次优、含噪声或与特定任务专家行为不匹配的问题。我们提出GLOVES——一类基于流的自适应方法，通过将非专家动作向专家动作分布迁移实现纠正。GLOVES并非以完全自主控制取代智能体决策，而是执行选择性的动作级自适应，在提升任务成功率的同时保留智能体意图。通过学习得到的流，还可通过逆向流评估提供天然的同分布评分机制。我们利用该信号作为干预门控：与专家分布一致的动作被原样通过，异常或分布外（OOD）动作则被纠正。通过这种方式，仅在必要时提供辅助。GLOVES只需有限的专家监督，使用少量演示或可复用的成功技能片段。通过学习局部专家动作模式并在执行过程中进行拼接，GLOVES提供轻量级共享控制模块，实现跨任务与环境的鲁棒动作自适应。代码与演示见ripl.github.io/GLOVES_web。

0

相关内容

自适应

【ICML 2026】 StableVLA：无需额外数据，基于信息瓶颈的自适应鲁棒性视觉-语言-动作模型

【ICML 2026】 StableVLA：无需额外数据，基于信息瓶颈的自适应鲁棒性视觉-语言-动作模型

专知会员服务

6+阅读 · 5月19日

《基于Transformer的智能体的战术决策解释》

《基于Transformer的智能体的战术决策解释》

专知会员服务

47+阅读 · 2025年12月28日

【AAAI2026】TOFA：面向视觉-语言模型的免训练一次性联邦自适应方法

【AAAI2026】TOFA：面向视觉-语言模型的免训练一次性联邦自适应方法

专知会员服务

13+阅读 · 2025年11月23日

具身智能中模型如何自适应更新？中科院ICML2024 | 基于快-慢测试时自适应的在线视觉-语言导航方法

具身智能中模型如何自适应更新？中科院ICML2024 | 基于快-慢测试时自适应的在线视觉-语言导航方法

专知会员服务

20+阅读 · 2024年5月29日

推荐！【自适应学习、知识表示】《通过主动神经调节进行自适应学习 (ALAN)》美国空军研究实验室2022最新84页项目报告

推荐！【自适应学习、知识表示】《通过主动神经调节进行自适应学习 (ALAN)》美国空军研究实验室2022最新84页项目报告

专知会员服务

57+阅读 · 2022年11月25日

【CVPR 2022】一种无需使用负样本的自监督学习方法，Self-Supervised Predictive Learning: A Negative-Free Method for Sound Source Localization in Visual Scenes

【CVPR 2022】一种无需使用负样本的自监督学习方法，Self-Supervised Predictive Learning: A Negative-Free Method for Sound Source Localization in Visual Scenes

专知会员服务

15+阅读 · 2022年3月12日

【Emtiyaz Khan】自适应人工智能的贝叶斯学习规则，The Bayesian Learning Rule for Adaptive AI

【Emtiyaz Khan】自适应人工智能的贝叶斯学习规则，The Bayesian Learning Rule for Adaptive AI

专知会员服务

27+阅读 · 2022年3月11日

【CVPR 2022】基于可迁移GNN的自适应轨迹预测，Adaptive Trajectory Prediction via Transferable GNN

【CVPR 2022】基于可迁移GNN的自适应轨迹预测，Adaptive Trajectory Prediction via Transferable GNN

专知会员服务

47+阅读 · 2022年3月11日

【AAAI2022】领域自适应的主动学习:一种基于能量的方法

【AAAI2022】领域自适应的主动学习:一种基于能量的方法

专知会员服务

45+阅读 · 2021年12月6日

领域自适应研究综述

领域自适应研究综述

专知会员服务

55+阅读 · 2021年5月5日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

最新《迁移学习:域自适应理论》综述论文，128页ppt讲解迁移学习与最优传输

最新《迁移学习:域自适应理论》综述论文，128页ppt讲解迁移学习与最优传输

专知

16+阅读 · 2020年4月27日

【资源】领域自适应相关论文、代码分享

【资源】领域自适应相关论文、代码分享

专知

32+阅读 · 2019年10月12日

【泡泡图灵智库】FlowNet3D:在三维点云中学习场景流（CVPR）

【泡泡图灵智库】FlowNet3D:在三维点云中学习场景流（CVPR）

泡泡机器人SLAM

13+阅读 · 2019年6月13日

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

量子位

11+阅读 · 2019年5月15日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

领域自适应学习论文大列表

领域自适应学习论文大列表

专知

71+阅读 · 2019年3月2日

谷歌推出新型数据增强算法：AutoAugment

谷歌推出新型数据增强算法：AutoAugment

论智

20+阅读 · 2018年6月6日

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

GAN生成式对抗网络

11+阅读 · 2018年6月5日

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

量子位

10+阅读 · 2017年12月10日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

面向移动互联网流量的行为特征和自适应分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于适应度值的信息反馈型群智能算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向动态优化问题的参数自适应及变结构生物地理学优化算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

自适应快速模拟细节丰富的流体技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

机器灵巧手基于触滑觉信息协同的自适应力控制方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

APEX: Adaptive Policy Execution for Precise Manipulation

Arxiv

0+阅读 · 6月15日

TASR: Training-Free Adaptive Stopping for Iterative Retrieval

Arxiv

0+阅读 · 6月11日

QPILOTS: Efficient Test-Time Q-Steering for Flow Policies

Arxiv

0+阅读 · 6月11日

An Agency-Transferring Model-Free Policy Enhancement Technique

Arxiv

0+阅读 · 6月8日

Robotic Policy Adaptation via Weight-Space Meta-Learning

Arxiv

0+阅读 · 6月5日

Potential-Guided Flow Matching for Vision-Language-Action Policy Improvement

Arxiv

0+阅读 · 6月3日

Denoising Tells When to Replan: Denoising-Variance Adaptive Chunking for Flow-Based Robot Policies

Arxiv

0+阅读 · 6月2日

Let the Dynamics Flow: Stable Flow Matching Dynamical Systems

Arxiv

0+阅读 · 6月2日

Beyond Action Residuals: Real-World Robot Policy Steering via Bottleneck Latent Reinforcement Learning

Arxiv

0+阅读 · 5月19日

CoLA-Flow Policy: Temporally Coherent Imitation Learning via Continuous Latent Action Flow Matching for Robotic Manipulation

Arxiv

0+阅读 · 5月11日

VIP会员

文章信息

相关主题

策略自适应

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

1+阅读 · 今天14:40

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

1+阅读 · 今天14:36

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

7+阅读 · 今天2:06

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

5+阅读 · 今天1:37

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

3+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

5+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

5+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

7+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

6+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

5+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

4+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

【ICML 2026】 StableVLA：无需额外数据，基于信息瓶颈的自适应鲁棒性视觉-语言-动作模型

【ICML 2026】 StableVLA：无需额外数据，基于信息瓶颈的自适应鲁棒性视觉-语言-动作模型

专知会员服务

6+阅读 · 5月19日

《基于Transformer的智能体的战术决策解释》

《基于Transformer的智能体的战术决策解释》

专知会员服务

47+阅读 · 2025年12月28日

【AAAI2026】TOFA：面向视觉-语言模型的免训练一次性联邦自适应方法

【AAAI2026】TOFA：面向视觉-语言模型的免训练一次性联邦自适应方法

专知会员服务

13+阅读 · 2025年11月23日

具身智能中模型如何自适应更新？中科院ICML2024 | 基于快-慢测试时自适应的在线视觉-语言导航方法

具身智能中模型如何自适应更新？中科院ICML2024 | 基于快-慢测试时自适应的在线视觉-语言导航方法

专知会员服务

20+阅读 · 2024年5月29日

推荐！【自适应学习、知识表示】《通过主动神经调节进行自适应学习 (ALAN)》美国空军研究实验室2022最新84页项目报告

推荐！【自适应学习、知识表示】《通过主动神经调节进行自适应学习 (ALAN)》美国空军研究实验室2022最新84页项目报告

专知会员服务

57+阅读 · 2022年11月25日

【CVPR 2022】一种无需使用负样本的自监督学习方法，Self-Supervised Predictive Learning: A Negative-Free Method for Sound Source Localization in Visual Scenes

【CVPR 2022】一种无需使用负样本的自监督学习方法，Self-Supervised Predictive Learning: A Negative-Free Method for Sound Source Localization in Visual Scenes

专知会员服务

15+阅读 · 2022年3月12日

【Emtiyaz Khan】自适应人工智能的贝叶斯学习规则，The Bayesian Learning Rule for Adaptive AI

【Emtiyaz Khan】自适应人工智能的贝叶斯学习规则，The Bayesian Learning Rule for Adaptive AI

专知会员服务

27+阅读 · 2022年3月11日

【CVPR 2022】基于可迁移GNN的自适应轨迹预测，Adaptive Trajectory Prediction via Transferable GNN

【CVPR 2022】基于可迁移GNN的自适应轨迹预测，Adaptive Trajectory Prediction via Transferable GNN

专知会员服务

47+阅读 · 2022年3月11日

【AAAI2022】领域自适应的主动学习:一种基于能量的方法

【AAAI2022】领域自适应的主动学习:一种基于能量的方法

专知会员服务

45+阅读 · 2021年12月6日

领域自适应研究综述

领域自适应研究综述

专知会员服务

55+阅读 · 2021年5月5日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

最新《迁移学习:域自适应理论》综述论文，128页ppt讲解迁移学习与最优传输

最新《迁移学习:域自适应理论》综述论文，128页ppt讲解迁移学习与最优传输

专知

16+阅读 · 2020年4月27日

【资源】领域自适应相关论文、代码分享

【资源】领域自适应相关论文、代码分享

专知

32+阅读 · 2019年10月12日

【泡泡图灵智库】FlowNet3D:在三维点云中学习场景流（CVPR）

【泡泡图灵智库】FlowNet3D:在三维点云中学习场景流（CVPR）

泡泡机器人SLAM

13+阅读 · 2019年6月13日

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

量子位

11+阅读 · 2019年5月15日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

领域自适应学习论文大列表

领域自适应学习论文大列表

专知

71+阅读 · 2019年3月2日

谷歌推出新型数据增强算法：AutoAugment

谷歌推出新型数据增强算法：AutoAugment

论智

20+阅读 · 2018年6月6日

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

GAN生成式对抗网络

11+阅读 · 2018年6月5日

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

量子位

10+阅读 · 2017年12月10日

相关论文

APEX: Adaptive Policy Execution for Precise Manipulation

Arxiv

0+阅读 · 6月15日

TASR: Training-Free Adaptive Stopping for Iterative Retrieval

Arxiv

0+阅读 · 6月11日

QPILOTS: Efficient Test-Time Q-Steering for Flow Policies

Arxiv

0+阅读 · 6月11日

An Agency-Transferring Model-Free Policy Enhancement Technique

Arxiv

0+阅读 · 6月8日

Robotic Policy Adaptation via Weight-Space Meta-Learning

Arxiv

0+阅读 · 6月5日

Potential-Guided Flow Matching for Vision-Language-Action Policy Improvement

Arxiv

0+阅读 · 6月3日

Denoising Tells When to Replan: Denoising-Variance Adaptive Chunking for Flow-Based Robot Policies

Arxiv

0+阅读 · 6月2日

Let the Dynamics Flow: Stable Flow Matching Dynamical Systems

Arxiv

0+阅读 · 6月2日

Beyond Action Residuals: Real-World Robot Policy Steering via Bottleneck Latent Reinforcement Learning

Arxiv

0+阅读 · 5月19日

CoLA-Flow Policy: Temporally Coherent Imitation Learning via Continuous Latent Action Flow Matching for Robotic Manipulation

Arxiv

0+阅读 · 5月11日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

面向移动互联网流量的行为特征和自适应分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于适应度值的信息反馈型群智能算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向动态优化问题的参数自适应及变结构生物地理学优化算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

自适应快速模拟细节丰富的流体技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

机器灵巧手基于触滑觉信息协同的自适应力控制方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员