Dense-Jump Flow Matching with Non-Uniform Time Scheduling for Robotic Policies: Mitigating Multi-Step Inference Degradation - 专知论文

会员服务 ·

0

调度 · 非均匀 · 流匹配 · 机器人 · 性能退化 ·

Dense-Jump Flow Matching with Non-Uniform Time Scheduling for Robotic Policies: Mitigating Multi-Step Inference Degradation

翻译：密集跳跃流匹配与机器人策略的非均匀时间调度：缓解多步推理性能退化

Zidong Chen,Zihao Guo,Peng Wang,ThankGod Itua Egbe,Yan Lyu,Chenghao Qian

Flow matching has emerged as a competitive framework for learning high-quality generative policies in robotics; however, we find that generalisation arises and saturates early along the flow trajectory, in accordance with recent findings in the literature. We further observe that increasing the number of Euler integration steps during inference counter-intuitively and universally degrades policy performance. We attribute this to (i) additional, uniformly spaced integration steps oversample the late-time region, thereby constraining actions towards the training trajectories and reducing generalisation; and (ii) the learned velocity field becoming non-Lipschitz as integration time approaches 1, causing instability. To address these issues, we propose a novel policy that utilises non-uniform time scheduling (e.g., U-shaped) during training, which emphasises both early and late temporal stages to regularise policy training, and a dense-jump integration schedule at inference, which uses a single-step integration to replace the multi-step integration beyond a jump point, to avoid unstable areas around 1. Essentially, our policy is an efficient one-step learner that still pushes forward performance through multi-step integration, yielding up to 23.7% performance gains over state-of-the-art baselines across diverse robotic tasks.

翻译：流匹配已成为学习高质量机器人生成策略的竞争性框架；然而，我们发现泛化能力沿流轨迹早期出现并快速饱和，这与近期文献中的发现一致。我们进一步观察到，在推理过程中增加欧拉积分步数会违反直觉且普遍地降低策略性能。我们将此归因于：(i) 额外均匀分布的积分步数对后期区域过采样，从而将动作限制在训练轨迹附近并降低泛化能力；(ii) 当积分时间接近1时，学习到的速度场变为非利普希茨连续，导致不稳定。为解决这些问题，我们提出一种新颖的策略，在训练阶段采用非均匀时间调度（例如U形调度）以同时强调早期和晚期时间阶段来正则化策略训练，并在推理阶段采用密集跳跃积分调度，即使用单步积分替代跳跃点之后的多步积分，从而避开时间1附近的不稳定区域。本质上，我们的策略是一种高效的单步学习器，同时仍通过多步积分提升性能，在多样化的机器人任务中相比最先进的基线方法实现了高达23.7%的性能提升。

0

相关内容

改进型深度确定性策略梯度的无人机路径规划

改进型深度确定性策略梯度的无人机路径规划

专知会员服务

14+阅读 · 2025年5月1日

《多机器人系统协作效能提升：基于模型与数据驱动的具身智能方法》339页

《多机器人系统协作效能提升：基于模型与数据驱动的具身智能方法》339页

专知会员服务

60+阅读 · 2025年4月6日

【MIT博士论文】非线性优化在机器学习应用中的平滑性与自适应性

【MIT博士论文】非线性优化在机器学习应用中的平滑性与自适应性

专知会员服务

27+阅读 · 2024年8月27日

《用于预测和优化无人机蜂群轨迹的人工智能算法》最新论文

《用于预测和优化无人机蜂群轨迹的人工智能算法》最新论文

专知会员服务

40+阅读 · 2024年6月20日

基于深度强化学习算法的无人机智能规避决策

基于深度强化学习算法的无人机智能规避决策

专知会员服务

83+阅读 · 2023年6月27日

【NeurIPS 2021】设置多智能体策略梯度的方差

【NeurIPS 2021】设置多智能体策略梯度的方差

专知会员服务

21+阅读 · 2021年10月24日

【ICML2021】图神经网络优化：通过跳过连接和更多深度隐含加速

专知会员服务

34+阅读 · 2021年5月17日

【博士论文】机器学习中部分非凸和随机优化算法研究

专知会员服务

75+阅读 · 2020年12月7日

【ICML2020投稿论文-DeepMind】时序差分学习的推理与泛化，Temporal Difference Learning

专知会员服务

26+阅读 · 2020年3月16日

【谷歌大脑新论文】利用可微摄动优化器进行学习，Learning with Differentiable Perturbed Optimizers

【谷歌大脑新论文】利用可微摄动优化器进行学习，Learning with Differentiable Perturbed Optimizers

专知会员服务

29+阅读 · 2020年2月22日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

【美国陆军】《人工智能系统能否提高陆军任务指挥过程中的信息收集效率？》39页技术报告

【美国陆军】《人工智能系统能否提高陆军任务指挥过程中的信息收集效率？》39页技术报告

专知

51+阅读 · 2022年8月31日

【AI+ 军事】美政府问责局（GAO）最新《人工智能：国防部应改进策略和流程并加强协作指导》报告，97页pdf

【AI+ 军事】美政府问责局（GAO）最新《人工智能：国防部应改进策略和流程并加强协作指导》报告，97页pdf

专知

57+阅读 · 2022年4月11日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

机器推理系列文章概览：七大NLP任务最新方法与进展

机器推理系列文章概览：七大NLP任务最新方法与进展

AI100

12+阅读 · 2019年9月15日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

手动特征工程已经OUT了！自动特征工程才是改进机器学习的方式

手动特征工程已经OUT了！自动特征工程才是改进机器学习的方式

AI100

11+阅读 · 2018年9月4日

Uber AI实验室：遗传算法PK随机梯度下降，欢迎来到深度神经进化时代！

Uber AI实验室：遗传算法PK随机梯度下降，欢迎来到深度神经进化时代！

论智

10+阅读 · 2017年12月19日

推荐算法：Match与Rank模型的交织配合

推荐算法：Match与Rank模型的交织配合

从0到1

15+阅读 · 2017年12月18日

基于多策略融合粒子群算法的点焊机器人路径多目标优化

国家自然科学基金

1+阅读 · 2017年12月31日

改进智能优化策略多机动目标跟踪方法研究

国家自然科学基金

18+阅读 · 2015年12月31日

网络化遥操作多机器人系统时滞相关控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

非共面放射治疗中的多机器人协作无碰撞轨迹规划与优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

空地机器人网络的同时视觉目标定位与分布式运动规划

国家自然科学基金

4+阅读 · 2015年12月31日

基于排队模型的动态车辆路径问题实时优化策略及算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

超线性增长条件下的混杂型随机时滞微分方程

国家自然科学基金

0+阅读 · 2014年12月31日

基于交通流量概率推理的不规则交叉口交通信号配时参数优化研究

国家自然科学基金

2+阅读 · 2014年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

49+阅读 · 2009年12月31日

Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition

Arxiv

0+阅读 · 3月10日

Hybrid Diffusion Policies with Projective Geometric Algebra for Efficient Robot Manipulation Learning

Arxiv

0+阅读 · 3月4日

PegasusFlow: Parallel Rolling-Denoising Score Sampling for Robot Diffusion Planner Flow Matching

Arxiv

0+阅读 · 2月24日

HybridFlow: A Two-Step Generative Policy for Robotic Manipulation

Arxiv

0+阅读 · 2月14日

KAN We Flow? Advancing Robotic Manipulation with 3D Flow Matching via KAN & RWKV

Arxiv

0+阅读 · 2月13日

FastFlow: Accelerating The Generative Flow Matching Models with Bandit Inference

Arxiv

0+阅读 · 2月11日

CoLA-Flow Policy: Temporally Coherent Imitation Learning via Continuous Latent Action Flow Matching for Robotic Manipulation

Arxiv

0+阅读 · 2月10日

Shifting the Breaking Point of Flow Matching for Multi-Instance Editing

Arxiv

0+阅读 · 2月9日

Mixed-Density Diffuser: Efficient Planning with Non-Uniform Temporal Resolution

Arxiv

0+阅读 · 2月4日

Temporally Coherent Imitation Learning via Latent Action Flow Matching for Robotic Manipulation

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

专知会员服务

10+阅读 · 今天6:39

《人工智能在全球军事与武器工业中的应用、方法论与影响》

《人工智能在全球军事与武器工业中的应用、方法论与影响》

专知会员服务

3+阅读 · 今天6:36

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

专知会员服务

7+阅读 · 今天6:28

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

专知会员服务

4+阅读 · 今天0:51

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

4+阅读 · 4月29日

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

专知会员服务

7+阅读 · 4月29日

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

专知会员服务

6+阅读 · 4月29日

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

专知会员服务

6+阅读 · 4月29日

《化繁为简：军事模拟器配置的对话式方法》报告

《化繁为简：军事模拟器配置的对话式方法》报告

专知会员服务

10+阅读 · 4月29日

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

专知会员服务

12+阅读 · 4月29日

《新兴技术武器化及其对全球风险的影响》

《新兴技术武器化及其对全球风险的影响》

专知会员服务

8+阅读 · 4月29日

《帕兰泰尔平台介绍：信息分析平台》

《帕兰泰尔平台介绍：信息分析平台》

专知会员服务

19+阅读 · 4月29日

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

专知会员服务

11+阅读 · 4月29日

【伯克利博士论文】深度解析 AI 智能体的失配问题

【伯克利博士论文】深度解析 AI 智能体的失配问题

专知会员服务

8+阅读 · 4月28日

智能体化世界建模：基础、能力、规律及展望

智能体化世界建模：基础、能力、规律及展望

专知会员服务

11+阅读 · 4月28日

相关VIP内容

改进型深度确定性策略梯度的无人机路径规划

改进型深度确定性策略梯度的无人机路径规划

专知会员服务

14+阅读 · 2025年5月1日

《多机器人系统协作效能提升：基于模型与数据驱动的具身智能方法》339页

《多机器人系统协作效能提升：基于模型与数据驱动的具身智能方法》339页

专知会员服务

60+阅读 · 2025年4月6日

【MIT博士论文】非线性优化在机器学习应用中的平滑性与自适应性

【MIT博士论文】非线性优化在机器学习应用中的平滑性与自适应性

专知会员服务

27+阅读 · 2024年8月27日

《用于预测和优化无人机蜂群轨迹的人工智能算法》最新论文

《用于预测和优化无人机蜂群轨迹的人工智能算法》最新论文

专知会员服务

40+阅读 · 2024年6月20日

基于深度强化学习算法的无人机智能规避决策

基于深度强化学习算法的无人机智能规避决策

专知会员服务

83+阅读 · 2023年6月27日

【NeurIPS 2021】设置多智能体策略梯度的方差

【NeurIPS 2021】设置多智能体策略梯度的方差

专知会员服务

21+阅读 · 2021年10月24日

【ICML2021】图神经网络优化：通过跳过连接和更多深度隐含加速

专知会员服务

34+阅读 · 2021年5月17日

【博士论文】机器学习中部分非凸和随机优化算法研究

专知会员服务

75+阅读 · 2020年12月7日

【ICML2020投稿论文-DeepMind】时序差分学习的推理与泛化，Temporal Difference Learning

专知会员服务

26+阅读 · 2020年3月16日

【谷歌大脑新论文】利用可微摄动优化器进行学习，Learning with Differentiable Perturbed Optimizers

【谷歌大脑新论文】利用可微摄动优化器进行学习，Learning with Differentiable Perturbed Optimizers

专知会员服务

29+阅读 · 2020年2月22日

热门VIP内容

开通专知VIP会员享更多权益服务

《人工智能在全球军事与武器工业中的应用、方法论与影响》

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

相关资讯

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

【美国陆军】《人工智能系统能否提高陆军任务指挥过程中的信息收集效率？》39页技术报告

【美国陆军】《人工智能系统能否提高陆军任务指挥过程中的信息收集效率？》39页技术报告

专知

51+阅读 · 2022年8月31日

【AI+ 军事】美政府问责局（GAO）最新《人工智能：国防部应改进策略和流程并加强协作指导》报告，97页pdf

【AI+ 军事】美政府问责局（GAO）最新《人工智能：国防部应改进策略和流程并加强协作指导》报告，97页pdf

专知

57+阅读 · 2022年4月11日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

机器推理系列文章概览：七大NLP任务最新方法与进展

机器推理系列文章概览：七大NLP任务最新方法与进展

AI100

12+阅读 · 2019年9月15日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

手动特征工程已经OUT了！自动特征工程才是改进机器学习的方式

手动特征工程已经OUT了！自动特征工程才是改进机器学习的方式

AI100

11+阅读 · 2018年9月4日

Uber AI实验室：遗传算法PK随机梯度下降，欢迎来到深度神经进化时代！

Uber AI实验室：遗传算法PK随机梯度下降，欢迎来到深度神经进化时代！

论智

10+阅读 · 2017年12月19日

推荐算法：Match与Rank模型的交织配合

推荐算法：Match与Rank模型的交织配合

从0到1

15+阅读 · 2017年12月18日

相关论文

Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition

Arxiv

0+阅读 · 3月10日

Hybrid Diffusion Policies with Projective Geometric Algebra for Efficient Robot Manipulation Learning

Arxiv

0+阅读 · 3月4日

PegasusFlow: Parallel Rolling-Denoising Score Sampling for Robot Diffusion Planner Flow Matching

Arxiv

0+阅读 · 2月24日

HybridFlow: A Two-Step Generative Policy for Robotic Manipulation

Arxiv

0+阅读 · 2月14日

KAN We Flow? Advancing Robotic Manipulation with 3D Flow Matching via KAN & RWKV

Arxiv

0+阅读 · 2月13日

FastFlow: Accelerating The Generative Flow Matching Models with Bandit Inference

Arxiv

0+阅读 · 2月11日

CoLA-Flow Policy: Temporally Coherent Imitation Learning via Continuous Latent Action Flow Matching for Robotic Manipulation

Arxiv

0+阅读 · 2月10日

Shifting the Breaking Point of Flow Matching for Multi-Instance Editing

Arxiv

0+阅读 · 2月9日

Mixed-Density Diffuser: Efficient Planning with Non-Uniform Temporal Resolution

Arxiv

0+阅读 · 2月4日

Temporally Coherent Imitation Learning via Latent Action Flow Matching for Robotic Manipulation

Arxiv

0+阅读 · 1月30日

相关基金

基于多策略融合粒子群算法的点焊机器人路径多目标优化

国家自然科学基金

1+阅读 · 2017年12月31日

改进智能优化策略多机动目标跟踪方法研究

国家自然科学基金

18+阅读 · 2015年12月31日

网络化遥操作多机器人系统时滞相关控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

非共面放射治疗中的多机器人协作无碰撞轨迹规划与优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

空地机器人网络的同时视觉目标定位与分布式运动规划

国家自然科学基金

4+阅读 · 2015年12月31日

基于排队模型的动态车辆路径问题实时优化策略及算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

超线性增长条件下的混杂型随机时滞微分方程

国家自然科学基金

0+阅读 · 2014年12月31日

基于交通流量概率推理的不规则交叉口交通信号配时参数优化研究

国家自然科学基金

2+阅读 · 2014年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

49+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员