FastVMT: Eliminating Redundancy in Video Motion Transfer - 专知论文

会员服务 ·

0

冗余 · 视频 · 梯度 · 运动迁移 · 变换 ·

FastVMT: Eliminating Redundancy in Video Motion Transfer

翻译：FastVMT：消除视频运动迁移中的冗余

Yue Ma,Zhikai Wang,Tianhao Ren,Mingzhe Zheng,Hongyu Liu,Jiayi Guo,Kunyu Feng,Yuxuan Xue,Zixiang Zhao,Konrad Schindler,Qifeng Chen,Linfeng Zhang

from arxiv, Accepted by ICLR2026, Project page: fastvmt.gitHub.io, Code: https://github.com/mayuelala/FastVMT

Video motion transfer aims to synthesize videos by generating visual content according to a text prompt while transferring the motion pattern observed in a reference video. Recent methods predominantly use the Diffusion Transformer (DiT) architecture. To achieve satisfactory runtime, several methods attempt to accelerate the computations in the DiT, but fail to address structural sources of inefficiency. In this work, we identify and remove two types of computational redundancy in earlier work: motion redundancy arises because the generic DiT architecture does not reflect the fact that frame-to-frame motion is small and smooth; gradient redundancy occurs if one ignores that gradients change slowly along the diffusion trajectory. To mitigate motion redundancy, we mask the corresponding attention layers to a local neighborhood such that interaction weights are not computed unnecessarily distant image regions. To exploit gradient redundancy, we design an optimization scheme that reuses gradients from previous diffusion steps and skips unwarranted gradient computations. On average, FastVMT achieves a 3.43x speedup without degrading the visual fidelity or the temporal consistency of the generated videos.

翻译：视频运动迁移旨在根据文本提示生成视觉内容，同时迁移参考视频中的运动模式，从而合成视频。近期方法主要采用扩散变换器架构。为达到令人满意的运行时间，已有多种方法尝试加速扩散变换器中的计算，但未能解决结构性的低效根源。本研究识别并消除了先前工作中的两种计算冗余：运动冗余源于通用扩散变换器架构未考虑帧间运动平滑且连续的特性；梯度冗余则因忽略了沿扩散轨迹梯度缓慢变化的事实而产生。为缓解运动冗余，我们对相应注意力层进行局部邻域掩码，从而避免针对不必要远距离图像区域计算交互权重。为利用梯度冗余，我们设计了一种优化方案，该方案复用先前扩散步骤的梯度并跳过不必要的梯度计算。平均而言，FastVMT在不降低生成视频的视觉保真度或时间一致性的前提下，实现了3.43倍的加速。

0

相关内容

扩散模型中的 Transformer：图像生成及其延展应用询问 ChatGPT

扩散模型中的 Transformer：图像生成及其延展应用询问 ChatGPT

专知会员服务

11+阅读 · 2025年7月5日

【CVPR2025】ShotAdapter：基于扩散模型的文本生成多镜头视频方法

【CVPR2025】ShotAdapter：基于扩散模型的文本生成多镜头视频方法

专知会员服务

11+阅读 · 2025年5月16日

Transformer如何训得更快更好？莫纳什大学最新《Transformer高效训练》综述，详述训练Transformer技术

Transformer如何训得更快更好？莫纳什大学最新《Transformer高效训练》综述，详述训练Transformer技术

专知会员服务

61+阅读 · 2023年2月4日

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

专知会员服务

39+阅读 · 2022年8月9日

【ICML2022】CtrlFormer: 通过Transformer学习视觉控制的可迁移状态表示

【ICML2022】CtrlFormer: 通过Transformer学习视觉控制的可迁移状态表示

专知会员服务

16+阅读 · 2022年6月21日

【Google】高效Transformer综述，Efficient Transformers: A Survey

【Google】高效Transformer综述，Efficient Transformers: A Survey

专知会员服务

66+阅读 · 2022年3月17日

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

专知会员服务

28+阅读 · 2022年3月3日

Transformer如何用于视频？最新「视频Transformer」2022综述

Transformer如何用于视频？最新「视频Transformer」2022综述

专知会员服务

76+阅读 · 2022年1月20日

【DeepMind】基于变换的大规模数据对抗视频预测，Transformation-based Adversarial Video Prediction on Large-Scale Data

【DeepMind】基于变换的大规模数据对抗视频预测，Transformation-based Adversarial Video Prediction on Large-Scale Data

专知会员服务

17+阅读 · 2020年3月9日

【中科院计算所】迁移学习全面综述论文，A Comprehensive Survey on Transfer Learning，27页pdf，171篇参考文献

【中科院计算所】迁移学习全面综述论文，A Comprehensive Survey on Transfer Learning，27页pdf，171篇参考文献

专知会员服务

99+阅读 · 2019年11月11日

中科院发布最新迁移学习综述论文，带你全面了解40种迁移学习方法

中科院发布最新迁移学习综述论文，带你全面了解40种迁移学习方法

专知

48+阅读 · 2019年11月12日

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

机器之心

13+阅读 · 2019年10月17日

英伟达Faster Transformer：作者带你揭秘BERT优化

英伟达Faster Transformer：作者带你揭秘BERT优化

机器之心

14+阅读 · 2019年9月18日

复现 | FastDVDNet：实时视频去噪算法

复现 | FastDVDNet：实时视频去噪算法

CVer

13+阅读 · 2019年7月12日

使用 FastAI 和即时频率变换进行音频分类

使用 FastAI 和即时频率变换进行音频分类

AI研习社

11+阅读 · 2019年5月9日

Facebook何恺明团队提出SlowFast网络，视频识别无需预训练

Facebook何恺明团队提出SlowFast网络，视频识别无需预训练

AI前线

10+阅读 · 2018年12月23日

【迁移学习】简述迁移学习在深度学习中的应用

【迁移学习】简述迁移学习在深度学习中的应用

产业智能官

15+阅读 · 2018年1月9日

迁移学习在深度学习中的应用

迁移学习在深度学习中的应用

专知

24+阅读 · 2017年12月24日

什么是迁移学习？它都用在深度学习的哪些场景上？这篇文章替你讲清楚了

什么是迁移学习？它都用在深度学习的哪些场景上？这篇文章替你讲清楚了

AI100

16+阅读 · 2017年12月23日

【迁移学习】中科院计算所王晋东：迁移学习的发展和现状

【迁移学习】中科院计算所王晋东：迁移学习的发展和现状

产业智能官

23+阅读 · 2017年11月21日

高性能视频云转码服务的优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于内容分析的低复杂度高效视频编码方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于多普勒搬移机理的机载MIMO雷达慢速目标检测方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于移动平台的视频信息隐藏关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向多云块并行移动计算迁移的环境自适应程序分割技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

视频场景下大位移运动目标的持续性跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

彩色/多光谱异源双目视频运动目标分割方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

移动云计算中数据流应用的动态计算切分技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向视觉质量的高效立体视频编码资源分配优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

移动终端视频目标快速识别技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

Follow-Your-Motion: Video Motion Transfer via Efficient Spatial-Temporal Decoupled Finetuning

Arxiv

0+阅读 · 3月30日

FastCache: Fast Caching for Diffusion Transformer Through Learnable Linear Approximation

Arxiv

0+阅读 · 3月27日

TRACE: Object Motion Editing in Videos with First-Frame Trajectory Guidance

Arxiv

0+阅读 · 3月26日

SODA: Sensitivity-Oriented Dynamic Acceleration for Diffusion Transformer

Arxiv

0+阅读 · 3月24日

Follow-Your-Motion: Video Motion Transfer via Efficient Spatial-Temporal Decoupled Finetuning

Arxiv

0+阅读 · 3月24日

EffectErase: Joint Video Object Removal and Insertion for High-Quality Effect Erasing

Arxiv

0+阅读 · 3月19日

Mobile-VideoGPT: Fast and Accurate Model for Mobile Video Understanding

Arxiv

0+阅读 · 3月19日

Let Your Image Move with Your Motion! -- Implicit Multi-Object Multi-Motion Transfer

Arxiv

0+阅读 · 3月13日

Accelerating Text-to-Video Generation with Calibrated Sparse Attention

Arxiv

0+阅读 · 3月5日

Predict to Skip: Linear Multistep Feature Forecasting for Efficient Diffusion Transformers

Arxiv

0+阅读 · 2月20日

VIP会员

文章信息

相关主题

最新内容

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

4+阅读 · 今天8:00

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

2+阅读 · 今天7:44

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

2+阅读 · 今天7:28

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

3+阅读 · 今天7:18

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

4+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

3+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

4+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

5+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

4+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

8+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

7+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

4+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

相关VIP内容

扩散模型中的 Transformer：图像生成及其延展应用询问 ChatGPT

扩散模型中的 Transformer：图像生成及其延展应用询问 ChatGPT

专知会员服务

11+阅读 · 2025年7月5日

【CVPR2025】ShotAdapter：基于扩散模型的文本生成多镜头视频方法

【CVPR2025】ShotAdapter：基于扩散模型的文本生成多镜头视频方法

专知会员服务

11+阅读 · 2025年5月16日

Transformer如何训得更快更好？莫纳什大学最新《Transformer高效训练》综述，详述训练Transformer技术

Transformer如何训得更快更好？莫纳什大学最新《Transformer高效训练》综述，详述训练Transformer技术

专知会员服务

61+阅读 · 2023年2月4日

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

Transformer如何用于3D视觉？阿联酋MBZUAI最新《3D视觉Transformers处理》综述，涵盖100+种方法

专知会员服务

39+阅读 · 2022年8月9日

【ICML2022】CtrlFormer: 通过Transformer学习视觉控制的可迁移状态表示

【ICML2022】CtrlFormer: 通过Transformer学习视觉控制的可迁移状态表示

专知会员服务

16+阅读 · 2022年6月21日

【Google】高效Transformer综述，Efficient Transformers: A Survey

【Google】高效Transformer综述，Efficient Transformers: A Survey

专知会员服务

66+阅读 · 2022年3月17日

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

专知会员服务

28+阅读 · 2022年3月3日

Transformer如何用于视频？最新「视频Transformer」2022综述

Transformer如何用于视频？最新「视频Transformer」2022综述

专知会员服务

76+阅读 · 2022年1月20日

【DeepMind】基于变换的大规模数据对抗视频预测，Transformation-based Adversarial Video Prediction on Large-Scale Data

【DeepMind】基于变换的大规模数据对抗视频预测，Transformation-based Adversarial Video Prediction on Large-Scale Data

专知会员服务

17+阅读 · 2020年3月9日

【中科院计算所】迁移学习全面综述论文，A Comprehensive Survey on Transfer Learning，27页pdf，171篇参考文献

【中科院计算所】迁移学习全面综述论文，A Comprehensive Survey on Transfer Learning，27页pdf，171篇参考文献

专知会员服务

99+阅读 · 2019年11月11日

热门VIP内容

开通专知VIP会员享更多权益服务

重新思考无人机时代的生存能力

在人工智能加速决策环境中拓展OODA循环

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

装甲突击旅：现代战争思考、战斗与组织

相关资讯

中科院发布最新迁移学习综述论文，带你全面了解40种迁移学习方法

中科院发布最新迁移学习综述论文，带你全面了解40种迁移学习方法

专知

48+阅读 · 2019年11月12日

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

机器之心

13+阅读 · 2019年10月17日

英伟达Faster Transformer：作者带你揭秘BERT优化

英伟达Faster Transformer：作者带你揭秘BERT优化

机器之心

14+阅读 · 2019年9月18日

复现 | FastDVDNet：实时视频去噪算法

复现 | FastDVDNet：实时视频去噪算法

CVer

13+阅读 · 2019年7月12日

使用 FastAI 和即时频率变换进行音频分类

使用 FastAI 和即时频率变换进行音频分类

AI研习社

11+阅读 · 2019年5月9日

Facebook何恺明团队提出SlowFast网络，视频识别无需预训练

Facebook何恺明团队提出SlowFast网络，视频识别无需预训练

AI前线

10+阅读 · 2018年12月23日

【迁移学习】简述迁移学习在深度学习中的应用

【迁移学习】简述迁移学习在深度学习中的应用

产业智能官

15+阅读 · 2018年1月9日

迁移学习在深度学习中的应用

迁移学习在深度学习中的应用

专知

24+阅读 · 2017年12月24日

什么是迁移学习？它都用在深度学习的哪些场景上？这篇文章替你讲清楚了

什么是迁移学习？它都用在深度学习的哪些场景上？这篇文章替你讲清楚了

AI100

16+阅读 · 2017年12月23日

【迁移学习】中科院计算所王晋东：迁移学习的发展和现状

【迁移学习】中科院计算所王晋东：迁移学习的发展和现状

产业智能官

23+阅读 · 2017年11月21日

相关论文

Follow-Your-Motion: Video Motion Transfer via Efficient Spatial-Temporal Decoupled Finetuning

Arxiv

0+阅读 · 3月30日

FastCache: Fast Caching for Diffusion Transformer Through Learnable Linear Approximation

Arxiv

0+阅读 · 3月27日

TRACE: Object Motion Editing in Videos with First-Frame Trajectory Guidance

Arxiv

0+阅读 · 3月26日

SODA: Sensitivity-Oriented Dynamic Acceleration for Diffusion Transformer

Arxiv

0+阅读 · 3月24日

Follow-Your-Motion: Video Motion Transfer via Efficient Spatial-Temporal Decoupled Finetuning

Arxiv

0+阅读 · 3月24日

EffectErase: Joint Video Object Removal and Insertion for High-Quality Effect Erasing

Arxiv

0+阅读 · 3月19日

Mobile-VideoGPT: Fast and Accurate Model for Mobile Video Understanding

Arxiv

0+阅读 · 3月19日

Let Your Image Move with Your Motion! -- Implicit Multi-Object Multi-Motion Transfer

Arxiv

0+阅读 · 3月13日

Accelerating Text-to-Video Generation with Calibrated Sparse Attention

Arxiv

0+阅读 · 3月5日

Predict to Skip: Linear Multistep Feature Forecasting for Efficient Diffusion Transformers

Arxiv

0+阅读 · 2月20日

相关基金

高性能视频云转码服务的优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于内容分析的低复杂度高效视频编码方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于多普勒搬移机理的机载MIMO雷达慢速目标检测方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于移动平台的视频信息隐藏关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向多云块并行移动计算迁移的环境自适应程序分割技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

视频场景下大位移运动目标的持续性跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

彩色/多光谱异源双目视频运动目标分割方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

移动云计算中数据流应用的动态计算切分技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向视觉质量的高效立体视频编码资源分配优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

移动终端视频目标快速识别技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员