FFP-300K：扩展首帧传播以实现可泛化的视频编辑 (FFP-300K: Scaling First-Frame Propagation for Generalizable Video Editing) - 专知论文

会员服务 ·

0

视频 · 数据集 · 泛化 · 位置编码 · 时序 ·

FFP-300K: Scaling First-Frame Propagation for Generalizable Video Editing

翻译：FFP-300K：扩展首帧传播以实现可泛化的视频编辑

Xijie Huang,Chengming Xu,Donghao Luo,Xiaobin Hu,Peng Tang,Xu Peng,Jiangning Zhang,Chengjie Wang,Yanwei Fu

First-Frame Propagation (FFP) offers a promising paradigm for controllable video editing, but existing methods are hampered by a reliance on cumbersome run-time guidance. We identify the root cause of this limitation as the inadequacy of current training datasets, which are often too short, low-resolution, and lack the task diversity required to teach robust temporal priors. To address this foundational data gap, we first introduce FFP-300K, a new large-scale dataset comprising 300K high-fidelity video pairs at 720p resolution and 81 frames in length, constructed via a principled two-track pipeline for diverse local and global edits. Building on this dataset, we propose a novel framework designed for true guidance-free FFP that resolves the critical tension between maintaining first-frame appearance and preserving source video motion. Architecturally, we introduce Adaptive Spatio-Temporal RoPE (AST-RoPE), which dynamically remaps positional encodings to disentangle appearance and motion references. At the objective level, we employ a self-distillation strategy where an identity propagation task acts as a powerful regularizer, ensuring long-term temporal stability and preventing semantic drift. Comprehensive experiments on the EditVerseBench benchmark demonstrate that our method significantly outperforming existing academic and commercial models by receiving about 0.2 PickScore and 0.3 VLM score improvement against these competitors.

翻译：首帧传播（FFP）为可控视频编辑提供了一种前景广阔的范式，但现有方法受限于对繁琐运行时引导的依赖。我们将此局限的根本原因归结为当前训练数据集的不足，这些数据集通常时长过短、分辨率较低，且缺乏教授鲁棒时序先验所需的任务多样性。为弥补这一基础性数据缺口，我们首先引入了FFP-300K——一个全新的大规模数据集，包含30万对720p分辨率、81帧长度的高保真视频对，通过一个原则性的双轨流程构建，用于多样化的局部与全局编辑。基于此数据集，我们提出了一种专为真正无需引导的FFP设计的新框架，该框架解决了保持首帧外观与保留源视频运动之间的关键矛盾。在架构层面，我们引入了自适应时空旋转位置编码（AST-RoPE），它能动态重映射位置编码以解耦外观与运动参考。在目标层面，我们采用了一种自蒸馏策略，其中身份传播任务作为强大的正则化器，确保了长期时序稳定性并防止语义漂移。在EditVerseBench基准上的综合实验表明，我们的方法显著优于现有的学术与商业模型，相较于这些竞争对手，在PickScore和VLM分数上分别获得了约0.2和0.3的提升。

0

相关内容

视频

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

专知会员服务

9+阅读 · 2025年10月15日

【CVPR2025】ShotAdapter：基于扩散模型的文本生成多镜头视频方法

【CVPR2025】ShotAdapter：基于扩散模型的文本生成多镜头视频方法

专知会员服务

11+阅读 · 2025年5月16日

SVBench：首个流视频长上下文理解评估基准｜ICLR'2025 Spotlight

SVBench：首个流视频长上下文理解评估基准｜ICLR'2025 Spotlight

专知会员服务

12+阅读 · 2025年4月9日

【CVPR2025】具有显式3D建模的世界一致性视频扩散

【CVPR2025】具有显式3D建模的世界一致性视频扩散

专知会员服务

11+阅读 · 2025年2月27日

【ICLR2025】FREQPRIOR: 通过频率滤波高斯噪声改进视频扩散模型

【ICLR2025】FREQPRIOR: 通过频率滤波高斯噪声改进视频扩散模型

专知会员服务

10+阅读 · 2025年2月8日

【NeurIPS2024】将视频掩蔽自编码器扩展到128帧

【NeurIPS2024】将视频掩蔽自编码器扩展到128帧

专知会员服务

13+阅读 · 2024年11月27日

【CVPR2024】MA-LMM: 内存增强的大型多模态模型，用于长期视频理解

【CVPR2024】MA-LMM: 内存增强的大型多模态模型，用于长期视频理解

专知会员服务

21+阅读 · 2024年4月9日

【CVPR2023】面向不同视频的可扩展神经表示，

【CVPR2023】面向不同视频的可扩展神经表示，

专知会员服务

20+阅读 · 2023年3月28日

最新！《信息技术高效多媒体编码视频》国家标准意见稿发布，240页pdf

最新！《信息技术高效多媒体编码视频》国家标准意见稿发布，240页pdf

专知会员服务

21+阅读 · 2022年4月21日

Transformer如何用于视频？最新「视频Transformer」2022综述

Transformer如何用于视频？最新「视频Transformer」2022综述

专知会员服务

76+阅读 · 2022年1月20日

CVPR2020 | 即插即用！语义分割网络用上双边超分辨率，效果喜人！

CVPR2020 | 即插即用！语义分割网络用上双边超分辨率，效果喜人！

AI科技评论

11+阅读 · 2020年6月16日

CVPR 2019 | 告别低分辨率网络，微软提出高分辨率深度神经网络HRNet

CVPR 2019 | 告别低分辨率网络，微软提出高分辨率深度神经网络HRNet

微软研究院AI头条

14+阅读 · 2019年5月21日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

Facebook何恺明团队提出SlowFast网络，视频识别无需预训练

Facebook何恺明团队提出SlowFast网络，视频识别无需预训练

AI前线

10+阅读 · 2018年12月23日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

【干货】计算机视觉视频理解领域的经典方法和最新成果

【干货】计算机视觉视频理解领域的经典方法和最新成果

新智元

15+阅读 · 2018年5月28日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

FAIR最新视觉论文集锦：FPN，RetinaNet，Mask和Mask-X RCNN（含代码实现）

FAIR最新视觉论文集锦：FPN，RetinaNet，Mask和Mask-X RCNN（含代码实现）

AI科技评论

16+阅读 · 2018年4月7日

CVPR 2018 | 使用CNN生成图像先验，实现更广泛场景的盲图像去模糊

CVPR 2018 | 使用CNN生成图像先验，实现更广泛场景的盲图像去模糊

极市平台

14+阅读 · 2018年3月21日

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

全球人工智能

10+阅读 · 2017年12月19日

高性能视频云转码服务的优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于内容分析的低复杂度高效视频编码方法

国家自然科学基金

0+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向视觉质量的高效立体视频编码资源分配优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于Wyner-Ziv分布式编码的无线视频通信端到端失真度估算

国家自然科学基金

0+阅读 · 2014年12月31日

基于压缩域的海量视频浓缩关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

SHVC质量可伸缩视频编码的快速算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

CoPE-VideoLM: Codec Primitives For Efficient Video Language Models

Arxiv

0+阅读 · 2月13日

FlashEdit: Decoupling Speed, Structure, and Semantics for Precise Image Editing

Arxiv

0+阅读 · 2月13日

Camel: Frame-Level Bandwidth Estimation for Low-Latency Live Streaming under Video Bitrate Undershooting

Arxiv

0+阅读 · 2月10日

RFDM: Residual Flow Diffusion Model for Efficient Causal Video Editing

Arxiv

0+阅读 · 2月6日

Content-Driven Frame-Level Bit Prediction for Rate Control in Versatile Video Coding

Arxiv

0+阅读 · 2月5日

ShapeUP: Scalable Image-Conditioned 3D Editing

Arxiv

0+阅读 · 2月5日

Morphe: High-Fidelity Generative Video Streaming with Vision Foundation Model

Arxiv

0+阅读 · 2月3日

V2P-Bench: Evaluating Video-Language Understanding with Visual Prompts for Better Human-Model Interaction

Arxiv

0+阅读 · 2月3日

MLV-Edit: Towards Consistent and Highly Efficient Editing for Minute-Level Videos

Arxiv

0+阅读 · 2月2日

Towards Efficient Low-rate Image Compression with Frequency-aware Diffusion Prior Refinement

Arxiv

0+阅读 · 1月15日

VIP会员

文章信息

相关主题

相关VIP内容

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

专知会员服务

9+阅读 · 2025年10月15日

【CVPR2025】ShotAdapter：基于扩散模型的文本生成多镜头视频方法

【CVPR2025】ShotAdapter：基于扩散模型的文本生成多镜头视频方法

专知会员服务

11+阅读 · 2025年5月16日

SVBench：首个流视频长上下文理解评估基准｜ICLR'2025 Spotlight

SVBench：首个流视频长上下文理解评估基准｜ICLR'2025 Spotlight

专知会员服务

12+阅读 · 2025年4月9日

【CVPR2025】具有显式3D建模的世界一致性视频扩散

【CVPR2025】具有显式3D建模的世界一致性视频扩散

专知会员服务

11+阅读 · 2025年2月27日

【ICLR2025】FREQPRIOR: 通过频率滤波高斯噪声改进视频扩散模型

【ICLR2025】FREQPRIOR: 通过频率滤波高斯噪声改进视频扩散模型

专知会员服务

10+阅读 · 2025年2月8日

【NeurIPS2024】将视频掩蔽自编码器扩展到128帧

【NeurIPS2024】将视频掩蔽自编码器扩展到128帧

专知会员服务

13+阅读 · 2024年11月27日

【CVPR2024】MA-LMM: 内存增强的大型多模态模型，用于长期视频理解

【CVPR2024】MA-LMM: 内存增强的大型多模态模型，用于长期视频理解

专知会员服务

21+阅读 · 2024年4月9日

【CVPR2023】面向不同视频的可扩展神经表示，

【CVPR2023】面向不同视频的可扩展神经表示，

专知会员服务

20+阅读 · 2023年3月28日

最新！《信息技术高效多媒体编码视频》国家标准意见稿发布，240页pdf

最新！《信息技术高效多媒体编码视频》国家标准意见稿发布，240页pdf

专知会员服务

21+阅读 · 2022年4月21日

Transformer如何用于视频？最新「视频Transformer」2022综述

Transformer如何用于视频？最新「视频Transformer」2022综述

专知会员服务

76+阅读 · 2022年1月20日

热门VIP内容

开通专知VIP会员享更多权益服务

美国防部门开始扩建金穹反导系统基础设施

《基于选择性深度神经网络分类的弹性无线通信》最新报告

《多域作战中融合网络、电子战与动能机动》

《在东欧磨砺反无人机技能》美陆军最新反无人机训练报告

相关资讯

CVPR2020 | 即插即用！语义分割网络用上双边超分辨率，效果喜人！

CVPR2020 | 即插即用！语义分割网络用上双边超分辨率，效果喜人！

AI科技评论

11+阅读 · 2020年6月16日

CVPR 2019 | 告别低分辨率网络，微软提出高分辨率深度神经网络HRNet

CVPR 2019 | 告别低分辨率网络，微软提出高分辨率深度神经网络HRNet

微软研究院AI头条

14+阅读 · 2019年5月21日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

Facebook何恺明团队提出SlowFast网络，视频识别无需预训练

Facebook何恺明团队提出SlowFast网络，视频识别无需预训练

AI前线

10+阅读 · 2018年12月23日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

【干货】计算机视觉视频理解领域的经典方法和最新成果

【干货】计算机视觉视频理解领域的经典方法和最新成果

新智元

15+阅读 · 2018年5月28日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

FAIR最新视觉论文集锦：FPN，RetinaNet，Mask和Mask-X RCNN（含代码实现）

FAIR最新视觉论文集锦：FPN，RetinaNet，Mask和Mask-X RCNN（含代码实现）

AI科技评论

16+阅读 · 2018年4月7日

CVPR 2018 | 使用CNN生成图像先验，实现更广泛场景的盲图像去模糊

CVPR 2018 | 使用CNN生成图像先验，实现更广泛场景的盲图像去模糊

极市平台

14+阅读 · 2018年3月21日

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

全球人工智能

10+阅读 · 2017年12月19日

相关论文

CoPE-VideoLM: Codec Primitives For Efficient Video Language Models

Arxiv

0+阅读 · 2月13日

FlashEdit: Decoupling Speed, Structure, and Semantics for Precise Image Editing

Arxiv

0+阅读 · 2月13日

Camel: Frame-Level Bandwidth Estimation for Low-Latency Live Streaming under Video Bitrate Undershooting

Arxiv

0+阅读 · 2月10日

RFDM: Residual Flow Diffusion Model for Efficient Causal Video Editing

Arxiv

0+阅读 · 2月6日

Content-Driven Frame-Level Bit Prediction for Rate Control in Versatile Video Coding

Arxiv

0+阅读 · 2月5日

ShapeUP: Scalable Image-Conditioned 3D Editing

Arxiv

0+阅读 · 2月5日

Morphe: High-Fidelity Generative Video Streaming with Vision Foundation Model

Arxiv

0+阅读 · 2月3日

V2P-Bench: Evaluating Video-Language Understanding with Visual Prompts for Better Human-Model Interaction

Arxiv

0+阅读 · 2月3日

MLV-Edit: Towards Consistent and Highly Efficient Editing for Minute-Level Videos

Arxiv

0+阅读 · 2月2日

Towards Efficient Low-rate Image Compression with Frequency-aware Diffusion Prior Refinement

Arxiv

0+阅读 · 1月15日

相关基金

高性能视频云转码服务的优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于内容分析的低复杂度高效视频编码方法

国家自然科学基金

0+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向视觉质量的高效立体视频编码资源分配优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于Wyner-Ziv分布式编码的无线视频通信端到端失真度估算

国家自然科学基金

0+阅读 · 2014年12月31日

基于压缩域的海量视频浓缩关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

SHVC质量可伸缩视频编码的快速算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员