Video object removal aims to eliminate dynamic target objects and their visual effects, such as deformation, shadows, and reflections, while restoring seamless backgrounds. Recent diffusion-based video inpainting and object removal methods can remove the objects but often struggle to erase these effects and to synthesize coherent backgrounds. Beyond method limitations, progress is further hampered by the lack of a comprehensive dataset that systematically captures common object effects across varied environments for training and evaluation. To address this, we introduce VOR (Video Object Removal), a large-scale dataset that provides diverse paired videos, each consisting of one video where the target object is present with its effects and a counterpart where the object and effects are absent, with corresponding object masks. VOR contains 60K high-quality video pairs from captured and synthetic sources, covers five effects types, and spans a wide range of object categories as well as complex, dynamic multi-object scenes. Building on VOR, we propose EffectErase, an effect-aware video object removal method that treats video object insertion as the inverse auxiliary task within a reciprocal learning scheme. The model includes task-aware region guidance that focuses learning on affected areas and enables flexible task switching. Then, an insertion-removal consistency objective that encourages complementary behaviors and shared localization of effect regions and structural cues. Trained on VOR, EffectErase achieves superior performance in extensive experiments, delivering high-quality video object effect erasing across diverse scenarios.


翻译:视频目标移除旨在消除动态目标物体及其产生的视觉效果(如形变、阴影、反射等),同时恢复无缝背景。现有的基于扩散模型的视频修补与目标移除方法虽能移除物体,但往往难以消除这些效果并合成连贯背景。除方法局限外,缺乏系统记录不同环境下常见目标效果的综合训练与评估数据集进一步阻碍了研究进展。为解决此问题,我们提出VOR(视频目标移除)——一个大规模数据集,提供多样化的成对视频,每对包含一个存在目标物体及其效果的视频片段和一个无物体及效果的对照版本,并附带对应的目标掩码。VOR包含6万个来自实拍与合成来源的高质量视频对,覆盖五种效果类型、广泛物体类别及复杂动态多目标场景。基于VOR,我们提出EffectErase——一种效果感知视频目标移除方法,将视频目标插入作为互学习框架中的逆辅助任务。该模型包含任务感知区域引导机制,聚焦受影响区域的学习并支持灵活任务切换;此外,通过插入-移除一致性目标促进效果区域与结构线索的互补行为及共同定位。在VOR上训练的EffectErase在大量实验中取得卓越性能,在多样场景下实现高质量视频目标效果消除。

0
下载
关闭预览

相关内容

基于深度学习的图像融合方法综述
专知会员服务
57+阅读 · 2023年1月25日
基于深度学习的视觉目标检测技术综述
专知会员服务
61+阅读 · 2022年6月22日
专知会员服务
29+阅读 · 2021年9月13日
专知会员服务
50+阅读 · 2021年4月15日
【ACM Multimedia 2020】双时间存储网络有效的视频对象分割
专知会员服务
10+阅读 · 2020年8月13日
计算机视觉方向简介 | 多目标跟踪算法(附源码)
计算机视觉life
15+阅读 · 2019年6月26日
基于深度学习的目标检测算法剖析与实现【附PPT与视频资料】
人工智能前沿讲习班
12+阅读 · 2018年12月25日
视频中的多目标跟踪【附PPT与视频资料】
人工智能前沿讲习班
30+阅读 · 2018年11月29日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
6+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
2+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关资讯
计算机视觉方向简介 | 多目标跟踪算法(附源码)
计算机视觉life
15+阅读 · 2019年6月26日
基于深度学习的目标检测算法剖析与实现【附PPT与视频资料】
人工智能前沿讲习班
12+阅读 · 2018年12月25日
视频中的多目标跟踪【附PPT与视频资料】
人工智能前沿讲习班
30+阅读 · 2018年11月29日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员