Advances in diffusion-based video generation models, while significantly improving human animation, poses threats of misuse through the creation of fake videos from a specific person's photo and text prompts. Recent efforts have focused on adversarial attacks that introduce crafted perturbations to protect images from diffusion-based models. However, most existing approaches target image generation, while relatively few explicitly address image-to-video diffusion models (VDMs), and most primarily focus on UNet-based architectures. Hence, their effectiveness against Diffusion Transformer (DiT) models remains largely under-explored, as these models demonstrate improved feature retention, and stronger temporal consistency due to larger capacity and advanced attention mechanisms. In this work, we introduce Anti-I2V, a novel defense against malicious human image-to-video generation, applicable across diverse diffusion backbones. Instead of restricting noise updates to the RGB space, Anti-I2V operates in both the $L$*$a$*$b$* and frequency domains, improving robustness and concentrating on salient pixels. We then identify the network layers that capture the most distinct semantic features during the denoising process to design appropriate training objectives that maximize degradation of temporal coherence and generation fidelity. Through extensive validation, Anti-I2V demonstrates state-of-the-art defense performance against diverse video diffusion models, offering an effective solution to the problem.


翻译:基于扩散的视频生成模型的进步,虽然显著提升了人类动画效果,但也带来了通过特定人物照片和文本提示创建虚假视频而被滥用的威胁。近期研究聚焦于通过引入精心设计的扰动来保护图像免受扩散模型影响的对抗性攻击。然而,现有方法大多针对图像生成,明确处理图像到视频扩散模型(VDM)的工作相对较少,且主要基于UNet架构。因此,这些方法对扩散变换器(DiT)模型的有效性尚待深入探究——因为DiT模型凭借更大的容量和先进的注意力机制,展现出更强的特征保持能力和时间一致性。本文提出Anti-I2V,一种针对恶意人物图像到视频生成的新型防御方法,适用于多种扩散主干架构。Anti-I2V不局限于在RGB空间更新噪声,而是在L*a*b*色彩空间和频域中协同操作,从而提升鲁棒性并聚焦于显著像素。我们进一步识别去噪过程中捕获最独特语义特征的网络层,设计相应的训练目标,以最大化破坏时间连贯性和生成保真度。通过广泛的验证,Anti-I2V在多种视频扩散模型上展现了最先进的防御性能,为该问题提供了有效解决方案。

0
下载
关闭预览

相关内容

面向 AI 生成图像的安全与鲁棒水印:全面综述
专知会员服务
14+阅读 · 2025年10月6日
【ICCV2025】InfGen:一种分辨率无关的可扩展图像合成范式
【NeurIPS2024】《应对在线持续学习中的合成数据污染》
专知会员服务
19+阅读 · 2024年11月23日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
世界动作模型: 具身AI的下一个前沿
专知会员服务
1+阅读 · 今天12:28
全球十大防空反导系统:列表、射程与用途
专知会员服务
10+阅读 · 今天3:53
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员