With the rapid advancement of generative models, powerful image editing methods now enable diverse and highly realistic image manipulations that far surpass traditional deepfake techniques, posing new challenges for manipulation detection. Existing image manipulation detection and localization (IMDL) benchmarks suffer from limited content diversity, narrow generative-model coverage, and insufficient interpretability, which hinders the generalization and explanation capabilities of current manipulation detection methods. To address these limitations, we introduce \textbf{ManipBench}, a large-scale benchmark for image manipulation detection and localization focusing on AI-edited images. ManipBench contains over 450K manipulated images produced by 25 state-of-the-art image editing models across 12 manipulation categories, among which 100K images are further annotated with bounding boxes, judgment cues, and textual explanations to support interpretable detection. Building upon ManipBench, we propose \textbf{ManipShield}, an all-in-one model based on a Multimodal Large Language Model (MLLM) that leverages contrastive LoRA fine-tuning and task-specific decoders to achieve unified image manipulation detection, localization, and explanation. Extensive experiments on ManipBench and several public datasets demonstrate that ManipShield achieves state-of-the-art performance and exhibits strong generality to unseen manipulation models. Both ManipBench and ManipShield will be released upon publication.


翻译:随着生成模型的快速发展,强大的图像编辑方法现已能够实现多样且高度逼真的图像篡改,其效果远超传统的深度伪造技术,为篡改检测带来了新的挑战。现有的图像篡改检测与定位(IMDL)基准存在内容多样性有限、生成模型覆盖范围狭窄以及可解释性不足等问题,这制约了当前篡改检测方法的泛化与解释能力。为应对这些局限,我们引入了\textbf{ManipBench},一个专注于AI编辑图像的大规模图像篡改检测与定位基准。ManipBench包含超过45万张由25个最先进的图像编辑模型生成的篡改图像,涵盖12种篡改类别,其中10万张图像进一步标注了边界框、判断线索和文本解释,以支持可解释的检测。基于ManipBench,我们提出了\textbf{ManipShield},一个基于多模态大语言模型(MLLM)的一体化模型,它利用对比LoRA微调和任务特定解码器,实现了统一的图像篡改检测、定位与解释。在ManipBench及多个公开数据集上的大量实验表明,ManipShield达到了最先进的性能,并对未见过的篡改模型展现出强大的泛化能力。ManipBench和ManipShield均将在发表后开源。

0
下载
关闭预览

相关内容

面向 AI 生成图像的安全与鲁棒水印:全面综述
专知会员服务
14+阅读 · 2025年10月6日
基于深度学习的伪装目标检测研究进展
专知会员服务
30+阅读 · 2025年4月12日
《深度伪造检测模型的准确性和鲁棒性》2023最新论文
专知会员服务
41+阅读 · 2023年10月29日
视觉深度伪造检测技术综述
专知会员服务
37+阅读 · 2022年1月28日
【AAAI2022】基于渐进式增强学习的人脸伪造图像检测
专知会员服务
22+阅读 · 2022年1月19日
专知会员服务
23+阅读 · 2021年9月23日
一行命令搞定图像质量评价
计算机视觉life
12+阅读 · 2019年12月31日
Image Captioning 36页最新综述, 161篇参考文献
专知
90+阅读 · 2018年10月23日
图像美学质量评价技术发展趋势
科技导报
19+阅读 · 2018年6月25日
从传统方法到深度学习,人脸关键点检测方法综述
机器之心
14+阅读 · 2017年12月17日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
VIP会员
相关VIP内容
面向 AI 生成图像的安全与鲁棒水印:全面综述
专知会员服务
14+阅读 · 2025年10月6日
基于深度学习的伪装目标检测研究进展
专知会员服务
30+阅读 · 2025年4月12日
《深度伪造检测模型的准确性和鲁棒性》2023最新论文
专知会员服务
41+阅读 · 2023年10月29日
视觉深度伪造检测技术综述
专知会员服务
37+阅读 · 2022年1月28日
【AAAI2022】基于渐进式增强学习的人脸伪造图像检测
专知会员服务
22+阅读 · 2022年1月19日
专知会员服务
23+阅读 · 2021年9月23日
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员