Recent methods demonstrate that large-scale pretrained models, such as CLIP vision transformers, effectively detect AI-generated images (AIGIs) from unseen generative models when used as feature extractors. Many state-of-the-art methods for AI-generated image detection build upon the original CLIP-ViT to enhance this generalization. Since CLIP's release, numerous vision foundation models (VFMs) have emerged, incorporating architectural improvements and different training paradigms. Despite these advances, their potential for AIGI detection and AI image forensics remains largely unexplored. In this work, we present a comprehensive benchmark across multiple VFM families, covering diverse pretraining objectives, input resolutions, and model scales. We systematically evaluate their out-of-the-box performance for detecting fully-generated AI-images and AI-inpainted images, and discover that the best model outperforms the original CLIP by more than 12% in accuracy, beating established approaches in the process. To fully leverage the features of a modern VFM, we propose a simple redesign of the classifier head by utilizing tunable attention pooling (TAP), which aggregates output tokens into a refined global representation. Integrating TAP with the latest VFMs yields substantial performance gains across several AIGI detection benchmarks, establishing a new state-of-the-art on two challenging benchmarks for in-the-wild detection of AI-generated and -inpainted images.


翻译:近期研究表明,大规模预训练模型(如CLIP视觉变换器)作为特征提取器时,能够有效检测来自未知生成模型的AI生成图像(AIGI)。许多最先进的AI生成图像检测方法均基于原始CLIP-ViT架构以增强其泛化能力。自CLIP发布以来,大量视觉基础模型(VFM)相继涌现,其架构改进与训练范式各有不同。尽管取得诸多进展,这些模型在AIGI检测及AI图像取证领域的潜力仍鲜少被探索。本文对多个VFM系列进行了全面基准测试,涵盖不同预训练目标、输入分辨率及模型规模。我们系统评估了这些模型在检测全生成AI图像与AI修复图像时的开箱即用性能,发现最优模型在准确率上较原始CLIP提升逾12%,同时超越现有主流方法。为充分挖掘现代VFM的特征潜力,我们提出一种简单的分类头重设计方法——利用可调注意力池化(TAP)将输出令牌聚合为精细化全局表征。将TAP与最新VFM相结合,在多项AIGI检测基准上取得了显著性能提升,并在两个具有挑战性的野外AI生成与修复图像检测基准上确立了新的最优水平。

0
下载
关闭预览

相关内容

【学界】 李飞飞学生最新论文:利用场景图生成图像
GAN生成式对抗网络
15+阅读 · 2018年4月9日
实战 | 基于深度学习模型VGG的图像识别(附代码)
七月在线实验室
13+阅读 · 2018年3月30日
国家自然科学基金
5+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月30日
VIP会员
相关主题
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
6+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
3+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关VIP内容
相关基金
国家自然科学基金
5+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员