While specialized detectors for AI-Generated Images (AIGI) achieve near-perfect accuracy on curated benchmarks, they suffer from a dramatic performance collapse in realistic, in-the-wild scenarios. In this work, we demonstrate that simplicity prevails over complex architectural designs. A simple linear classifier trained on the frozen features of modern Vision Foundation Models , including Perception Encoder, MetaCLIP 2, and DINOv3, establishes a new state-of-the-art. Through a comprehensive evaluation spanning traditional benchmarks, unseen generators, and challenging in-the-wild distributions, we show that this baseline not only matches specialized detectors on standard benchmarks but also decisively outperforms them on in-the-wild datasets, boosting accuracy by striking margins of over 30\%. We posit that this superior capability is an emergent property driven by the massive scale of pre-training data containing synthetic content. We trace the source of this capability to two distinct manifestations of data exposure: Vision-Language Models internalize an explicit semantic concept of forgery, while Self-Supervised Learning models implicitly acquire discriminative forensic features from the pretraining data. However, we also reveal persistent limitations: these models suffer from performance degradation under recapture and transmission, remain blind to VAE reconstruction and localized editing. We conclude by advocating for a paradigm shift in AI forensics, moving from overfitting on static benchmarks to harnessing the evolving world knowledge of foundation models for real-world reliability.


翻译:尽管针对AI生成图像(AIGI)的专用检测器在精心构建的基准测试中达到了接近完美的准确率,但在真实、开放场景中却遭遇性能的急剧崩溃。本研究表明,简约设计优于复杂架构。基于现代视觉基础模型(包括Perception Encoder、MetaCLIP 2和DINOv3)的冻结特征训练的简单线性分类器,确立了新的性能标杆。通过涵盖传统基准、未知生成器和具有挑战性的开放分布的综合评估,我们发现该基线方法不仅在标准基准测试中与专用检测器表现相当,更在开放数据集上以超过30%的显著优势决定性胜出。我们认为这种卓越能力是由包含合成内容的海量预训练数据驱动的涌现特性。我们将此能力的来源追溯至数据暴露的两种表现形式:视觉语言模型内化了明确的伪造语义概念,而自监督学习模型则从预训练数据中隐式习得了判别性取证特征。然而,研究也揭示了其持续存在的局限:这些模型在重捕获与传输场景下会出现性能衰减,且对VAE重建与局部编辑操作仍存在盲区。最后,我们倡导AI取证领域的范式转变——从对静态基准的过度拟合,转向利用基础模型不断演进的世界知识以实现现实世界的可靠性。

0
下载
关闭预览

相关内容

视觉基础模型的可解释性:综述
专知会员服务
26+阅读 · 2025年1月24日
大模型+遥感?最新《遥感中的人工智能基础模型》综述
专知会员服务
63+阅读 · 2024年8月10日
视频分析中的人工智能 (AI)白皮书,16页pdf
专知会员服务
68+阅读 · 2021年5月6日
谷歌EfficientNet缩放模型,PyTorch实现登热榜
机器学习算法与Python学习
11+阅读 · 2019年6月4日
爱奇艺基于AI的移动端自动化测试框架的设计
前端之巅
18+阅读 · 2019年2月27日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员