AI-generated content (AIGC) detectors are increasingly deployed in high-stakes settings such as academic integrity screening, yet their reliability rests on a fundamental paradox: as language models are trained on human-written corpora, the statistical boundary between AI and human writing will inevitably dissolve as models improve. Commercial incentives have further distorted this landscape -- detection services and "de-AIification" tools often operate within the same supply chain, replacing evaluation of content quality with judgment of content origin. We present StyleShield, the first flow matching framework for conditional text style transfer, operating directly in continuous token embedding space via a DiT backbone with zero-initialized cross-attention adapters conditioned on frozen Qwen-7B representations. At inference, we adapt the SDEdit paradigm from image synthesis to text embeddings, with a single parameter gamma providing smooth continuous control over the evasion-preservation trade-off. On a multi-domain Chinese benchmark, StyleShield achieves 94.6% evasion against the training detector and >=99% against three unseen detectors, maintaining 0.928 semantic similarity. We further introduce RateAudit, a document-level scheduling algorithm that demonstrates detection-rate verdicts can be set to arbitrary values, directly questioning the reliability of score-based evaluation.


翻译:人工智能生成内容(AIGC)检测器正越来越多地被部署于学术诚信筛查等高风险场景,但其可靠性建立在一个根本性悖论之上:随着语言模型在人类撰写语料上进行训练,AI与人类写作之间的统计边界必将随着模型性能提升而不可避免地被消解。商业激励进一步扭曲了这一格局——检测服务与“去AI化”工具常处于同一供应链体系内,将内容质量评估替换为内容来源判定。我们提出StyleShield——首个面向条件文本风格迁移的流匹配框架,通过基于零初始化交叉注意力适配器的DiT骨干网络,直接在连续词元嵌入空间中运行,并以冻结的Qwen-7B表征为条件。在推理阶段,我们将图像合成领域的SDEdit范式适配至文本嵌入,通过单一参数gamma对逃避-保留权衡进行平滑连续控制。在多领域中文基准测试中,StyleShield对训练集检测器实现94.6%的规避率,对三种未见检测器实现≥99%的规避率,同时保持0.928的语义相似度。我们进一步提出文件级调度算法RateAudit,证明检测率判定可被设置为任意数值,直接质疑了基于评分的评估体系的可信度。

0
下载
关闭预览

相关内容

AIGC如何助力工作和学习,98页ppt
专知会员服务
40+阅读 · 2025年3月14日
AIGC视觉内容生成与溯源研究进展
专知会员服务
27+阅读 · 2024年7月8日
AIGC大模型测评综述:使能技术,安全隐患和应对
专知会员服务
49+阅读 · 2024年7月2日
《检索增强生成在AIGC中的应用》综述
专知会员服务
93+阅读 · 2024年3月2日
AIGC时代的多模态知识工程思考与展望
专知会员服务
135+阅读 · 2023年4月10日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
【机器视觉】表面缺陷检测:机器视觉检测技术
产业智能官
25+阅读 · 2018年5月30日
从场景到调参,爱奇艺的推荐算法演化之路
聊聊架构
10+阅读 · 2018年3月23日
从传统方法到深度学习,人脸关键点检测方法综述
机器之心
14+阅读 · 2017年12月17日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员