Detecting AI-generated text is an increasing necessity to combat misuse of LLMs in education, business compliance, journalism, and social media, where synthetic fluency can mask misinformation or deception. While prior detectors often rely on token-level likelihoods or opaque black-box classifiers, these approaches struggle against high-quality generations and offer little interpretability. In this work, we propose DivEye, a novel detection framework that captures how unpredictability fluctuates across a text using surprisal-based features. Motivated by the observation that human-authored text exhibits richer variability in lexical and structural unpredictability than LLM outputs, DivEye captures this signal through a set of interpretable statistical features. Our method outperforms existing zero-shot detectors by up to 33.2% and achieves competitive performance with fine-tuned baselines across multiple benchmarks. DivEye is robust to paraphrasing and adversarial attacks, generalizes well across domains and models, and improves the performance of existing detectors by up to 18.7% when used as an auxiliary signal. Beyond detection, DivEye provides interpretable insights into why a text is flagged, pointing to rhythmic unpredictability as a powerful and underexplored signal for LLM detection.


翻译:检测AI生成文本日益成为对抗大型语言模型在教育、商业合规、新闻业及社交媒体领域滥用的必要手段,在这些领域中合成文本的流畅性可能掩盖错误信息或欺骗行为。现有检测器多依赖词元级似然度或不透明的黑盒分类器,这些方法在面对高质量生成文本时效果欠佳,且可解释性不足。本研究提出DivEye,一种新颖的检测框架,通过基于惊异值的特征捕捉文本中不可预测性的波动规律。受人类撰写文本在词汇与结构不可预测性方面比大型语言模型输出呈现更丰富变异性的观察启发,DivEye通过一组可解释的统计特征捕获这一信号。我们的方法在多个基准测试中,相比现有零样本检测器性能提升最高达33.2%,并与微调基线模型达到竞争性表现。DivEye对文本改写和对抗攻击具有鲁棒性,能良好跨领域和跨模型泛化,作为辅助信号使用时可将现有检测器性能提升最高达18.7%。除检测功能外,DivEye为文本被标记的原因提供可解释的洞察,指出节奏性不可预测性是大型语言模型检测中强大且尚未充分探索的信号。

0
下载
关闭预览

相关内容

人工智能杂志AI(Artificial Intelligence)是目前公认的发表该领域最新研究成果的主要国际论坛。该期刊欢迎有关AI广泛方面的论文,这些论文构成了整个领域的进步,也欢迎介绍人工智能应用的论文,但重点应该放在新的和新颖的人工智能方法如何提高应用领域的性能,而不是介绍传统人工智能方法的另一个应用。关于应用的论文应该描述一个原则性的解决方案,强调其新颖性,并对正在开发的人工智能技术进行深入的评估。 官网地址:http://dblp.uni-trier.de/db/journals/ai/
《检索增强生成在AIGC中的应用》综述
专知会员服务
93+阅读 · 2024年3月2日
专栏 | NLP概述和文本自动分类算法详解
机器之心
12+阅读 · 2018年7月24日
谷歌 AI:语义文本相似度研究进展
AI研习社
22+阅读 · 2018年6月13日
推荐|上交大推出Texygen:文本生成模型的基准测试平台
深度学习在文本分类中的应用
AI研习社
13+阅读 · 2018年1月7日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
《图世界模型:概念、分类体系与未来方向》
专知会员服务
0+阅读 · 17分钟前
Palantir AIP平台:连接智能体与决策
专知会员服务
7+阅读 · 今天1:22
《美海军软件测试战略》90页slides
专知会员服务
7+阅读 · 今天1:00
面向具身智能与机器人仿真的三维生成:综述
专知会员服务
8+阅读 · 4月30日
相关VIP内容
《检索增强生成在AIGC中的应用》综述
专知会员服务
93+阅读 · 2024年3月2日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员