Large language models (LLMs) are increasingly capable of generating functional source code, raising concerns about authorship, accountability, and security. While detecting AI-generated code is critical, existing datasets and benchmarks are narrow, typically limited to binary human-machine classification under in-distribution settings. To bridge this gap, we introduce $\emph{AICD Bench}$, the most comprehensive benchmark for AI-generated code detection. It spans $\emph{2M examples}$, $\emph{77 models}$ across $\emph{11 families}$, and $\emph{9 programming languages}$, including recent reasoning models. Beyond scale, AICD Bench introduces three realistic detection tasks: ($\emph{i}$)~$\emph{Robust Binary Classification}$ under distribution shifts in language and domain, ($\emph{ii}$)~$\emph{Model Family Attribution}$, grouping generators by architectural lineage, and ($\emph{iii}$)~$\emph{Fine-Grained Human-Machine Classification}$ across human, machine, hybrid, and adversarial code. Extensive evaluation on neural and classical detectors shows that performance remains far below practical usability, particularly under distribution shift and for hybrid or adversarial code. We release AICD Bench as a $\emph{unified, challenging evaluation suite}$ to drive the next generation of robust approaches for AI-generated code detection. The data and the code are available at https://huggingface.co/AICD-bench}.


翻译:大型语言模型(LLMs)生成功能性源代码的能力日益增强,引发了关于作者身份、责任归属和安全性的担忧。尽管检测AI生成的代码至关重要,但现有的数据集和基准范围狭窄,通常仅限于分布内设置下的二元人机分类。为弥补这一差距,我们引入了$\emph{AICD Bench}$,这是目前最全面的AI生成代码检测基准。它涵盖$\emph{200万个样本}$,涉及$\emph{11个模型族}$中的$\emph{77个模型}$以及$\emph{9种编程语言}$,包括最新的推理模型。除了规模之外,AICD Bench引入了三项现实检测任务:($\emph{i}$)~语言和领域分布偏移下的$\emph{鲁棒二元分类}$,($\emph{ii}$)~按架构谱系对生成器进行分组的$\emph{模型族溯源}$,以及($\emph{iii}$)~涵盖人工、机器、混合及对抗性代码的$\emph{细粒度人机分类}$。对神经和经典检测器的广泛评估表明,其性能远未达到实际可用水平,尤其在分布偏移下以及对混合或对抗性代码的检测中。我们发布AICD Bench作为一个$\emph{统一且具有挑战性的评估套件}$,以推动下一代鲁棒的AI生成代码检测方法的发展。数据和代码可在https://huggingface.co/AICD-bench获取。

0
下载
关闭预览

相关内容

代码(Code)是专知网的一个重要知识资料文档板块,旨在整理收录论文源代码、复现代码,经典工程代码等,便于用户查阅下载使用。
AI生成代码缺陷综述
专知会员服务
16+阅读 · 2025年12月8日
生成式人工智能大型语言模型的安全性:概述
专知会员服务
35+阅读 · 2024年7月30日
如何检测ChatGPT?TUM最新《检测ChatGPT生成文本现状》综述
NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿
中国人工智能学会
12+阅读 · 2018年11月15日
深度学习文本分类方法综述(代码)
中国人工智能学会
28+阅读 · 2018年6月16日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员