空白字符不说谎：基于特征驱动与嵌入表示的机器生成代码检测方法 (Whitespaces Don't Lie: Feature-Driven and Embedding-Based Approaches for Detecting Machine-Generated Code) - 专知论文

会员服务 ·

0

代码 · 嵌入 · AUC · 嵌入表 · 嵌入表示 ·

Whitespaces Don't Lie: Feature-Driven and Embedding-Based Approaches for Detecting Machine-Generated Code

翻译：空白字符不说谎：基于特征驱动与嵌入表示的机器生成代码检测方法

Syed Mehedi Hasan Nirob,Shamim Ehsan,Moqsadur Rahman,Summit Haque

Large language models (LLMs) have made it remarkably easy to synthesize plausible source code from natural language prompts. While this accelerates software development and supports learning, it also raises new risks for academic integrity, authorship attribution, and responsible AI use. This paper investigates the problem of distinguishing human-written from machine-generated code by comparing two complementary approaches: feature-based detectors built from lightweight, interpretable stylometric and structural properties of code, and embedding-based detectors leveraging pretrained code encoders. Using a recent large-scale benchmark dataset of 600k human-written and AI-generated code samples, we find that feature-based models achieve strong performance (ROC-AUC 0.995, PR-AUC 0.995, F1 0.971), while embedding-based models with CodeBERT embeddings are also very competitive (ROC-AUC 0.994, PR-AUC 0.994, F1 0.965). Analysis shows that features tied to indentation and whitespace provide particularly discriminative cues, whereas embeddings capture deeper semantic patterns and yield slightly higher precision. These findings underscore the trade-offs between interpretability and generalization, offering practical guidance for deploying robust code-origin detection in academic and industrial contexts.

翻译：大型语言模型（LLMs）显著降低了从自然语言提示生成可信源代码的难度。尽管这加速了软件开发并支持学习过程，但也对学术诚信、作者归属和负责任的人工智能使用带来了新的风险。本文通过比较两种互补方法研究区分人工编写代码与机器生成代码的问题：基于特征的检测器利用代码轻量级、可解释的文体计量与结构属性构建；基于嵌入的检测器则利用预训练的代码编码器。使用近期包含60万个人工编写与AI生成代码样本的大规模基准数据集进行实验，我们发现基于特征的模型实现了强劲性能（ROC-AUC 0.995，PR-AUC 0.995，F1 0.971），而采用CodeBERT嵌入的基于嵌入模型同样具有很强竞争力（ROC-AUC 0.994，PR-AUC 0.994，F1 0.965）。分析表明，与缩进和空白字符相关的特征提供了特别具有区分度的线索，而嵌入则捕获了更深层的语义模式并产生略高的精确率。这些发现揭示了可解释性与泛化能力之间的权衡，为在学术和工业场景中部署鲁棒的代码溯源检测提供了实践指导。

0

相关内容

代码（Code）是专知网的一个重要知识资料文档板块，旨在整理收录论文源代码、复现代码，经典工程代码等，便于用户查阅下载使用。

AI生成代码缺陷综述

AI生成代码缺陷综述

专知会员服务

16+阅读 · 2025年12月8日

【NeurIPS2025】DNA-DetectLLM：基于 DNA 启发的“突变-修复”范式揭示 AI 生成文本

【NeurIPS2025】DNA-DetectLLM：基于 DNA 启发的“突变-修复”范式揭示 AI 生成文本

专知会员服务

12+阅读 · 2025年9月22日

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

专知会员服务

10+阅读 · 2025年9月3日

【伯克利博士论文】基于代码结构感知方法推进代码生成大型语言模型的发展

【伯克利博士论文】基于代码结构感知方法推进代码生成大型语言模型的发展

专知会员服务

23+阅读 · 2025年7月21日

人工智能驱动的自动程序修复与代码生成的技术与进展全面综述

人工智能驱动的自动程序修复与代码生成的技术与进展全面综述

专知会员服务

25+阅读 · 2024年11月15日

GPT文本如何检测？《检测AI生成文本：影响当前方法检测能力的因素》最新综述

GPT文本如何检测？《检测AI生成文本：影响当前方法检测能力的因素》最新综述

专知会员服务

24+阅读 · 2024年7月3日

《大型语言模型代码生成》综述

《大型语言模型代码生成》综述

专知会员服务

68+阅读 · 2024年6月4日

如何检测ChatGPT？TUM最新《检测ChatGPT生成文本现状》综述

如何检测ChatGPT？TUM最新《检测ChatGPT生成文本现状》综述

专知会员服务

41+阅读 · 2023年9月17日

如何检测大模型“幻觉”？剑桥提出SelfCheckGPT: 针对生成型大型语言模型的零资源黑盒子幻觉检测

如何检测大模型“幻觉”？剑桥提出SelfCheckGPT: 针对生成型大型语言模型的零资源黑盒子幻觉检测

专知会员服务

43+阅读 · 2023年8月22日

ChatGP能生成，但搜索行么? 山大百度最新《将大型语言模型作为重排序代理进行研究》

ChatGP能生成，但搜索行么? 山大百度最新《将大型语言模型作为重排序代理进行研究》

专知会员服务

35+阅读 · 2023年4月20日

论文浅尝 | 使用孪生BERT网络生成句子的嵌入表示

论文浅尝 | 使用孪生BERT网络生成句子的嵌入表示

开放知识图谱

25+阅读 · 2019年10月31日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

独家 | 机器学习解释模型：黑盒VS白盒（附资料链接）

独家 | 机器学习解释模型：黑盒VS白盒（附资料链接）

数据派THU

16+阅读 · 2019年4月11日

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软研究院AI头条

57+阅读 · 2019年3月19日

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

PaperWeekly

14+阅读 · 2019年3月18日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

【EMNLP2018干货】254 页《为NLP研究写出好代码》教程

【EMNLP2018干货】254 页《为NLP研究写出好代码》教程

专知

10+阅读 · 2018年11月2日

NLG ≠ 机器写作 | 专家专栏

NLG ≠ 机器写作 | 专家专栏

量子位

13+阅读 · 2018年9月10日

【干货】深入理解自编码器（附代码实现）

【干货】深入理解自编码器（附代码实现）

专知

136+阅读 · 2018年3月9日

白翔：趣谈“捕文捉字”-- 场景文字检测 | VALSE2017之十

白翔：趣谈“捕文捉字”-- 场景文字检测 | VALSE2017之十

深度学习大讲堂

19+阅读 · 2017年9月4日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

面向大类别的空中手写中英文识别技术研究

国家自然科学基金

2+阅读 · 2017年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于网络活动分析的窃密木马检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于构件的可信软件构造及其行为动态可信测评

国家自然科学基金

1+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

脱机手写藏文字符识别研究

国家自然科学基金

0+阅读 · 2014年12月31日

FeatBench: Towards More Realistic Evaluation of Feature-level Code Generation

Arxiv

0+阅读 · 2月18日

Improving Code Generation via Small Language Model-as-a-judge

Arxiv

0+阅读 · 2月12日

From Token to Line: Enhancing Code Generation with a Long-Term Perspective

Arxiv

0+阅读 · 2月9日

AI-Generated Code Is Not Reproducible (Yet): An Empirical Study of Dependency Gaps in LLM-Based Coding Agents

Arxiv

0+阅读 · 2月3日

AICD Bench: A Challenging Benchmark for AI-Generated Code Detection

Arxiv

0+阅读 · 2月2日

On LLMs' Internal Representation of Code Correctness

Arxiv

0+阅读 · 1月21日

Guidelines to Prompt Large Language Models for Code Generation: An Empirical Characterization

Arxiv

0+阅读 · 1月19日

Assessing Small Language Models for Code Generation: An Empirical Study with Benchmarks

Arxiv

0+阅读 · 1月18日

PrivCode: When Code Generation Meets Differential Privacy

Arxiv

0+阅读 · 1月14日

ShortCoder: Knowledge-Augmented Syntax Optimization for Token-Efficient Code Generation

Arxiv

0+阅读 · 1月14日

VIP会员

文章信息

相关主题

相关VIP内容

AI生成代码缺陷综述

AI生成代码缺陷综述

专知会员服务

16+阅读 · 2025年12月8日

【NeurIPS2025】DNA-DetectLLM：基于 DNA 启发的“突变-修复”范式揭示 AI 生成文本

【NeurIPS2025】DNA-DetectLLM：基于 DNA 启发的“突变-修复”范式揭示 AI 生成文本

专知会员服务

12+阅读 · 2025年9月22日

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

专知会员服务

10+阅读 · 2025年9月3日

【伯克利博士论文】基于代码结构感知方法推进代码生成大型语言模型的发展

【伯克利博士论文】基于代码结构感知方法推进代码生成大型语言模型的发展

专知会员服务

23+阅读 · 2025年7月21日

人工智能驱动的自动程序修复与代码生成的技术与进展全面综述

人工智能驱动的自动程序修复与代码生成的技术与进展全面综述

专知会员服务

25+阅读 · 2024年11月15日

GPT文本如何检测？《检测AI生成文本：影响当前方法检测能力的因素》最新综述

GPT文本如何检测？《检测AI生成文本：影响当前方法检测能力的因素》最新综述

专知会员服务

24+阅读 · 2024年7月3日

《大型语言模型代码生成》综述

《大型语言模型代码生成》综述

专知会员服务

68+阅读 · 2024年6月4日

如何检测ChatGPT？TUM最新《检测ChatGPT生成文本现状》综述

如何检测ChatGPT？TUM最新《检测ChatGPT生成文本现状》综述

专知会员服务

41+阅读 · 2023年9月17日

如何检测大模型“幻觉”？剑桥提出SelfCheckGPT: 针对生成型大型语言模型的零资源黑盒子幻觉检测

如何检测大模型“幻觉”？剑桥提出SelfCheckGPT: 针对生成型大型语言模型的零资源黑盒子幻觉检测

专知会员服务

43+阅读 · 2023年8月22日

ChatGP能生成，但搜索行么? 山大百度最新《将大型语言模型作为重排序代理进行研究》

ChatGP能生成，但搜索行么? 山大百度最新《将大型语言模型作为重排序代理进行研究》

专知会员服务

35+阅读 · 2023年4月20日

热门VIP内容

开通专知VIP会员享更多权益服务

论学习、公平性与复杂度

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

2025中国人工智能学会系列白皮书⸺棋盘上的人工智能|附下载

通用智能体评估的逻辑架构

相关资讯

论文浅尝 | 使用孪生BERT网络生成句子的嵌入表示

论文浅尝 | 使用孪生BERT网络生成句子的嵌入表示

开放知识图谱

25+阅读 · 2019年10月31日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

独家 | 机器学习解释模型：黑盒VS白盒（附资料链接）

独家 | 机器学习解释模型：黑盒VS白盒（附资料链接）

数据派THU

16+阅读 · 2019年4月11日

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软研究院AI头条

57+阅读 · 2019年3月19日

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

PaperWeekly

14+阅读 · 2019年3月18日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

【EMNLP2018干货】254 页《为NLP研究写出好代码》教程

【EMNLP2018干货】254 页《为NLP研究写出好代码》教程

专知

10+阅读 · 2018年11月2日

NLG ≠ 机器写作 | 专家专栏

NLG ≠ 机器写作 | 专家专栏

量子位

13+阅读 · 2018年9月10日

【干货】深入理解自编码器（附代码实现）

【干货】深入理解自编码器（附代码实现）

专知

136+阅读 · 2018年3月9日

白翔：趣谈“捕文捉字”-- 场景文字检测 | VALSE2017之十

白翔：趣谈“捕文捉字”-- 场景文字检测 | VALSE2017之十

深度学习大讲堂

19+阅读 · 2017年9月4日

相关论文

FeatBench: Towards More Realistic Evaluation of Feature-level Code Generation

Arxiv

0+阅读 · 2月18日

Improving Code Generation via Small Language Model-as-a-judge

Arxiv

0+阅读 · 2月12日

From Token to Line: Enhancing Code Generation with a Long-Term Perspective

Arxiv

0+阅读 · 2月9日

AI-Generated Code Is Not Reproducible (Yet): An Empirical Study of Dependency Gaps in LLM-Based Coding Agents

Arxiv

0+阅读 · 2月3日

AICD Bench: A Challenging Benchmark for AI-Generated Code Detection

Arxiv

0+阅读 · 2月2日

On LLMs' Internal Representation of Code Correctness

Arxiv

0+阅读 · 1月21日

Guidelines to Prompt Large Language Models for Code Generation: An Empirical Characterization

Arxiv

0+阅读 · 1月19日

Assessing Small Language Models for Code Generation: An Empirical Study with Benchmarks

Arxiv

0+阅读 · 1月18日

PrivCode: When Code Generation Meets Differential Privacy

Arxiv

0+阅读 · 1月14日

ShortCoder: Knowledge-Augmented Syntax Optimization for Token-Efficient Code Generation

Arxiv

0+阅读 · 1月14日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

面向大类别的空中手写中英文识别技术研究

国家自然科学基金

2+阅读 · 2017年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于网络活动分析的窃密木马检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于构件的可信软件构造及其行为动态可信测评

国家自然科学基金

1+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

脱机手写藏文字符识别研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员