Reassessing Code Authorship Attribution in the Era of Language Models - 专知论文

会员服务 ·

0

代码 · 语言模型 · 软件 · 分析 · 软件工程 ·

Reassessing Code Authorship Attribution in the Era of Language Models

翻译：重新评估语言模型时代的代码作者归属

Atish Kumar Dipongkor,Ziyu Yao,Kevin Moran

from arxiv, Accepted in TOSEM

The study of Code Stylometry, and in particular Code Authorship Attribution (CAA), aims to analyze coding styles to identify the authors of code samples. CAA has been illustrated to be an important component of automating software engineering (SE) tasks such as bug triaging, fault localization, and test prioritization. In addition, CAA is also important in cybersecurity and software forensics for addressing copyright disputes and detecting plagiarism. Past techniques for CAA tend to leverage hand-crafted code-related features typically carry limitations that prevent proper authorship characterization and lead to sensitivities to adversarial attacks. Recently, transformer-based Language Models (LMs) have shown remarkable efficacy across a range of SE tasks, and in authorship attribution for natural language in the NLP domain. However, their effectiveness in CAA is not well understood. As such, we conduct the first extensive empirical study applying two larger state-of-the-art code LMs, and five smaller code LMs to the task of CAA on six diverse datasets that encompass 12k code snippets written by 463 developers. Furthermore, we perform an in-depth quantitative and qualitative analysis of our studied models' performance on CAA using established interpretability techniques. Our results illustrate important aspects of the behavior of LMs in understanding stylometric code patterns.

翻译：代码风格学（Code Stylometry），尤其是代码作者归属（Code Authorship Attribution, CAA）研究，旨在通过分析编码风格来识别代码样本的作者。已有研究表明，CAA是自动化软件工程（SE）任务（如缺陷分类、故障定位和测试优先级排序）的重要组成。此外，CAA在网络安全与软件取证领域，对于解决版权纠纷和检测剽窃亦具有重要意义。以往CAA技术多依赖手工设计的代码相关特征，这类方法通常存在局限性，无法准确刻画作者风格，且对对抗性攻击敏感。近年来，基于Transformer的语言模型（LMs）在多项软件工程任务及自然语言处理（NLP）领域的作者归属任务中展现出卓越效果。然而，其在CAA中的有效性尚未得到充分理解。为此，我们开展了首次大规模实证研究，将两个大型先进代码语言模型及五个小型代码语言模型应用于CAA任务，并使用六个包含463位开发者编写的12,000个代码片段的不同数据集。此外，我们利用成熟的解释性技术，对所研究模型在CAA任务上的表现进行了深入的定量与定性分析。实验结果揭示了语言模型在理解风格化代码模式时的关键行为特征。

0

相关内容

代码（Code）是专知网的一个重要知识资料文档板块，旨在整理收录论文源代码、复现代码，经典工程代码等，便于用户查阅下载使用。

博士论文 | 用代码结构感知方法推进代码大模型

博士论文 | 用代码结构感知方法推进代码大模型

专知会员服务

9+阅读 · 7月25日

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

专知会员服务

18+阅读 · 5月20日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

重新思考代理混合模型：混合不同的大型语言模型是否有益？

重新思考代理混合模型：混合不同的大型语言模型是否有益？

专知会员服务

20+阅读 · 2025年2月9日

【NeurIPS2024】IDGen：基于项目区分度的提示生成用于大型语言模型评估

【NeurIPS2024】IDGen：基于项目区分度的提示生成用于大型语言模型评估

专知会员服务

14+阅读 · 2024年9月30日

《大型语言模型代码生成》综述

《大型语言模型代码生成》综述

专知会员服务

70+阅读 · 2024年6月4日

大模型如何代码建模？上交大等最新《语言模型与代码生成》综述，涵盖了50多个模型、30多个评估任务和500个相关工作

大模型如何代码建模？上交大等最新《语言模型与代码生成》综述，涵盖了50多个模型、30多个评估任务和500个相关工作

专知会员服务

56+阅读 · 2023年11月16日

《大型语言模型归因》综述

《大型语言模型归因》综述

专知会员服务

75+阅读 · 2023年11月8日

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

专知会员服务

32+阅读 · 2020年2月21日

【IJCAI 2019 Tutorials】概念编码：深度学习的方面情感分类（Concept to Code: Aspect Sentiment Classification with Deep Learning）

【IJCAI 2019 Tutorials】概念编码：深度学习的方面情感分类（Concept to Code: Aspect Sentiment Classification with Deep Learning）

专知会员服务

24+阅读 · 2019年8月11日

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

论文浅尝 | 重新实验评估知识图谱补全方法

论文浅尝 | 重新实验评估知识图谱补全方法

开放知识图谱

28+阅读 · 2020年3月29日

命名实体识别新SOTA：改进Transformer模型

命名实体识别新SOTA：改进Transformer模型

AI科技评论

17+阅读 · 2019年11月26日

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

专知

19+阅读 · 2019年11月22日

Github项目推荐 | Sentence Classification - 神经网络句子分类(陈述/疑问/感叹/祈使)

Github项目推荐 | Sentence Classification - 神经网络句子分类(陈述/疑问/感叹/祈使)

AI研习社

14+阅读 · 2019年1月16日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

深度学习与NLP

25+阅读 · 2018年8月22日

【干货】深入理解自编码器（附代码实现）

【干货】深入理解自编码器（附代码实现）

专知

136+阅读 · 2018年3月9日

【论文推荐】最新7篇变分自编码器（VAE）相关论文—汉语诗歌、生成模型、跨模态、MR图像重建、机器翻译、推断、合成人脸

【论文推荐】最新7篇变分自编码器（VAE）相关论文—汉语诗歌、生成模型、跨模态、MR图像重建、机器翻译、推断、合成人脸

专知

11+阅读 · 2018年2月12日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

基于多源语义表示学习的社交媒体文本属性情感分类研究

国家自然科学基金

4+阅读 · 2017年12月31日

“模块化自组装”DNA计算模型的研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

基于格值逻辑的语言真值α-群锁语义归结自动推理研究

国家自然科学基金

0+阅读 · 2015年12月31日

编码和信息安全中的数学问题

国家自然科学基金

1+阅读 · 2015年12月31日

有限域上的代数曲线在纠错码构造中的几点应用

国家自然科学基金

0+阅读 · 2015年12月31日

中英文论文中的中国作者姓名消歧研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

可重构的环境自适应RS码软判决译码器研究

国家自然科学基金

0+阅读 · 2014年12月31日

Quo Vadis, Code Review? Exploring the Future of Code Review

Arxiv

0+阅读 · 6月12日

Authorship Attribution in Multilingual Machine-Generated Texts

Arxiv

0+阅读 · 6月11日

HybridCodeAuthorship: A Benchmark Dataset for Line-Level Code Authorship Detection

Arxiv

0+阅读 · 6月10日

Code-QA-Bench: Separating Code Reasoning from Documentation Memorization in Repository-Level QA

Arxiv

0+阅读 · 5月28日

Regression Language Models for Code

Arxiv

0+阅读 · 5月27日

Rethinking Code Complexity Through the Lens of Large Language Models

Arxiv

0+阅读 · 5月27日

Authorship Attribution in the Era of LLMs: Problems, Methodologies, and Challenges

Arxiv

0+阅读 · 5月26日

Subjective Code Preferences in Experts and Large Language Models

Arxiv

0+阅读 · 5月24日

Specification-Based Code-Text-Code Reengineering for LLM-Mediated Software Evolution

Arxiv

0+阅读 · 5月24日

Where Does Authorship Signal Emerge in Encoder-Based Language Models?

Arxiv

0+阅读 · 5月19日

VIP会员

文章信息

相关主题

最新内容

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

7+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

“史诗怒火”行动：现代多域作战的重要节点

“史诗怒火”行动：现代多域作战的重要节点

专知会员服务

8+阅读 · 7月30日

《下一代无线网络中的多无人机通信资源管理》

《下一代无线网络中的多无人机通信资源管理》

专知会员服务

8+阅读 · 7月30日

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

专知会员服务

9+阅读 · 7月30日

《人机协同在安全关键型操作决策中的应用》120页

《人机协同在安全关键型操作决策中的应用》120页

专知会员服务

8+阅读 · 7月30日

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

专知会员服务

6+阅读 · 7月30日

相关VIP内容

博士论文 | 用代码结构感知方法推进代码大模型

博士论文 | 用代码结构感知方法推进代码大模型

专知会员服务

9+阅读 · 7月25日

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

专知会员服务

18+阅读 · 5月20日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

重新思考代理混合模型：混合不同的大型语言模型是否有益？

重新思考代理混合模型：混合不同的大型语言模型是否有益？

专知会员服务

20+阅读 · 2025年2月9日

【NeurIPS2024】IDGen：基于项目区分度的提示生成用于大型语言模型评估

【NeurIPS2024】IDGen：基于项目区分度的提示生成用于大型语言模型评估

专知会员服务

14+阅读 · 2024年9月30日

《大型语言模型代码生成》综述

《大型语言模型代码生成》综述

专知会员服务

70+阅读 · 2024年6月4日

大模型如何代码建模？上交大等最新《语言模型与代码生成》综述，涵盖了50多个模型、30多个评估任务和500个相关工作

大模型如何代码建模？上交大等最新《语言模型与代码生成》综述，涵盖了50多个模型、30多个评估任务和500个相关工作

专知会员服务

56+阅读 · 2023年11月16日

《大型语言模型归因》综述

《大型语言模型归因》综述

专知会员服务

75+阅读 · 2023年11月8日

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

专知会员服务

32+阅读 · 2020年2月21日

【IJCAI 2019 Tutorials】概念编码：深度学习的方面情感分类（Concept to Code: Aspect Sentiment Classification with Deep Learning）

【IJCAI 2019 Tutorials】概念编码：深度学习的方面情感分类（Concept to Code: Aspect Sentiment Classification with Deep Learning）

专知会员服务

24+阅读 · 2019年8月11日

热门VIP内容

开通专知VIP会员享更多权益服务

隐身技术前沿综述：物理机理、工程实践与战略展望

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

相关资讯

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

论文浅尝 | 重新实验评估知识图谱补全方法

论文浅尝 | 重新实验评估知识图谱补全方法

开放知识图谱

28+阅读 · 2020年3月29日

命名实体识别新SOTA：改进Transformer模型

命名实体识别新SOTA：改进Transformer模型

AI科技评论

17+阅读 · 2019年11月26日

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

专知

19+阅读 · 2019年11月22日

Github项目推荐 | Sentence Classification - 神经网络句子分类(陈述/疑问/感叹/祈使)

Github项目推荐 | Sentence Classification - 神经网络句子分类(陈述/疑问/感叹/祈使)

AI研习社

14+阅读 · 2019年1月16日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

深度学习与NLP

25+阅读 · 2018年8月22日

【干货】深入理解自编码器（附代码实现）

【干货】深入理解自编码器（附代码实现）

专知

136+阅读 · 2018年3月9日

【论文推荐】最新7篇变分自编码器（VAE）相关论文—汉语诗歌、生成模型、跨模态、MR图像重建、机器翻译、推断、合成人脸

【论文推荐】最新7篇变分自编码器（VAE）相关论文—汉语诗歌、生成模型、跨模态、MR图像重建、机器翻译、推断、合成人脸

专知

11+阅读 · 2018年2月12日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

相关论文

Quo Vadis, Code Review? Exploring the Future of Code Review

Arxiv

0+阅读 · 6月12日

Authorship Attribution in Multilingual Machine-Generated Texts

Arxiv

0+阅读 · 6月11日

HybridCodeAuthorship: A Benchmark Dataset for Line-Level Code Authorship Detection

Arxiv

0+阅读 · 6月10日

Code-QA-Bench: Separating Code Reasoning from Documentation Memorization in Repository-Level QA

Arxiv

0+阅读 · 5月28日

Regression Language Models for Code

Arxiv

0+阅读 · 5月27日

Rethinking Code Complexity Through the Lens of Large Language Models

Arxiv

0+阅读 · 5月27日

Authorship Attribution in the Era of LLMs: Problems, Methodologies, and Challenges

Arxiv

0+阅读 · 5月26日

Subjective Code Preferences in Experts and Large Language Models

Arxiv

0+阅读 · 5月24日

Specification-Based Code-Text-Code Reengineering for LLM-Mediated Software Evolution

Arxiv

0+阅读 · 5月24日

Where Does Authorship Signal Emerge in Encoder-Based Language Models?

Arxiv

0+阅读 · 5月19日

相关基金

基于多源语义表示学习的社交媒体文本属性情感分类研究

国家自然科学基金

4+阅读 · 2017年12月31日

“模块化自组装”DNA计算模型的研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

基于格值逻辑的语言真值α-群锁语义归结自动推理研究

国家自然科学基金

0+阅读 · 2015年12月31日

编码和信息安全中的数学问题

国家自然科学基金

1+阅读 · 2015年12月31日

有限域上的代数曲线在纠错码构造中的几点应用

国家自然科学基金

0+阅读 · 2015年12月31日

中英文论文中的中国作者姓名消歧研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

可重构的环境自适应RS码软判决译码器研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员