Code comments serve a crucial role in software development for documenting functionality, clarifying design choices, and assisting with issue tracking. They capture developers' insights about the surrounding source code, serving as an essential resource for both human comprehension and automated analysis. Nevertheless, since comments are in natural language, they present challenges for machine-based code understanding. To address this, recent studies have applied natural language processing (NLP) and deep learning techniques to classify comments according to developers' intentions. However, existing datasets for this task suffer from size limitations and class imbalance, as they rely on manual annotations and may not accurately represent the distribution of comments in real-world codebases. To overcome this issue, we introduce new synthetic oversampling and augmentation techniques based on high-quality data generation to enhance the NLBSE'26 challenge datasets. Our Synthetic Quality Oversampling Technique and Augmentation Technique (Q-SYNTH) yield promising results, improving the base classifier by $2.56\%$.


翻译:代码注释在软件开发中发挥着关键作用,用于记录功能、阐明设计选择并协助问题追踪。它们捕捉了开发者对相关源代码的见解,既是人类理解也是自动化分析的重要资源。然而,由于注释采用自然语言形式,这给基于机器的代码理解带来了挑战。为解决这一问题,近期研究应用自然语言处理(NLP)和深度学习技术,根据开发者意图对注释进行分类。然而,现有用于此任务的数据集存在规模限制和类别不平衡问题,因为它们依赖人工标注,且可能无法准确反映真实代码库中注释的分布情况。为克服此问题,我们引入了基于高质量数据生成的新型合成过采样与增强技术,以改进NLBSE'26挑战数据集。我们提出的合成质量过采样与增强技术(Q-SYNTH)取得了显著成果,将基线分类器的性能提升了$2.56\%$。

0
下载
关闭预览

相关内容

代码(Code)是专知网的一个重要知识资料文档板块,旨在整理收录论文源代码、复现代码,经典工程代码等,便于用户查阅下载使用。
通过强化学习增强代码生成中的代码大语言模型:综述
专知会员服务
29+阅读 · 2025年1月1日
《深度学习代码智能》综述、基准和工具集
专知会员服务
56+阅读 · 2024年1月2日
专知会员服务
66+阅读 · 2021年7月11日
【经典书】自然语言标注—用于机器学习,341页pdf
专知会员服务
55+阅读 · 2021年2月12日
【干货书】面向机器学习的自然语言标注,341页pdf
专知会员服务
68+阅读 · 2021年2月7日
专知会员服务
16+阅读 · 2021年1月23日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
专栏 | NLP概述和文本自动分类算法详解
机器之心
12+阅读 · 2018年7月24日
【干货】深入理解变分自编码器
专知
21+阅读 · 2018年3月22日
【干货】深入理解自编码器(附代码实现)
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员