Issue assignment is a critical process in software maintenance, where new issue reports are validated and assigned to suitable developers. However, manual issue assignment is often inconsistent and error-prone, especially in large open-source projects where thousands of new issues are reported monthly. Existing automated approaches have shown promise, but many rely heavily on large volumes of project-specific training data or relational information that is often sparse and noisy, which limits their effectiveness. To address these challenges, we propose LIA (LLM-based Issue Assignment), which employs supervised fine-tuning to adapt an LLM, DeepSeek-R1-Distill-Llama-8B in this work, for automatic issue assignment. By leveraging the LLM's pretrained semantic understanding of natural language and software-related text, LIA learns to generate ranked developer recommendations directly from issue titles and descriptions. The ranking is based on the model's learned understanding of historical issue-to-developer assignments, using patterns from past tasks to infer which developers are most likely to handle new issues. Through comprehensive evaluation, we show that LIA delivers substantial improvements over both its base pretrained model and state-of-the-art baselines. It achieves up to +187.8% higher Hit@1 compared to the DeepSeek-R1-Distill-Llama-8B pretrained base model, and outperforms four leading issue assignment methods by as much as +211.2% in Hit@1 score. These results highlight the effectiveness of domain-adapted LLMs for software maintenance tasks and establish LIA as a practical, high-performing solution for issue assignment.


翻译:问题分配是软件维护中的关键流程,涉及对新提交的问题报告进行验证并分配给合适的开发人员。然而,人工分配方式往往存在不一致性且容易出错,特别是在每月产生数千个新问题的大型开源项目中。现有的自动化方法已展现出潜力,但大多严重依赖大量项目特定训练数据或通常稀疏且嘈杂的关系信息,这限制了其有效性。为应对这些挑战,本文提出LIA(基于大语言模型的问题分配方法),该方法通过监督微调使大语言模型(本研究采用DeepSeek-R1-Distill-Llama-8B)适配自动问题分配任务。LIA利用大语言模型对自然语言及软件相关文本的预训练语义理解能力,直接从问题标题和描述中学习生成排序的开发者推荐列表。该排序基于模型对历史问题-开发者分配关系的学习理解,通过分析过往任务模式来推断最可能处理新问题的开发者。综合评估表明,LIA相比其基础预训练模型和现有最优基线方法均有显著提升:在Hit@1指标上较DeepSeek-R1-Distill-Llama-8B基础预训练模型提升最高达+187.8%,并在Hit@1分数上超越四种主流问题分配方法最高达+211.2%。这些结果凸显了领域适配大语言模型在软件维护任务中的有效性,确立了LIA作为实用高效的问题分配解决方案。

0
下载
关闭预览

相关内容

【AAAI2025】TimeDP:通过领域提示学习生成多领域时间序列
【NeurIPS2024】IPO: 面向视觉-语言模型的可解释提示优化
专知会员服务
22+阅读 · 2024年10月23日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员