Traceability information between requirements and source code greatly benefits the maintenance of a software system. Since manually establishing trace links is cumbersome and error-prone, previous research explored automated traceability link recovery (TLR) approaches to support this task. However, quality defects in requirements impact subsequent activities such as TLR, yet evidence about this remains scarce. Our objective is to contribute empirical evidence on this impact. At the same time, we aim to understand how the performance of TLR approaches varies given these quality defects. To this end, we annotated 28 types of quality defect in 189 use case descriptions from two datasets. Then, we executed five distinct TLR approaches on the dataset and measured their performance in recovering trace links. Finally, we performed statistical tests to quantify the defects' effect strength on this performance. Our results show that some quality defects harm TLR performance, e.g., sentences that do not start with noun phrases, while others actually benefit performance, e.g., use cases that include implementation details. Moreover, different types of approaches respond differently to these defects. As a consequence, the performance-optimizing choice of a TLR approach depends on the quality of the dataset.


翻译:需求与源代码之间的可追溯性信息对软件系统的维护大有裨益。由于手动建立可追溯链接既繁琐又易出错,先前的研究探索了自动化可追溯性链接恢复(TLR)方法来支持这一任务。然而,需求中的质量缺陷会影响后续活动(如TLR),但相关证据仍然匮乏。我们的目标是为此影响提供经验性证据。同时,我们旨在理解给定这些质量缺陷后,TLR方法的表现如何变化。为此,我们在来自两个数据集的189个用例描述中标注了28种质量缺陷。随后,我们在数据集上执行了五种不同的TLR方法,并测量了它们在恢复可追溯链接方面的性能。最后,我们进行统计检验以量化缺陷对该性能的影响强度。结果表明,某些质量缺陷会损害TLR性能(例如,不以名词短语开头的句子),而其他缺陷实际上有利于性能(例如,包含实现细节的用例)。此外,不同类型的方法对这些缺陷的反应不同。因此,TLR方法的性能优化选择取决于数据集的质量。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
《可信的医学问答:以评估为中心的综述》
专知会员服务
13+阅读 · 2025年6月5日
深度强化学习中的可塑性损失:综述
专知会员服务
22+阅读 · 2024年11月8日
生成先验的信号恢复
专知会员服务
22+阅读 · 2023年1月5日
专知会员服务
14+阅读 · 2021年9月21日
专知会员服务
14+阅读 · 2020年12月17日
图像修复研究进展综述
专知
20+阅读 · 2021年3月9日
推荐系统主流召回方法综述
AINLP
10+阅读 · 2020年7月16日
一行命令搞定图像质量评价
计算机视觉life
12+阅读 · 2019年12月31日
推荐召回算法之深度召回模型串讲
AINLP
22+阅读 · 2019年6月14日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月5日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关资讯
图像修复研究进展综述
专知
20+阅读 · 2021年3月9日
推荐系统主流召回方法综述
AINLP
10+阅读 · 2020年7月16日
一行命令搞定图像质量评价
计算机视觉life
12+阅读 · 2019年12月31日
推荐召回算法之深度召回模型串讲
AINLP
22+阅读 · 2019年6月14日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员