Test Suite Minimization (TSM) reduces the size of test suites while preserving their fault detection capability. In black-box TSM, reduction is performed without relying on production-code instrumentation. While several black-box TSM approaches have explored metrics like test logs or test similarity, these often suffer from scalability and efficiency issues. Recently, change history has been explored as a lightweight and scalable indicator for guiding black-box TSM. However, existing approaches treat historical modifications uniformly, ignoring the temporal dynamics of software evolution where recently modified code tends to be more fault-prone. To address this limitation, we introduce temporal modeling into black-box TSM and propose Temporal Risk-driven Test Suite Minimization (TRTM). TRTM extracts modification history from version-control metadata and applies exponential temporal attenuation to weight changes based on recency, producing time-weighted class-level risk scores that reflect fault-proneness. Next, it determines dependencies between test cases and production classes by constructing static call graphs derived solely from test code, preserving the black-box setting. The risk scores of the classes exercised by each test case are then aggregated using statistical measures such as Average and Geometric Mean to compute a risk score for the test case. Finally, test cases with the highest risk scores are selected to construct the reduced suite. Evaluation on a large dataset containing 14 projects with 631 versions shows that TRTM consistently outperforms the state-of-the-art baseline, achieving a mean Accuracy of 0.72 (vs. 0.66) and Fault Detection Rate (FDR) of 0.75 (vs. 0.69), while also reducing execution time.


翻译:测试用例集约简(TSM)可在保留故障检测能力的前提下缩减测试套件规模。黑盒TSM在无需对生产代码进行插桩的情况下实现缩减。尽管已有多种基于测试日志或测试相似度等指标的黑盒TSM方法,但这些方法常面临可扩展性与效率瓶颈。近年研究表明,变更历史可作为轻量级可扩展指标指导黑盒TSM。然而现有方法将历史修改视为均匀分布,忽略了软件演化中近期修改代码更易产生故障的时序动态性。针对该局限,我们将时序建模引入黑盒TSM,提出时序风险驱动的测试用例集约简方法(TRTM)。TRTM从版本控制元数据中提取修改历史,通过指数时序衰减对变更按新旧程度加权,生成反映故障倾向性的时间加权类级风险评分。进而通过仅分析测试代码的静态调用图构建测试用例与生产类之间的依赖关系,保持黑盒设定。采用均值与几何平均数等统计指标聚合每个测试用例覆盖类的风险评分,从而计算该测试用例的风险值。最终选取风险评分最高的测试用例组成精简套件。在包含14个工程项目共631个版本的大规模数据集上的评估表明,TRTM持续优于当前最优基线方法,平均精度达0.72(对比0.66),故障检测率(FDR)达0.75(对比0.69),同时执行时间也显著降低。

0
下载
关闭预览

相关内容

AAAI 2026教程:基于离线数据集的黑盒优化
专知会员服务
16+阅读 · 1月23日
【博士论文】用于概率程序与生成模型的变分推断
专知会员服务
18+阅读 · 2025年10月27日
用于时间序列预测的扩散模型:综述
专知会员服务
30+阅读 · 2025年7月22日
《深度学习在时间序列预测中的应用:综述》
专知会员服务
29+阅读 · 2025年3月14日
《学习型系统的测试与评估》
专知会员服务
61+阅读 · 2023年3月12日
【CMU博士论文】黑盒和多目标优化策略,151页pdf
专知会员服务
53+阅读 · 2022年11月24日
时序异常检测算法概览
论智
29+阅读 · 2018年8月30日
基于 Keras 用深度学习预测时间序列
R语言中文社区
23+阅读 · 2018年7月27日
深度学习时代的目标检测算法
炼数成金订阅号
40+阅读 · 2018年3月19日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员