Performance regression testing is essential in large-scale continuous-integration (CI) systems, yet executing full performance suites for every commit is prohibitively expensive. Prior work on performance regression prediction and batch testing has shown independent benefits, but each faces practical limitations: predictive models are rarely integrated into CI decision-making, and conventional batching strategies ignore commit-level heterogeneity. We unify these strands by introducing a risk-aware framework that integrates machine-learned commit risk with adaptive batching. Using Mozilla Firefox as a case study, we construct a production-derived dataset of human-confirmed regressions aligned chronologically with Autoland, and fine-tune ModernBERT, CodeBERT, and LLaMA-3.1 variants to estimate commit-level performance regression risk, achieving up to 0.694 ROC-AUC with CodeBERT. The risk scores drive a family of risk-aware batching strategies, including Risk-Aged Priority Batching and Risk-Adaptive Stream Batching, evaluated through realistic CI simulations. Across thousands of historical Firefox commits, our best overall configuration, Risk-Aged Priority Batching with linear aggregation (RAPB-la), yields a Pareto improvement over Mozilla's production-inspired baseline. RAPB-la reduces total test executions by 32.4%, decreases mean feedback time by 3.8%, maintains mean time-to-culprit at approximately the baseline level, reduces maximum time-to-culprit by 26.2%, and corresponds to an estimated annual infrastructure cost savings of approximately $491K under our cost model. These results demonstrate that risk-aware batch testing can reduce CI resource consumption while improving diagnostic timeliness. To support reproducibility and future research, we release a complete replication package containing all datasets, fine-tuning pipelines, and implementations of our batching algorithms.


翻译:性能回归测试在大规模持续集成系统中至关重要,但对每个提交执行完整的性能测试套件成本过高。先前关于性能回归预测和批量测试的研究已显示其独立优势,但各自面临实际限制:预测模型很少被集成到持续集成决策中,而传统批量策略忽略了提交级别的异构性。我们通过引入一个风险感知框架来统一这些研究方向,该框架将机器学习预测的提交风险与自适应批量测试相结合。以Mozilla Firefox为案例,我们构建了一个包含人工确认回归的生产数据集,按时间顺序与Autoland对齐,并微调ModernBERT、CodeBERT和LLaMA-3.1变体以估计提交级别的性能回归风险,其中CodeBERT实现了0.694的ROC-AUC。风险得分驱动了一系列风险感知的批量策略,包括风险老化优先级批量测试和风险自适应流式批量测试,并通过逼真的持续集成仿真进行评估。在数千个历史Firefox提交中,我们最佳的整体配置——采用线性聚合的风险老化优先级批量测试——相比Mozilla的生产基线实现了帕累托改进。RAPB-la将总测试执行次数减少了32.4%,平均反馈时间降低了3.8%,平均归因时间保持在基线水平附近,最大归因时间减少了26.2%,在我们的成本模型下对应每年约49.1万美元的基础设施成本节约。这些结果表明,风险感知的批量测试能在减少持续集成资源消耗的同时提高诊断时效性。为支持可复现性和未来研究,我们发布了一个完整的复现包,包含所有数据集、微调流程以及批量测试算法的实现。

0
下载
关闭预览

相关内容

《应对人工智能系统测试和评估新挑战的最佳实践》
专知会员服务
90+阅读 · 2023年8月7日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
数据分析师应该知道的16种回归技术:岭回归
数萃大数据
15+阅读 · 2018年8月11日
数据分析师应该知道的16种回归技术:分位数回归
数萃大数据
29+阅读 · 2018年8月8日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关主题
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
6+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
2+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
9+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
11+阅读 · 6月17日
相关VIP内容
《应对人工智能系统测试和评估新挑战的最佳实践》
专知会员服务
90+阅读 · 2023年8月7日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员