AI-Assisted Unit Test Writing and Test-Driven Code Refactoring: A Case Study - 专知论文

会员服务 ·

0

AI-Assisted Unit Test Writing and Test-Driven Code Refactoring: A Case Study

翻译：AI辅助单元测试编写与测试驱动代码重构：案例研究

Ema Smolic,Mario Brcic,Luka Hobor,Mihael Kovac

from arxiv, 6 pages, 3 figures, 2 tables

Many software systems originate as prototypes or minimum viable products (MVPs), developed with an emphasis on delivery speed and responsiveness to changing requirements rather than long-term code maintainability. While effective for rapid delivery, this approach can result in codebases that are difficult to modify, presenting a significant opportunity cost in the era of AI-assisted or even AI-led programming. In this paper, we present a case study of using coding models for automated unit test generation and subsequent safe refactoring, with proposed code changes validated by passing tests. The study examines best practices for iteratively generating tests to capture existing system behavior, followed by model-assisted refactoring under developer supervision. We describe how this workflow constrained refactoring changes, the errors and limitations observed in both phases, the efficiency gains achieved, when manual intervention was necessary, and how we addressed the weak value misalignment we observed in models. Using this approach, we generated nearly 16,000 lines of reliable unit tests in hours rather than weeks, achieved up to 78\% branch coverage in critical modules, and significantly reduced regression risk during large-scale refactoring. These results illustrate software engineering's shift toward an empirical science, emphasizing data collection and constraining mechanisms that support fast, safe iteration.

翻译：许多软件系统最初以原型或最小可行产品（MVP）的形式开发，其开发重点在于交付速度和对不断变化需求的响应能力，而非长期代码可维护性。虽然这种方法有助于快速交付，但可能导致代码库难以修改，在AI辅助甚至AI主导编程的时代，这构成了巨大的机会成本。本文通过案例研究，探讨了如何使用编码模型自动生成单元测试并随后进行安全重构，同时通过测试通过率验证代码修改的有效性。研究考察了迭代生成测试以捕获现有系统行为的最佳实践，随后在开发者监督下进行模型辅助重构。我们描述了该工作流程如何约束重构变更、两个阶段中观察到的错误与局限性、实现的效率提升、需要人工干预的情况，以及如何解决模型中观察到的弱价值偏差问题。采用该方法，我们在数小时内（而非数周内）生成了近1.6万行可靠的单元测试代码，关键模块的分支覆盖率高达78%，并在大规模重构过程中显著降低了回归风险。这些结果展示了软件工程向实证科学的转变，强调数据收集和约束机制对支持快速安全迭代的重要性。

0

相关内容

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

专知会员服务

17+阅读 · 5月20日

【综述】智能体AI如何重塑软件开发生命周期：从代码补全到人类监督下的委托执行

【综述】智能体AI如何重塑软件开发生命周期：从代码补全到人类监督下的委托执行

专知会员服务

14+阅读 · 5月2日

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

25+阅读 · 3月8日

AI生成代码缺陷综述

AI生成代码缺陷综述

专知会员服务

17+阅读 · 2025年12月8日

《软件定义网络元素与机器代码的形式化验证》

《软件定义网络元素与机器代码的形式化验证》

专知会员服务

14+阅读 · 2025年11月18日

【新书】使用AI智能体构建应用程序

【新书】使用AI智能体构建应用程序

专知会员服务

61+阅读 · 2024年10月26日

【ETHZ博士论文】机器学习代码: 安全性与可靠性

【ETHZ博士论文】机器学习代码: 安全性与可靠性

专知会员服务

19+阅读 · 2024年10月25日

【新书】AI驱动的开发者：使用ChatGPT和Copilot构建出色的软件

【新书】AI驱动的开发者：使用ChatGPT和Copilot构建出色的软件

专知会员服务

48+阅读 · 2024年9月23日

【新书】AI驱动的开发者：使用ChatGPT和Copilot构建优秀的软件，242页pdf

【新书】AI驱动的开发者：使用ChatGPT和Copilot构建优秀的软件，242页pdf

专知会员服务

68+阅读 · 2024年8月24日

ChatGPT的代码生成是怎么做的？「基于深度学习的代码生成方法」最新研究进展

ChatGPT的代码生成是怎么做的？「基于深度学习的代码生成方法」最新研究进展

专知会员服务

62+阅读 · 2023年4月1日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

专知

40+阅读 · 2022年10月19日

如何进AI大厂？这本书400页《深度学习面试指南》书202页pdf简介实战中DL问题与解决答案，

如何进AI大厂？这本书400页《深度学习面试指南》书202页pdf简介实战中DL问题与解决答案，

专知

10+阅读 · 2022年1月5日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

AI可解释性文献列表

AI可解释性文献列表

专知

43+阅读 · 2019年10月7日

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

专知

11+阅读 · 2019年2月8日

类脑计算的前沿论文，看我们推荐的这7篇

类脑计算的前沿论文，看我们推荐的这7篇

人工智能前沿讲习班

21+阅读 · 2019年1月7日

【EMNLP2018干货】254 页《为NLP研究写出好代码》教程

【EMNLP2018干货】254 页《为NLP研究写出好代码》教程

专知

10+阅读 · 2018年11月2日

《软件方法》1-8章全部自测题更新内容

《软件方法》1-8章全部自测题更新内容

UMLChina

11+阅读 · 2018年3月26日

【下载】面向机器智能的TensorFlow实践书籍和代码

【下载】面向机器智能的TensorFlow实践书籍和代码

专知

20+阅读 · 2017年12月25日

数据驱动关键性能指标相关的故障诊断方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

具有重构特征的系统可靠性建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向全生命周期的可信软件测度模型和过程改进工具研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于构件的可信软件构造及其行为动态可信测评

国家自然科学基金

1+阅读 · 2014年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Vibe Coding in Product Teams: Reconfiguring AI-Assisted Workflows, Prototyping, and Collaboration

Arxiv

0+阅读 · 5月1日

The Buy-or-Build Decision, Revisited: How Agentic AI Changes the Economics of Enterprise Software

Arxiv

1+阅读 · 4月29日

Adaptive and AI-Augmented Security Testing: A Systematic Survey of Program Analysis, Feedback-Driven Testing, and Hybrid Learning-Based Approaches

Arxiv

0+阅读 · 4月29日

Fast and Forgettable: A Controlled Study of Novices' Performance, Learning, Workload, and Emotion in AI-Assisted and Human Pair Programming Paradigms

Arxiv

0+阅读 · 4月20日

Reasoning Provenance for Autonomous AI Agents: Structured Behavioral Analytics Beyond State Checkpoints and Execution Traces

Arxiv

1+阅读 · 4月10日

AI-Driven Research for Databases

Arxiv

0+阅读 · 4月8日

Paper Reconstruction Evaluation: Evaluating Presentation and Hallucination in AI-written Papers

Arxiv

0+阅读 · 4月1日

Evolving with AI: A Longitudinal Analysis of Developer Logs

Arxiv

0+阅读 · 3月30日

Factors Influencing the Quality of AI-Generated Code: A Synthesis of Empirical Evidence

Arxiv

0+阅读 · 3月26日

The Future of AI-Driven Software Engineering

Arxiv

0+阅读 · 3月26日

VIP会员

文章信息

相关主题

最新内容

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

5+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

2+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

2+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

13+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

12+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

12+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

8+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

13+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

9+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

22+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

11+阅读 · 6月17日

相关VIP内容

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

专知会员服务

17+阅读 · 5月20日

【综述】智能体AI如何重塑软件开发生命周期：从代码补全到人类监督下的委托执行

【综述】智能体AI如何重塑软件开发生命周期：从代码补全到人类监督下的委托执行

专知会员服务

14+阅读 · 5月2日

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

25+阅读 · 3月8日

AI生成代码缺陷综述

AI生成代码缺陷综述

专知会员服务

17+阅读 · 2025年12月8日

《软件定义网络元素与机器代码的形式化验证》

《软件定义网络元素与机器代码的形式化验证》

专知会员服务

14+阅读 · 2025年11月18日

【新书】使用AI智能体构建应用程序

【新书】使用AI智能体构建应用程序

专知会员服务

61+阅读 · 2024年10月26日

【ETHZ博士论文】机器学习代码: 安全性与可靠性

【ETHZ博士论文】机器学习代码: 安全性与可靠性

专知会员服务

19+阅读 · 2024年10月25日

【新书】AI驱动的开发者：使用ChatGPT和Copilot构建出色的软件

【新书】AI驱动的开发者：使用ChatGPT和Copilot构建出色的软件

专知会员服务

48+阅读 · 2024年9月23日

【新书】AI驱动的开发者：使用ChatGPT和Copilot构建优秀的软件，242页pdf

【新书】AI驱动的开发者：使用ChatGPT和Copilot构建优秀的软件，242页pdf

专知会员服务

68+阅读 · 2024年8月24日

ChatGPT的代码生成是怎么做的？「基于深度学习的代码生成方法」最新研究进展

ChatGPT的代码生成是怎么做的？「基于深度学习的代码生成方法」最新研究进展

专知会员服务

62+阅读 · 2023年4月1日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

相关资讯

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

专知

40+阅读 · 2022年10月19日

如何进AI大厂？这本书400页《深度学习面试指南》书202页pdf简介实战中DL问题与解决答案，

如何进AI大厂？这本书400页《深度学习面试指南》书202页pdf简介实战中DL问题与解决答案，

专知

10+阅读 · 2022年1月5日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

AI可解释性文献列表

AI可解释性文献列表

专知

43+阅读 · 2019年10月7日

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

专知

11+阅读 · 2019年2月8日

类脑计算的前沿论文，看我们推荐的这7篇

类脑计算的前沿论文，看我们推荐的这7篇

人工智能前沿讲习班

21+阅读 · 2019年1月7日

【EMNLP2018干货】254 页《为NLP研究写出好代码》教程

【EMNLP2018干货】254 页《为NLP研究写出好代码》教程

专知

10+阅读 · 2018年11月2日

《软件方法》1-8章全部自测题更新内容

《软件方法》1-8章全部自测题更新内容

UMLChina

11+阅读 · 2018年3月26日

【下载】面向机器智能的TensorFlow实践书籍和代码

【下载】面向机器智能的TensorFlow实践书籍和代码

专知

20+阅读 · 2017年12月25日

相关论文

Vibe Coding in Product Teams: Reconfiguring AI-Assisted Workflows, Prototyping, and Collaboration

Arxiv

0+阅读 · 5月1日

The Buy-or-Build Decision, Revisited: How Agentic AI Changes the Economics of Enterprise Software

Arxiv

1+阅读 · 4月29日

Adaptive and AI-Augmented Security Testing: A Systematic Survey of Program Analysis, Feedback-Driven Testing, and Hybrid Learning-Based Approaches

Arxiv

0+阅读 · 4月29日

Fast and Forgettable: A Controlled Study of Novices' Performance, Learning, Workload, and Emotion in AI-Assisted and Human Pair Programming Paradigms

Arxiv

0+阅读 · 4月20日

Reasoning Provenance for Autonomous AI Agents: Structured Behavioral Analytics Beyond State Checkpoints and Execution Traces

Arxiv

1+阅读 · 4月10日

AI-Driven Research for Databases

Arxiv

0+阅读 · 4月8日

Paper Reconstruction Evaluation: Evaluating Presentation and Hallucination in AI-written Papers

Arxiv

0+阅读 · 4月1日

Evolving with AI: A Longitudinal Analysis of Developer Logs

Arxiv

0+阅读 · 3月30日

Factors Influencing the Quality of AI-Generated Code: A Synthesis of Empirical Evidence

Arxiv

0+阅读 · 3月26日

The Future of AI-Driven Software Engineering

Arxiv

0+阅读 · 3月26日

相关基金

数据驱动关键性能指标相关的故障诊断方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

具有重构特征的系统可靠性建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向全生命周期的可信软件测度模型和过程改进工具研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于构件的可信软件构造及其行为动态可信测评

国家自然科学基金

1+阅读 · 2014年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员