智能测试的兴起：面向稳健软件质量保障的多智能体系统 (The Rise of Agentic Testing: Multi-Agent Systems for Robust Software Quality Assurance) - 专知论文

会员服务 ·

0

系统 · 软件 · 质量保障 · 覆盖 · 智能体 ·

The Rise of Agentic Testing: Multi-Agent Systems for Robust Software Quality Assurance

翻译：智能测试的兴起：面向稳健软件质量保障的多智能体系统

Saba Naqvi,Mohammad Baqar,Nawaz Ali Mohammad

from arxiv, 11 Pages

Software testing has progressed toward intelligent automation, yet current AI-based test generators still suffer from static, single-shot outputs that frequently produce invalid, redundant, or non-executable tests due to the lack of execution aware feedback. This paper introduces an agentic multi-model testing framework a closed-loop, self-correcting system in which a Test Generation Agent, an Execution and Analysis Agent, and a Review and Optimization Agent collaboratively generate, execute, analyze, and refine tests until convergence. By using sandboxed execution, detailed failure reporting, and iterative regeneration or patching of failing tests, the framework autonomously improves test quality and expands coverage. Integrated into a CI/CD-compatible pipeline, it leverages reinforcement signals from coverage metrics and execution outcomes to guide refinement. Empirical evaluations on microservice based applications show up to a 60% reduction in invalid tests, 30% coverage improvement, and significantly reduced human effort compared to single-model baselines demonstrating that multi-agent, feedback-driven loops can evolve software testing into an autonomous, continuously learning quality assurance ecosystem for self-healing, high-reliability codebases.

翻译：软件测试已向智能自动化方向发展，然而当前基于人工智能的测试生成器仍受限于静态、单次输出模式，由于缺乏执行感知反馈，常产生无效、冗余或不可执行的测试。本文提出一种智能多模型测试框架——一个闭环自校正系统，其中测试生成智能体、执行分析智能体与评审优化智能体协同生成、执行、分析并优化测试直至收敛。通过采用沙箱执行、详细故障报告以及对失败测试的迭代再生与修补，该框架能自主提升测试质量并扩大覆盖范围。集成至CI/CD兼容流水线后，系统利用来自覆盖率指标和执行结果的强化信号指导优化过程。基于微服务应用的实证评估表明：相较于单模型基线方法，本框架可减少高达60%的无效测试，提升30%的覆盖率，并显著降低人工干预成本，证明多智能体驱动的反馈循环能将软件测试演进为自主持续学习的质量保障生态系统，最终实现自修复、高可靠性的代码库。

0

相关内容

AI 智能体系统：体系架构、应用场景及评估范式

AI 智能体系统：体系架构、应用场景及评估范式

专知会员服务

57+阅读 · 1月6日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

28+阅读 · 2025年12月31日

《革命性软件智能：融合神经程序合成、量子安全运维与可解释人工智能的下一代自主系统统一框架》最新报告

《革命性软件智能：融合神经程序合成、量子安全运维与可解释人工智能的下一代自主系统统一框架》最新报告

专知会员服务

24+阅读 · 2025年8月28日

用于自动驾驶系统测试的生成式人工智能：综述

用于自动驾驶系统测试的生成式人工智能：综述

专知会员服务

17+阅读 · 2025年8月28日

【新书】使用生成式人工智能进行软件测试

【新书】使用生成式人工智能进行软件测试

专知会员服务

44+阅读 · 2025年1月6日

《综述：测试与评估中应用的人工智能工具》

《综述：测试与评估中应用的人工智能工具》

专知会员服务

73+阅读 · 2024年1月22日

多模态智能体AI开启新浪潮！李飞飞等14位斯坦福微软大牛等撰写 80页《AGENT AI: 综述多模态交互的前沿展望》

多模态智能体AI开启新浪潮！李飞飞等14位斯坦福微软大牛等撰写 80页《AGENT AI: 综述多模态交互的前沿展望》

专知会员服务

202+阅读 · 2024年1月9日

《人工智能系统测试与评估框架》美国防部联合人工智能中心

《人工智能系统测试与评估框架》美国防部联合人工智能中心

专知会员服务

81+阅读 · 2024年1月4日

《应对人工智能系统测试和评估新挑战的最佳实践》

《应对人工智能系统测试和评估新挑战的最佳实践》

专知会员服务

87+阅读 · 2023年8月7日

自动驾驶智能系统测试研究综述

专知会员服务

98+阅读 · 2021年1月24日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

《智能制造机器视觉在线检测测试方法》国家标准意见稿

《智能制造机器视觉在线检测测试方法》国家标准意见稿

专知

13+阅读 · 2022年2月22日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

面向人工智能的计算机体系结构

面向人工智能的计算机体系结构

计算机研究与发展

14+阅读 · 2019年6月6日

爱奇艺基于AI的移动端自动化测试框架的设计

爱奇艺基于AI的移动端自动化测试框架的设计

前端之巅

18+阅读 · 2019年2月27日

【机器视觉】智能制造之AOI检测技术、生产线变智能微亿智造和百度云ABC 推动工业4.0变革

【机器视觉】智能制造之AOI检测技术、生产线变智能微亿智造和百度云ABC 推动工业4.0变革

产业智能官

18+阅读 · 2019年1月3日

【人工智能】【智能驾驶】人工智能在汽车自动驾驶系统中的应用分析

【人工智能】【智能驾驶】人工智能在汽车自动驾驶系统中的应用分析

产业智能官

18+阅读 · 2018年11月22日

品质检测破局：工业视觉检测云平台为智能制造“点睛”

品质检测破局：工业视觉检测云平台为智能制造“点睛”

AI100

12+阅读 · 2018年11月6日

【机器视觉】表面缺陷检测：机器视觉检测技术

【机器视觉】表面缺陷检测：机器视觉检测技术

产业智能官

25+阅读 · 2018年5月30日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

面向传感网的软件定义测量技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向应用商店的移动智能终端恶意软件检测关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于动态增益非线性干扰观测器的多智能体系统协调跟踪和干扰抑制

国家自然科学基金

1+阅读 · 2015年12月31日

带有输入饱和的多智能体系统的包含控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

多智能体系统有限时间一致性的自适应控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

Supporting software engineering tasks with agentic AI: Demonstration on document retrieval and test scenario generation

Arxiv

0+阅读 · 2月4日

Multi-Level Testing of Conversational AI Systems

Arxiv

0+阅读 · 2月3日

ProjDevBench: Benchmarking AI Coding Agents on End-to-End Project Development

Arxiv

0+阅读 · 2月2日

Multi-Agent Design: Optimizing Agents with Better Prompts and Topologies

Arxiv

0+阅读 · 1月31日

Automated Testing of Prevalent 3D User Interactions in Virtual Reality Applications

Arxiv

0+阅读 · 1月30日

Toward Third-Party Assurance of AI Systems: Design Requirements, Prototype, and Early Testing

Arxiv

0+阅读 · 1月30日

Automated structural testing of LLM-based agents: methods, framework, and case studies

Arxiv

0+阅读 · 1月25日

The Orchestration of Multi-Agent Systems: Architectures, Protocols, and Enterprise Adoption

Arxiv

0+阅读 · 1月20日

MAESTRO: Multi-Agent Evaluation Suite for Testing, Reliability, and Observability

Arxiv

0+阅读 · 1月1日

Toward Autonomous Engineering Design: A Knowledge-Guided Multi-Agent Framework

Arxiv

0+阅读 · 2025年12月30日

VIP会员

文章信息

相关主题

相关VIP内容

AI 智能体系统：体系架构、应用场景及评估范式

AI 智能体系统：体系架构、应用场景及评估范式

专知会员服务

57+阅读 · 1月6日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

28+阅读 · 2025年12月31日

《革命性软件智能：融合神经程序合成、量子安全运维与可解释人工智能的下一代自主系统统一框架》最新报告

《革命性软件智能：融合神经程序合成、量子安全运维与可解释人工智能的下一代自主系统统一框架》最新报告

专知会员服务

24+阅读 · 2025年8月28日

用于自动驾驶系统测试的生成式人工智能：综述

用于自动驾驶系统测试的生成式人工智能：综述

专知会员服务

17+阅读 · 2025年8月28日

【新书】使用生成式人工智能进行软件测试

【新书】使用生成式人工智能进行软件测试

专知会员服务

44+阅读 · 2025年1月6日

《综述：测试与评估中应用的人工智能工具》

《综述：测试与评估中应用的人工智能工具》

专知会员服务

73+阅读 · 2024年1月22日

多模态智能体AI开启新浪潮！李飞飞等14位斯坦福微软大牛等撰写 80页《AGENT AI: 综述多模态交互的前沿展望》

多模态智能体AI开启新浪潮！李飞飞等14位斯坦福微软大牛等撰写 80页《AGENT AI: 综述多模态交互的前沿展望》

专知会员服务

202+阅读 · 2024年1月9日

《人工智能系统测试与评估框架》美国防部联合人工智能中心

《人工智能系统测试与评估框架》美国防部联合人工智能中心

专知会员服务

81+阅读 · 2024年1月4日

《应对人工智能系统测试和评估新挑战的最佳实践》

《应对人工智能系统测试和评估新挑战的最佳实践》

专知会员服务

87+阅读 · 2023年8月7日

自动驾驶智能系统测试研究综述

专知会员服务

98+阅读 · 2021年1月24日

热门VIP内容

开通专知VIP会员享更多权益服务

论学习、公平性与复杂度

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

2025中国人工智能学会系列白皮书⸺棋盘上的人工智能|附下载

通用智能体评估的逻辑架构

相关资讯

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

《智能制造机器视觉在线检测测试方法》国家标准意见稿

《智能制造机器视觉在线检测测试方法》国家标准意见稿

专知

13+阅读 · 2022年2月22日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

面向人工智能的计算机体系结构

面向人工智能的计算机体系结构

计算机研究与发展

14+阅读 · 2019年6月6日

爱奇艺基于AI的移动端自动化测试框架的设计

爱奇艺基于AI的移动端自动化测试框架的设计

前端之巅

18+阅读 · 2019年2月27日

【机器视觉】智能制造之AOI检测技术、生产线变智能微亿智造和百度云ABC 推动工业4.0变革

【机器视觉】智能制造之AOI检测技术、生产线变智能微亿智造和百度云ABC 推动工业4.0变革

产业智能官

18+阅读 · 2019年1月3日

【人工智能】【智能驾驶】人工智能在汽车自动驾驶系统中的应用分析

【人工智能】【智能驾驶】人工智能在汽车自动驾驶系统中的应用分析

产业智能官

18+阅读 · 2018年11月22日

品质检测破局：工业视觉检测云平台为智能制造“点睛”

品质检测破局：工业视觉检测云平台为智能制造“点睛”

AI100

12+阅读 · 2018年11月6日

【机器视觉】表面缺陷检测：机器视觉检测技术

【机器视觉】表面缺陷检测：机器视觉检测技术

产业智能官

25+阅读 · 2018年5月30日

相关论文

Supporting software engineering tasks with agentic AI: Demonstration on document retrieval and test scenario generation

Arxiv

0+阅读 · 2月4日

Multi-Level Testing of Conversational AI Systems

Arxiv

0+阅读 · 2月3日

ProjDevBench: Benchmarking AI Coding Agents on End-to-End Project Development

Arxiv

0+阅读 · 2月2日

Multi-Agent Design: Optimizing Agents with Better Prompts and Topologies

Arxiv

0+阅读 · 1月31日

Automated Testing of Prevalent 3D User Interactions in Virtual Reality Applications

Arxiv

0+阅读 · 1月30日

Toward Third-Party Assurance of AI Systems: Design Requirements, Prototype, and Early Testing

Arxiv

0+阅读 · 1月30日

Automated structural testing of LLM-based agents: methods, framework, and case studies

Arxiv

0+阅读 · 1月25日

The Orchestration of Multi-Agent Systems: Architectures, Protocols, and Enterprise Adoption

Arxiv

0+阅读 · 1月20日

MAESTRO: Multi-Agent Evaluation Suite for Testing, Reliability, and Observability

Arxiv

0+阅读 · 1月1日

Toward Autonomous Engineering Design: A Knowledge-Guided Multi-Agent Framework

Arxiv

0+阅读 · 2025年12月30日

相关基金

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

面向传感网的软件定义测量技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向应用商店的移动智能终端恶意软件检测关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于动态增益非线性干扰观测器的多智能体系统协调跟踪和干扰抑制

国家自然科学基金

1+阅读 · 2015年12月31日

带有输入饱和的多智能体系统的包含控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

多智能体系统有限时间一致性的自适应控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员