Software testing is critical for verifying that systems meet specified requirements, yet remains among the most time-consuming and expensive activities in development. Requirements-based test generation allows test cases to be derived early from requirements artifacts, but generating them directly from natural language is challenging due to inherent ambiguity and imprecision. Recent advances in AI, natural language processing (NLP), and large language models (LLMs) have made automating this pipeline increasingly feasible, while introducing new risks including hallucination, reduced traceability, and inconsistent evaluation. This survey addresses four research questions: what AI and NLP techniques have been proposed for generating test cases from natural language requirements; what tools and frameworks support these approaches; how generated test cases are evaluated; and what research gaps remain. Following Kitchenham and Charters' systematic review guidelines, we searched major scholarly databases spanning 2000-2025 and, after applying strict inclusion criteria, identified 21 primary studies. The literature is organized into three evolutionary eras, revealing that no existing approach simultaneously satisfies six key quality dimensions: automation, ambiguity handling, domain applicability, traceability, evaluation thoroughness, and hallucination control. The survey makes three main contributions: a three-era evolutionary synthesis of AI-based test generation; a six-criteria gap analysis showing no current approach fully addresses all quality dimensions; and four actionable research guidelines targeting hallucination, traceability, complexity sensitivity, and compliance.


翻译:软件测试是验证系统是否满足规定需求的关键环节,但仍然是开发过程中最耗时、最昂贵的活动之一。基于需求的测试生成允许从需求工件早期衍生测试用例,但由于自然语言固有的模糊性和不精确性,直接从自然语言生成测试用例具有挑战性。人工智能、自然语言处理和大语言模型的最新进展,使得自动化这一流程日益可行,同时也引入了新的风险,包括幻觉、可追溯性降低和评估不一致。本综述提出四个研究问题:哪些人工智能和自然语言处理技术被提出用于从自然语言需求生成测试用例;哪些工具和框架支持这些方法;生成的测试用例如何评估;以及存在哪些研究空白。遵循Kitchenham和Charters的系统性综述指南,我们检索了2000年至2025年的主要学术数据库,并在应用严格纳入标准后,确定了21篇主要研究。文献按三个进化时代进行组织,结果显示现有方法没有一种能同时满足六个关键质量维度:自动化、歧义处理、领域适用性、可追溯性、评估全面性和幻觉控制。本综述做出三项主要贡献:基于人工智能的测试生成的三时代进化综合;六标准空白分析,表明目前没有一种方法完全涵盖所有质量维度;以及四项面向幻觉、可追溯性、复杂性敏感性和合规性的可行研究指南。

0
下载
关闭预览

相关内容

AI 自动研究:路线图与用户指南
专知会员服务
18+阅读 · 5月19日
用于自动驾驶系统测试的生成式人工智能:综述
专知会员服务
17+阅读 · 2025年8月28日
自动驾驶中的基础模型:场景生成与场景分析综述
专知会员服务
28+阅读 · 2025年6月16日
【新书】使用生成式人工智能进行软件测试
专知会员服务
45+阅读 · 2025年1月6日
《综述:测试与评估中应用的人工智能工具》
专知会员服务
75+阅读 · 2024年1月22日
专知会员服务
98+阅读 · 2021年1月24日
【综述论文】2020年最新深度学习自然语言处理进展综述论文!!!
深度学习自然语言处理
13+阅读 · 2020年4月6日
自然语言生成资源列表
专知
17+阅读 · 2020年1月4日
无人驾驶仿真软件
智能交通技术
22+阅读 · 2019年5月9日
《软件方法》1-8章全部自测题更新内容
UMLChina
11+阅读 · 2018年3月26日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员