The increasing use of language models in automated software testing raises concerns about their environmental impact, yet existing sustainability analyses focus almost exclusively on large language models. As a result, the energy and carbon characteristics of small language models (SLMs) during test generation remain largely unexplored. To address this gap, this work introduces the DeCEAT framework, which systematically evaluates the environmental and performance trade-offs of SLMs using the HumanEval benchmark and adaptive prompt variants (based on the Anthropic template). The framework quantifies emission and time-aware behavior under controlled conditions, with CodeCarbon measuring energy consumption and carbon emissions, and unit test coverage assessing the quality of generated tests. Our results show that different SLMs exhibit distinct sustainability strengths: some prioritize lower energy use and faster execution, while others maintain higher stability or accuracy under carbon constraints. These findings demonstrate that sustainability in the generation of SLM-driven tests is multidimensional and strongly shaped by prompt design. This work provides a focused sustainability evaluation framework specifically tailored to automated SLM-based test generation, clarifying how prompt structure and model choice jointly influence environmental and performance outcomes.


翻译:语言模型在自动化软件测试中的日益广泛应用引发了对其环境影响的担忧,然而现有的可持续性分析几乎完全集中于大型语言模型。因此,小型语言模型在测试生成过程中的能耗与碳排放特性在很大程度上仍未得到探索。为填补这一空白,本研究提出了DeCEAT框架,该框架利用HumanEval基准测试和自适应提示变体(基于Anthropic模板),系统性地评估了小型语言模型在环境效益与性能之间的权衡。该框架在受控条件下量化了排放与时间感知行为,其中CodeCarbon用于测量能耗与碳排放,单元测试覆盖率则用于评估生成测试的质量。我们的结果表明,不同的小型语言模型展现出各异的可持续性优势:一些模型优先考虑更低的能耗和更快的执行速度,而另一些模型则在碳排放约束下保持更高的稳定性或准确性。这些发现表明,小型语言模型驱动测试生成的可持续性是多维度的,并且深受提示设计的影响。本研究提供了一个专门针对基于小型语言模型的自动化测试生成而定制的可持续性评估框架,阐明了提示结构和模型选择如何共同影响环境与性能结果。

0
下载
关闭预览

相关内容

智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
迈向透明人工智能(AI):可解释性语言模型综述
专知会员服务
15+阅读 · 2025年9月29日
【新书】使用生成式人工智能进行软件测试
专知会员服务
45+阅读 · 2025年1月6日
通用人工智能:是什么?如何测试?如何实现?
专知会员服务
27+阅读 · 2024年6月19日
赛尔笔记 | 条件变分自编码器(CVAE)
AINLP
28+阅读 · 2019年11月8日
爱奇艺基于AI的移动端自动化测试框架的设计
前端之巅
18+阅读 · 2019年2月27日
推荐|上交大推出Texygen:文本生成模型的基准测试平台
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
《人工智能在网络防御中的机遇》
专知会员服务
2+阅读 · 49分钟前
认知战:定义与能力发展
专知会员服务
4+阅读 · 今天9:25
乌军利用美国“黄蜂”无人机摧毁俄军后勤
专知会员服务
7+阅读 · 6月7日
《支持作战级人机协同智能的交互式OODA流程》
专知会员服务
15+阅读 · 6月7日
ICML 2026 | SARDI:扩散语言模型的自增强检索
专知会员服务
8+阅读 · 6月6日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员