DeCEAT: Decoding Carbon Emissions for AI-driven Software Testing - 专知论文

会员服务 ·

0

语言模型 · 小型语言模型 · 软件 · 测试生成 · 解码 ·

DeCEAT: Decoding Carbon Emissions for AI-driven Software Testing

翻译：DeCEAT：解码人工智能驱动软件测试的碳排放

Pragati Kumari,Novarun Deb

The increasing use of language models in automated software testing raises concerns about their environmental impact, yet existing sustainability analyses focus almost exclusively on large language models. As a result, the energy and carbon characteristics of small language models (SLMs) during test generation remain largely unexplored. To address this gap, this work introduces the DeCEAT framework, which systematically evaluates the environmental and performance trade-offs of SLMs using the HumanEval benchmark and adaptive prompt variants (based on the Anthropic template). The framework quantifies emission and time-aware behavior under controlled conditions, with CodeCarbon measuring energy consumption and carbon emissions, and unit test coverage assessing the quality of generated tests. Our results show that different SLMs exhibit distinct sustainability strengths: some prioritize lower energy use and faster execution, while others maintain higher stability or accuracy under carbon constraints. These findings demonstrate that sustainability in the generation of SLM-driven tests is multidimensional and strongly shaped by prompt design. This work provides a focused sustainability evaluation framework specifically tailored to automated SLM-based test generation, clarifying how prompt structure and model choice jointly influence environmental and performance outcomes.

翻译：语言模型在自动化软件测试中的日益广泛应用引发了对其环境影响的担忧，然而现有的可持续性分析几乎完全集中于大型语言模型。因此，小型语言模型在测试生成过程中的能耗与碳排放特性在很大程度上仍未得到探索。为填补这一空白，本研究提出了DeCEAT框架，该框架利用HumanEval基准测试和自适应提示变体（基于Anthropic模板），系统性地评估了小型语言模型在环境效益与性能之间的权衡。该框架在受控条件下量化了排放与时间感知行为，其中CodeCarbon用于测量能耗与碳排放，单元测试覆盖率则用于评估生成测试的质量。我们的结果表明，不同的小型语言模型展现出各异的可持续性优势：一些模型优先考虑更低的能耗和更快的执行速度，而另一些模型则在碳排放约束下保持更高的稳定性或准确性。这些发现表明，小型语言模型驱动测试生成的可持续性是多维度的，并且深受提示设计的影响。本研究提供了一个专门针对基于小型语言模型的自动化测试生成而定制的可持续性评估框架，阐明了提示结构和模型选择如何共同影响环境与性能结果。

0

相关内容

语言模型

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

迈向透明人工智能（AI）：可解释性语言模型综述

迈向透明人工智能（AI）：可解释性语言模型综述

专知会员服务

16+阅读 · 2025年9月29日

【新书】使用生成式人工智能进行软件测试

【新书】使用生成式人工智能进行软件测试

专知会员服务

46+阅读 · 2025年1月6日

通用人工智能：是什么？如何测试？如何实现？

通用人工智能：是什么？如何测试？如何实现？

专知会员服务

29+阅读 · 2024年6月19日

中文版《综述：人工智能赋能工具在测试与评估中的应用》

中文版《综述：人工智能赋能工具在测试与评估中的应用》

专知会员服务

98+阅读 · 2023年7月29日

IDC百度发布首份《人工智能助力中国“双碳”目标达成2021》白皮书（附下载），47页pdf

IDC百度发布首份《人工智能助力中国“双碳”目标达成2021》白皮书（附下载），47页pdf

专知会员服务

98+阅读 · 2022年2月25日

中科院计算所最新「视觉Transformer」综述论文，带你全面了解最新CV分类、检测/分割方法

中科院计算所最新「视觉Transformer」综述论文，带你全面了解最新CV分类、检测/分割方法

专知会员服务

99+阅读 · 2021年11月16日

要绿色AI而非红色深度大能耗模型？字节&UCSB李磊等发布《绿色深度学习》61页pdf阐述碳中和时代下深度学习发展之路

要绿色AI而非红色深度大能耗模型？字节&UCSB李磊等发布《绿色深度学习》61页pdf阐述碳中和时代下深度学习发展之路

专知会员服务

37+阅读 · 2021年11月11日

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

专知会员服务

35+阅读 · 2021年7月8日

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

专知会员服务

10+阅读 · 2019年12月3日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

赛尔笔记 | 条件变分自编码器（CVAE）

赛尔笔记 | 条件变分自编码器（CVAE）

AINLP

28+阅读 · 2019年11月8日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

爱奇艺基于AI的移动端自动化测试框架的设计

爱奇艺基于AI的移动端自动化测试框架的设计

前端之巅

18+阅读 · 2019年2月27日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

视频 | 论文最爱的变分自编码器（ VAE），不了解一下？

视频 | 论文最爱的变分自编码器（ VAE），不了解一下？

AI科技评论

13+阅读 · 2018年3月17日

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

全球人工智能

15+阅读 · 2018年2月8日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

面向绿色交通的智能车辆变工况行驶能耗反馈与耗散控制方法

国家自然科学基金

0+阅读 · 2015年12月31日

数据驱动的被动协议测试方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

长时间、中低热流、高焓气动加热条件下材料的碳化分解机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

能源效率测度和资源优化配置的非参数前沿面建模方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

千万自由度量级并行有限元模态和振动分析软件研发

国家自然科学基金

0+阅读 · 2014年12月31日

基于构件的可信软件构造及其行为动态可信测评

国家自然科学基金

1+阅读 · 2014年12月31日

智能电网环境下我国电力工业碳排放控制关键问题研究

国家自然科学基金

3+阅读 · 2014年12月31日

可重构的环境自适应RS码软判决译码器研究

国家自然科学基金

0+阅读 · 2014年12月31日

AutoControl Arena: Synthesizing Executable Test Environments for Frontier AI Risk Evaluation

Arxiv

0+阅读 · 3月14日

CarbonPATH: Carbon-aware pathfinding and architecture optimization for chiplet-based AI systems

Arxiv

0+阅读 · 3月4日

Enhancing LLM-Based Test Generation by Eliminating Covered Code

Arxiv

0+阅读 · 2月25日

gencat: Generative computerized adaptive testing

Arxiv

0+阅读 · 2月23日

TAROT: Test-driven and Capability-adaptive Curriculum Reinforcement Fine-tuning for Code Generation with Large Language Models

Arxiv

0+阅读 · 2月17日

ATTest: Agent-Driven Tensor Testing for Deep Learning Library Modules

Arxiv

0+阅读 · 2月15日

HerAgent: Rethinking the Automated Environment Deployment via Hierarchical Test Pyramid

Arxiv

0+阅读 · 2月13日

ArkEval: Benchmarking and Evaluating Automated CodeRepair for ArkTS

Arxiv

0+阅读 · 2月9日

HerAgent: Rethinking the Automated Environment Deployment via Hierarchical Test Pyramid

Arxiv

0+阅读 · 2月8日

Towards Green AI: Decoding the Energy of LLM Inference in Software Development

Arxiv

0+阅读 · 2月5日

VIP会员

文章信息

相关主题

小型语言模型

最新内容

《无人系统互操作性导论——无人系统联合架构（JAUS）》

《无人系统互操作性导论——无人系统联合架构（JAUS）》

专知会员服务

7+阅读 · 今天5:53

美空军新型反无人机部队初探

美空军新型反无人机部队初探

专知会员服务

3+阅读 · 今天5:45

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

专知会员服务

2+阅读 · 今天5:23

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

专知会员服务

1+阅读 · 今天5:11

《防空交战流程的概率建模研究》

《防空交战流程的概率建模研究》

专知会员服务

6+阅读 · 今天5:04

ICML 2026 教程 | 数值优化理论还重要吗？

ICML 2026 教程 | 数值优化理论还重要吗？

专知会员服务

4+阅读 · 7月26日

ICM 2026 | 陶哲轩：人工智能时代的数学

ICM 2026 | 陶哲轩：人工智能时代的数学

专知会员服务

7+阅读 · 7月26日

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

专知会员服务

8+阅读 · 7月26日

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

专知会员服务

9+阅读 · 7月26日

《先进防空系统选型战略框架：基于巴基斯坦的实证启示》

《先进防空系统选型战略框架：基于巴基斯坦的实证启示》

专知会员服务

8+阅读 · 7月26日

《反无人机交战场景下的战斗归零研究》

《反无人机交战场景下的战斗归零研究》

专知会员服务

7+阅读 · 7月26日

霍尔木兹与不对称作战时代：水雷、无人系统与海军力量的重新定义

霍尔木兹与不对称作战时代：水雷、无人系统与海军力量的重新定义

专知会员服务

4+阅读 · 7月26日

博士论文 | 用代码结构感知方法推进代码大模型

博士论文 | 用代码结构感知方法推进代码大模型

专知会员服务

5+阅读 · 7月25日

综述 | 遥感多模态大模型：领域专用还是通用模型？

综述 | 遥感多模态大模型：领域专用还是通用模型？

专知会员服务

5+阅读 · 7月25日

《面向指挥控制训练与实时北约兼容数据分发的战术模拟器》

《面向指挥控制训练与实时北约兼容数据分发的战术模拟器》

专知会员服务

5+阅读 · 7月25日

相关VIP内容

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

迈向透明人工智能（AI）：可解释性语言模型综述

迈向透明人工智能（AI）：可解释性语言模型综述

专知会员服务

16+阅读 · 2025年9月29日

【新书】使用生成式人工智能进行软件测试

【新书】使用生成式人工智能进行软件测试

专知会员服务

46+阅读 · 2025年1月6日

通用人工智能：是什么？如何测试？如何实现？

通用人工智能：是什么？如何测试？如何实现？

专知会员服务

29+阅读 · 2024年6月19日

中文版《综述：人工智能赋能工具在测试与评估中的应用》

中文版《综述：人工智能赋能工具在测试与评估中的应用》

专知会员服务

98+阅读 · 2023年7月29日

IDC百度发布首份《人工智能助力中国“双碳”目标达成2021》白皮书（附下载），47页pdf

IDC百度发布首份《人工智能助力中国“双碳”目标达成2021》白皮书（附下载），47页pdf

专知会员服务

98+阅读 · 2022年2月25日

中科院计算所最新「视觉Transformer」综述论文，带你全面了解最新CV分类、检测/分割方法

中科院计算所最新「视觉Transformer」综述论文，带你全面了解最新CV分类、检测/分割方法

专知会员服务

99+阅读 · 2021年11月16日

要绿色AI而非红色深度大能耗模型？字节&UCSB李磊等发布《绿色深度学习》61页pdf阐述碳中和时代下深度学习发展之路

要绿色AI而非红色深度大能耗模型？字节&UCSB李磊等发布《绿色深度学习》61页pdf阐述碳中和时代下深度学习发展之路

专知会员服务

37+阅读 · 2021年11月11日

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

专知会员服务

35+阅读 · 2021年7月8日

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

专知会员服务

10+阅读 · 2019年12月3日

热门VIP内容

开通专知VIP会员享更多权益服务

美空军新型反无人机部队初探

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

《无人系统互操作性导论——无人系统联合架构（JAUS）》

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

相关资讯

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

赛尔笔记 | 条件变分自编码器（CVAE）

赛尔笔记 | 条件变分自编码器（CVAE）

AINLP

28+阅读 · 2019年11月8日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

爱奇艺基于AI的移动端自动化测试框架的设计

爱奇艺基于AI的移动端自动化测试框架的设计

前端之巅

18+阅读 · 2019年2月27日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

视频 | 论文最爱的变分自编码器（ VAE），不了解一下？

视频 | 论文最爱的变分自编码器（ VAE），不了解一下？

AI科技评论

13+阅读 · 2018年3月17日

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

全球人工智能

15+阅读 · 2018年2月8日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

相关论文

AutoControl Arena: Synthesizing Executable Test Environments for Frontier AI Risk Evaluation

Arxiv

0+阅读 · 3月14日

CarbonPATH: Carbon-aware pathfinding and architecture optimization for chiplet-based AI systems

Arxiv

0+阅读 · 3月4日

Enhancing LLM-Based Test Generation by Eliminating Covered Code

Arxiv

0+阅读 · 2月25日

gencat: Generative computerized adaptive testing

Arxiv

0+阅读 · 2月23日

TAROT: Test-driven and Capability-adaptive Curriculum Reinforcement Fine-tuning for Code Generation with Large Language Models

Arxiv

0+阅读 · 2月17日

ATTest: Agent-Driven Tensor Testing for Deep Learning Library Modules

Arxiv

0+阅读 · 2月15日

HerAgent: Rethinking the Automated Environment Deployment via Hierarchical Test Pyramid

Arxiv

0+阅读 · 2月13日

ArkEval: Benchmarking and Evaluating Automated CodeRepair for ArkTS

Arxiv

0+阅读 · 2月9日

HerAgent: Rethinking the Automated Environment Deployment via Hierarchical Test Pyramid

Arxiv

0+阅读 · 2月8日

Towards Green AI: Decoding the Energy of LLM Inference in Software Development

Arxiv

0+阅读 · 2月5日

相关基金

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

面向绿色交通的智能车辆变工况行驶能耗反馈与耗散控制方法

国家自然科学基金

0+阅读 · 2015年12月31日

数据驱动的被动协议测试方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

长时间、中低热流、高焓气动加热条件下材料的碳化分解机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

能源效率测度和资源优化配置的非参数前沿面建模方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

千万自由度量级并行有限元模态和振动分析软件研发

国家自然科学基金

0+阅读 · 2014年12月31日

基于构件的可信软件构造及其行为动态可信测评

国家自然科学基金

1+阅读 · 2014年12月31日

智能电网环境下我国电力工业碳排放控制关键问题研究

国家自然科学基金

3+阅读 · 2014年12月31日

可重构的环境自适应RS码软判决译码器研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员