Infrastructure-as-Code (IaC) generation holds significant promise for automating cloud infrastructure provisioning. Recent advances in Large Language Models (LLMs) present a promising opportunity to democratize IaC development by generating deployable infrastructure templates from natural language descriptions. However, current evaluation focuses on syntactic correctness while ignoring deployability, the critical measure of the utility of IaC configuration files. Six state-of-the-art LLMs performed poorly on deployability, achieving only 20.8$\sim$30.2% deployment success rate on the first attempt. In this paper, we construct DPIaC-Eval, the first deployability-centric IaC template benchmark consisting of 153 real-world scenarios cross 58 unique services. Also, we propose an LLM-based deployability-centric framework, dubbed IaCGen, that uses iterative feedback mechanism encompassing format verification, syntax checking, and live deployment stages, thereby closely mirroring the real DevOps workflows. Results show that IaCGen can make 54.6$\sim$91.6% generated IaC templates from all evaluated models deployable in the first 10 iterations. Additionally, human-in-the-loop feedback that provide direct guidance for the deployability errors, can further boost the performance to over 90% passItr@25 on all evaluated LLMs. Furthermore, we explore the trustworthiness of the generated IaC templates on user intent alignment and security compliance. The poor performance (25.2% user requirement coverage and 8.4% security compliance rate) indicates a critical need for continued research in this domain.


翻译:基础设施即代码(IaC)生成在自动化云基础设施配置方面具有重要前景。大型语言模型(LLM)的最新进展为通过自然语言描述生成可部署的基础设施模板提供了民主化IaC开发的新机遇。然而,现有评估主要关注语法正确性而忽视了可部署性——这一衡量IaC配置文件实用性的关键指标。六种前沿LLM在可部署性方面表现不佳,首次尝试的部署成功率仅为20.8$\sim$30.2%。本文构建了首个以部署为中心的IaC模板基准DPIaC-Eval,涵盖58种独立服务的153个真实场景。同时,我们提出了基于LLM的以部署为中心的框架IaCGen,该框架采用包含格式验证、语法检查和实时部署阶段的迭代反馈机制,从而紧密模拟真实的DevOps工作流程。实验结果表明,IaCGen能使所有评估模型生成的IaC模板在10次迭代内实现54.6$\sim$91.6%的可部署率。此外,提供可部署性错误直接指导的人机协同反馈机制,可将所有评估LLM在25次迭代内的通过率进一步提升至90%以上。进一步地,我们探究了生成IaC模板在用户意图对齐与安全合规方面的可信度。其较差的表现(25.2%的用户需求覆盖率和8.4%的安全合规率)表明该领域仍需持续深入研究。

0
下载
关闭预览

相关内容

代码(Code)是专知网的一个重要知识资料文档板块,旨在整理收录论文源代码、复现代码,经典工程代码等,便于用户查阅下载使用。
RAG与RAU:自然语言处理中的检索增强语言模型综述
专知会员服务
87+阅读 · 2024年5月3日
【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型
专知会员服务
30+阅读 · 2024年3月10日
大型语言模型图表示学习:技术的全面综述
专知会员服务
53+阅读 · 2024年2月14日
《用于代码弱点识别的 LLVM 中间表示》CMU
专知会员服务
14+阅读 · 2022年12月12日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
相关VIP内容
RAG与RAU:自然语言处理中的检索增强语言模型综述
专知会员服务
87+阅读 · 2024年5月3日
【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型
专知会员服务
30+阅读 · 2024年3月10日
大型语言模型图表示学习:技术的全面综述
专知会员服务
53+阅读 · 2024年2月14日
《用于代码弱点识别的 LLVM 中间表示》CMU
专知会员服务
14+阅读 · 2022年12月12日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员