Infrastructure-as-Code (IaC) generation holds significant promise for automating cloud infrastructure provisioning. Recent advances in Large Language Models (LLMs) present a promising opportunity to democratize IaC development by generating deployable infrastructure templates from natural language descriptions. However, current evaluation focuses on syntactic correctness while ignoring deployability, the critical measure of the utility of IaC configuration files. Six state-of-the-art LLMs performed poorly on deployability, achieving only 20.8$\sim$30.2% deployment success rate on the first attempt. In this paper, we construct DPIaC-Eval, the first deployability-centric IaC template benchmark consisting of 153 real-world scenarios cross 58 unique services. Also, we propose an LLM-based deployability-centric framework, dubbed IaCGen, that uses iterative feedback mechanism encompassing format verification, syntax checking, and live deployment stages, thereby closely mirroring the real DevOps workflows. Results show that IaCGen can make 54.6$\sim$91.6% generated IaC templates from all evaluated models deployable in the first 10 iterations. Additionally, human-in-the-loop feedback that provide direct guidance for the deployability errors, can further boost the performance to over 90% passItr@25 on all evaluated LLMs. Furthermore, we explore the trustworthiness of the generated IaC templates on user intent alignment and security compliance. The poor performance (25.2% user requirement coverage and 8.4% security compliance rate) indicates a critical need for continued research in this domain.


翻译:基础设施即代码(IaC)生成在自动化云基础设施配置方面具有重要前景。大型语言模型(LLM)的最新进展为通过自然语言描述生成可部署的基础设施模板提供了民主化IaC开发的新机遇。然而,现有评估主要关注语法正确性而忽视了可部署性——这一衡量IaC配置文件实用性的关键指标。六种前沿LLM在可部署性方面表现不佳,首次尝试的部署成功率仅为20.8$\sim$30.2%。本文构建了首个以部署为中心的IaC模板基准DPIaC-Eval,涵盖58种独立服务的153个真实场景。同时,我们提出了基于LLM的以部署为中心的框架IaCGen,该框架采用包含格式验证、语法检查和实时部署阶段的迭代反馈机制,从而紧密模拟真实的DevOps工作流程。实验结果表明,IaCGen能使所有评估模型生成的IaC模板在10次迭代内实现54.6$\sim$91.6%的可部署率。此外,提供可部署性错误直接指导的人机协同反馈机制,可将所有评估LLM在25次迭代内的通过率进一步提升至90%以上。进一步地,我们探究了生成IaC模板在用户意图对齐与安全合规方面的可信度。其较差的表现(25.2%的用户需求覆盖率和8.4%的安全合规率)表明该领域仍需持续深入研究。

0
下载
关闭预览

相关内容

代码(Code)是专知网的一个重要知识资料文档板块,旨在整理收录论文源代码、复现代码,经典工程代码等,便于用户查阅下载使用。
揭示生成式人工智能 / 大型语言模型(LLMs)的军事潜力
专知会员服务
31+阅读 · 2024年9月26日
《大型语言模型代码生成》综述
专知会员服务
68+阅读 · 2024年6月4日
【GitHub】BERT模型从训练到部署全流程
专知
34+阅读 · 2019年6月28日
强化学习与文本生成
微信AI
41+阅读 · 2019年4月4日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员