Vibe coding is a new programming paradigm in which human engineers instruct large language model (LLM) agents to complete complex coding tasks with little supervision. Although vibe coding is increasingly adopted, are its outputs really safe to deploy in production? To answer this question, we propose SU S VI B E S, a benchmark consisting of 200 feature-request software engineering tasks from real-world open-source projects, which, when given to human programmers, led to vulnerable implementations. We evaluate multiple widely used coding agents with frontier models on this benchmark. Disturbingly, all agents perform poorly in terms of software security. Although 61% of the solutions from SWE-Agent with Claude 4 Sonnet are functionally correct, only 10.5% are secure. Further experiments demonstrate that preliminary security strategies, such as augmenting the feature request with vulnerability hints, cannot mitigate these security issues. Our findings raise serious concerns about the widespread adoption of vibe-coding, particularly in security-sensitive applications.


翻译:Vibe coding是一种新兴的编程范式,人类工程师通过指导大型语言模型(LLM)智能体以最小监督完成复杂编码任务。尽管vibe coding正被日益广泛地采用,但其输出成果是否真的能安全部署于生产环境?为回答这一问题,我们提出了SUSVIBES基准测试,该基准包含200项源自真实世界开源项目的功能需求软件工程任务——这些任务在交由人类程序员实现时曾产生存在漏洞的代码实现。我们基于该基准测试评估了多款采用前沿模型的常用编码智能体。令人不安的是,所有智能体在软件安全方面表现均不理想。虽然SWE-Agent配合Claude 4 Sonnet生成的解决方案中有61%功能正确,但仅10.5%具备安全性。进一步实验表明,初步安全策略(例如在功能需求中附加漏洞提示)无法缓解这些安全问题。我们的研究结果对vibe coding在安全敏感应用中的广泛采用提出了严重关切。

0
下载
关闭预览

相关内容

智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
Vibe Coding 实践:探讨心流、技术债及可持续应用规范
专知会员服务
15+阅读 · 2025年12月26日
智能体安全综述:应用、威胁与防御
专知会员服务
41+阅读 · 2025年10月12日
AI智能体编程:技术、挑战与机遇综述
专知会员服务
44+阅读 · 2025年8月18日
智能体任务执行安全要求
专知会员服务
19+阅读 · 2025年7月12日
生成式人工智能大型语言模型的安全性:概述
专知会员服务
35+阅读 · 2024年7月30日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
Xsser 一款自动检测XSS漏洞工具
黑白之道
14+阅读 · 2019年8月26日
Spooftooph - 用于欺骗或克隆蓝牙设备的自动工具
黑白之道
17+阅读 · 2019年2月27日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(16份)
专知会员服务
7+阅读 · 4月12日
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
13+阅读 · 4月12日
远程空中优势:新一代超视距导弹的兴起
专知会员服务
2+阅读 · 4月12日
大语言模型溯因推理的统一分类学与综述
专知会员服务
3+阅读 · 4月12日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员