Large language models (LLMs) have made rapid advancements in code generation for popular languages such as Python and C++. Many of these recent gains can be attributed to the use of ``agents'' that wrap domain-relevant tools alongside LLMs. Hardware design languages such as Verilog have also seen improved code generation in recent years, but the impact of agentic frameworks on Verilog code generation tasks remains unclear. In this work, we present the first systematic evaluation of agentic LLMs for Verilog generation, using the recently introduced CVDP benchmark. We also introduce several open-source hardware design agent harnesses, providing a model-agnostic baseline for future work. Through controlled experiments across frontier models, we study how structured prompting and tool design affect performance, analyze agent failure modes and tool usage patterns, compare open-source and closed-source models, and provide qualitative examples of successful and failed agent runs. Our results show that naive agentic wrapping around frontier models can degrade performance (relative to standard forward passes with optimized prompts), but that structured harnesses meaningfully match and in some cases exceed non-agentic baselines. We find that the performance gap between open and closed source models is driven by both higher crash rates and weaker tool output interpretation. Our exploration illuminates the path towards designing special-purpose agents for verilog generation in the future.


翻译:大型语言模型(LLMs)在Python和C++等流行语言的代码生成方面取得了快速进展。这些近期成果大多归功于使用“智能体”——即LLMs与领域相关工具相结合的封装。硬件设计语言(如Verilog)近年来在代码生成方面也取得了改进,但智能体框架对Verilog代码生成任务的影响尚不明确。在本工作中,我们首次利用最近引入的CVDP基准测试,对Verilog生成的智能体LLMs进行了系统性评估。我们还引入了多个开源硬件设计智能体框架,为未来工作提供了与模型无关的基线。通过在前沿模型中进行受控实验,我们研究了结构化提示和工具设计如何影响性能,分析了智能体的失败模式及工具使用模式,比较了开源与闭源模型,并提供了成功与失败智能体运行的定性实例。我们的结果表明,对前沿模型进行简单的智能体封装可能降低性能(相较于使用优化提示的标准前向传播),但结构化框架能有效匹配甚至在某些情况下超越非智能体基线。我们发现,开源与闭源模型之间的性能差距是由更高的崩溃率和较弱的工具输出解释能力共同驱动的。我们的探索为未来设计用于Verilog生成的专用智能体指明了方向。

0
下载
关闭预览

相关内容

代码(Code)是专知网的一个重要知识资料文档板块,旨在整理收录论文源代码、复现代码,经典工程代码等,便于用户查阅下载使用。
大语言模型与小语言模型协同机制综述
专知会员服务
40+阅读 · 2025年5月15日
DeepSeek模型综述:V1 V2 V3 R1-Zero
专知会员服务
116+阅读 · 2025年2月11日
《大型语言模型代码生成》综述
专知会员服务
70+阅读 · 2024年6月4日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
《美陆军装备维护程序(2026版)》
专知会员服务
4+阅读 · 今天4:23
第五代作战任务规划:集成系统与算法
专知会员服务
6+阅读 · 今天4:11
《北约科技组织2025年亮点报告》
专知会员服务
2+阅读 · 今天3:42
人工智能在防空反导中的应用系统性综述
专知会员服务
5+阅读 · 今天2:45
新兴反无人机技术与不对称防御对策
专知会员服务
5+阅读 · 5月6日
《美空军条令出版物 3-60,目标定位(2026版)》
《定向能武器交战授权治理管道》
专知会员服务
6+阅读 · 5月6日
《人工智能与海军作战》最新报告
专知会员服务
7+阅读 · 5月6日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员