Exploring the Agentic Frontier of Verilog Code Generation - 专知论文

会员服务 ·

0

代码 · 工具 · 设计 · 代码生成 · 智能体 ·

Exploring the Agentic Frontier of Verilog Code Generation

翻译：探索Verilog代码生成的智能体前沿

Patrick Yubeaton,Chinmay Hegde,Siddharth Garg

Large language models (LLMs) have made rapid advancements in code generation for popular languages such as Python and C++. Many of these recent gains can be attributed to the use of ``agents'' that wrap domain-relevant tools alongside LLMs. Hardware design languages such as Verilog have also seen improved code generation in recent years, but the impact of agentic frameworks on Verilog code generation tasks remains unclear. In this work, we present the first systematic evaluation of agentic LLMs for Verilog generation, using the recently introduced CVDP benchmark. We also introduce several open-source hardware design agent harnesses, providing a model-agnostic baseline for future work. Through controlled experiments across frontier models, we study how structured prompting and tool design affect performance, analyze agent failure modes and tool usage patterns, compare open-source and closed-source models, and provide qualitative examples of successful and failed agent runs. Our results show that naive agentic wrapping around frontier models can degrade performance (relative to standard forward passes with optimized prompts), but that structured harnesses meaningfully match and in some cases exceed non-agentic baselines. We find that the performance gap between open and closed source models is driven by both higher crash rates and weaker tool output interpretation. Our exploration illuminates the path towards designing special-purpose agents for verilog generation in the future.

翻译：大型语言模型（LLMs）在Python和C++等流行语言的代码生成方面取得了快速进展。这些近期成果大多归功于使用“智能体”——即LLMs与领域相关工具相结合的封装。硬件设计语言（如Verilog）近年来在代码生成方面也取得了改进，但智能体框架对Verilog代码生成任务的影响尚不明确。在本工作中，我们首次利用最近引入的CVDP基准测试，对Verilog生成的智能体LLMs进行了系统性评估。我们还引入了多个开源硬件设计智能体框架，为未来工作提供了与模型无关的基线。通过在前沿模型中进行受控实验，我们研究了结构化提示和工具设计如何影响性能，分析了智能体的失败模式及工具使用模式，比较了开源与闭源模型，并提供了成功与失败智能体运行的定性实例。我们的结果表明，对前沿模型进行简单的智能体封装可能降低性能（相较于使用优化提示的标准前向传播），但结构化框架能有效匹配甚至在某些情况下超越非智能体基线。我们发现，开源与闭源模型之间的性能差距是由更高的崩溃率和较弱的工具输出解释能力共同驱动的。我们的探索为未来设计用于Verilog生成的专用智能体指明了方向。

0

相关内容

代码（Code）是专知网的一个重要知识资料文档板块，旨在整理收录论文源代码、复现代码，经典工程代码等，便于用户查阅下载使用。

智能体化人工智能 (Agentic AI) 的前行之路：挑战与机遇

智能体化人工智能 (Agentic AI) 的前行之路：挑战与机遇

专知会员服务

43+阅读 · 1月8日

从代码基础模型到智能体与应用：代码智能的全面综述与实践指南

从代码基础模型到智能体与应用：代码智能的全面综述与实践指南

专知会员服务

29+阅读 · 2025年12月13日

【ICML2025】MetaAgent：基于有限状态机的多智能体系统自动构建方法

【ICML2025】MetaAgent：基于有限状态机的多智能体系统自动构建方法

专知会员服务

15+阅读 · 2025年7月31日

【伯克利博士论文】基于代码结构感知方法推进代码生成大型语言模型的发展

【伯克利博士论文】基于代码结构感知方法推进代码生成大型语言模型的发展

专知会员服务

23+阅读 · 2025年7月21日

大语言模型与小语言模型协同机制综述

大语言模型与小语言模型协同机制综述

专知会员服务

40+阅读 · 2025年5月15日

DeepSeek模型综述：V1 V2 V3 R1-Zero

DeepSeek模型综述：V1 V2 V3 R1-Zero

专知会员服务

116+阅读 · 2025年2月11日

人工智能驱动的自动程序修复与代码生成的技术与进展全面综述

人工智能驱动的自动程序修复与代码生成的技术与进展全面综述

专知会员服务

25+阅读 · 2024年11月15日

《大型语言模型代码生成》综述

《大型语言模型代码生成》综述

专知会员服务

70+阅读 · 2024年6月4日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

《大型语言模型》最新报告，52页ppt，DeepMind Angeliki Lazaridou

《大型语言模型》最新报告，52页ppt，DeepMind Angeliki Lazaridou

专知会员服务

67+阅读 · 2022年9月17日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

【2022新书】Transformer自然语言处理：构建语言应用

【2022新书】Transformer自然语言处理：构建语言应用

专知

38+阅读 · 2022年1月31日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

GAN新书《生成式深度学习》Generative Deep Learning，附379页全文PDF

GAN新书《生成式深度学习》Generative Deep Learning，附379页全文PDF

专知

96+阅读 · 2019年9月30日

这套1600赞的NLP课程已开放，面向实战，视频代码都有丨资源

这套1600赞的NLP课程已开放，面向实战，视频代码都有丨资源

量子位

15+阅读 · 2019年7月9日

PyTorch自然语言处理实战（附详细代码下载）

PyTorch自然语言处理实战（附详细代码下载）

专知

67+阅读 · 2019年2月12日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

Word2Vec —— 深度学习的一小步，自然语言处理的一大步

Word2Vec —— 深度学习的一小步，自然语言处理的一大步

AI研习社

21+阅读 · 2018年6月14日

自然语言处理（二）机器翻译篇 (NLP: machine translation)

自然语言处理（二）机器翻译篇 (NLP: machine translation)

DeepLearning中文论坛

12+阅读 · 2015年7月1日

高速率、高频谱效率码分多址系统地址码设计研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于区分型码本的图像表示的研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线异构网络中多媒体信息组播的多速率网络编码理论和应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

5G极化码译码算法理论与实现关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

大规模天线系统中基于网络编码的协作中继与信号处理技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

联机手写维吾尔文基础数据库及识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向类脑计算存储器的调制编码理论及方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

可重构的环境自适应RS码软判决译码器研究

国家自然科学基金

0+阅读 · 2014年12月31日

CodeOCR: On the Effectiveness of Vision Language Models in Code Understanding

Arxiv

0+阅读 · 4月28日

SpecAgent: A Speculative Retrieval and Forecasting Agent for Code Completion

Arxiv

0+阅读 · 4月21日

VerilogCL: A Contrastive Learning Framework for Robust LLM-Based Verilog Generation

Arxiv

0+阅读 · 4月20日

VeruSAGE: A Study of Agent-Based Verification for Rust Systems

Arxiv

0+阅读 · 4月15日

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

Arxiv

0+阅读 · 4月11日

DeepGuard: Secure Code Generation via Multi-Layer Semantic Aggregation

Arxiv

0+阅读 · 4月10日

Chatbot-Based Assessment of Code Understanding in Automated Programming Assessment Systems

Arxiv

0+阅读 · 4月8日

CodeMind: Evaluating Large Language Models for Code Reasoning

Arxiv

0+阅读 · 4月7日

Self-Improving Code Generation via Semantic Entropy and Behavioral Consensus

Arxiv

0+阅读 · 3月31日

Agnostics: Learning to Code in Any Programming Language via Reinforcement with a Universal Learning Environment

Arxiv

0+阅读 · 3月23日

VIP会员

文章信息

相关主题

最新内容

《美陆军装备维护程序（2026版）》

《美陆军装备维护程序（2026版）》

专知会员服务

4+阅读 · 今天4:23

第五代作战任务规划：集成系统与算法

第五代作战任务规划：集成系统与算法

专知会员服务

6+阅读 · 今天4:11

《北约科技组织2025年亮点报告》

《北约科技组织2025年亮点报告》

专知会员服务

2+阅读 · 今天3:42

《深度卷积神经网络与在印太地区构建潜在暴力》

《深度卷积神经网络与在印太地区构建潜在暴力》

专知会员服务

2+阅读 · 今天3:09

《ARMOR 2025：一个面向军事领域的基准，用于评估大语言模型安全性》

《ARMOR 2025：一个面向军事领域的基准，用于评估大语言模型安全性》

专知会员服务

4+阅读 · 今天3:07

人工智能在防空反导中的应用系统性综述

人工智能在防空反导中的应用系统性综述

专知会员服务

5+阅读 · 今天2:45

新兴反无人机技术与不对称防御对策

新兴反无人机技术与不对称防御对策

专知会员服务

5+阅读 · 5月6日

《美空军条令出版物 3-60，目标定位（2026版）》

《美空军条令出版物 3-60，目标定位（2026版）》

专知会员服务

14+阅读 · 5月6日

多模态多智能体AI系统赋能军事态势感知：与单智能体方法的比较研究

多模态多智能体AI系统赋能军事态势感知：与单智能体方法的比较研究

专知会员服务

14+阅读 · 5月6日

《无人机在冲突地区提供紧急医疗与外科支持》

《无人机在冲突地区提供紧急医疗与外科支持》

专知会员服务

6+阅读 · 5月6日

《定向能武器交战授权治理管道》

《定向能武器交战授权治理管道》

专知会员服务

6+阅读 · 5月6日

《防空协同制导：用于中段目标分配的多目标成本函数》

《防空协同制导：用于中段目标分配的多目标成本函数》

专知会员服务

9+阅读 · 5月6日

《人工智能与海军作战》最新报告

《人工智能与海军作战》最新报告

专知会员服务

7+阅读 · 5月6日

人工智能专题：中国人工智能系列白皮书-具身智能(2026)，100页pdf

人工智能专题：中国人工智能系列白皮书-具身智能(2026)，100页pdf

专知会员服务

5+阅读 · 5月6日

【ICML spotlight 2026】HELIX：通过可学习特征身份嵌入实现时间序列插补的混合编码框架

【ICML spotlight 2026】HELIX：通过可学习特征身份嵌入实现时间序列插补的混合编码框架

专知会员服务

4+阅读 · 5月6日

相关VIP内容

智能体化人工智能 (Agentic AI) 的前行之路：挑战与机遇

智能体化人工智能 (Agentic AI) 的前行之路：挑战与机遇

专知会员服务

43+阅读 · 1月8日

从代码基础模型到智能体与应用：代码智能的全面综述与实践指南

从代码基础模型到智能体与应用：代码智能的全面综述与实践指南

专知会员服务

29+阅读 · 2025年12月13日

【ICML2025】MetaAgent：基于有限状态机的多智能体系统自动构建方法

【ICML2025】MetaAgent：基于有限状态机的多智能体系统自动构建方法

专知会员服务

15+阅读 · 2025年7月31日

【伯克利博士论文】基于代码结构感知方法推进代码生成大型语言模型的发展

【伯克利博士论文】基于代码结构感知方法推进代码生成大型语言模型的发展

专知会员服务

23+阅读 · 2025年7月21日

大语言模型与小语言模型协同机制综述

大语言模型与小语言模型协同机制综述

专知会员服务

40+阅读 · 2025年5月15日

DeepSeek模型综述：V1 V2 V3 R1-Zero

DeepSeek模型综述：V1 V2 V3 R1-Zero

专知会员服务

116+阅读 · 2025年2月11日

人工智能驱动的自动程序修复与代码生成的技术与进展全面综述

人工智能驱动的自动程序修复与代码生成的技术与进展全面综述

专知会员服务

25+阅读 · 2024年11月15日

《大型语言模型代码生成》综述

《大型语言模型代码生成》综述

专知会员服务

70+阅读 · 2024年6月4日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

《大型语言模型》最新报告，52页ppt，DeepMind Angeliki Lazaridou

《大型语言模型》最新报告，52页ppt，DeepMind Angeliki Lazaridou

专知会员服务

67+阅读 · 2022年9月17日

热门VIP内容

开通专知VIP会员享更多权益服务

第五代作战任务规划：集成系统与算法

《深度卷积神经网络与在印太地区构建潜在暴力》

《美陆军装备维护程序（2026版）》

《北约科技组织2025年亮点报告》

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

【2022新书】Transformer自然语言处理：构建语言应用

【2022新书】Transformer自然语言处理：构建语言应用

专知

38+阅读 · 2022年1月31日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

GAN新书《生成式深度学习》Generative Deep Learning，附379页全文PDF

GAN新书《生成式深度学习》Generative Deep Learning，附379页全文PDF

专知

96+阅读 · 2019年9月30日

这套1600赞的NLP课程已开放，面向实战，视频代码都有丨资源

这套1600赞的NLP课程已开放，面向实战，视频代码都有丨资源

量子位

15+阅读 · 2019年7月9日

PyTorch自然语言处理实战（附详细代码下载）

PyTorch自然语言处理实战（附详细代码下载）

专知

67+阅读 · 2019年2月12日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

Word2Vec —— 深度学习的一小步，自然语言处理的一大步

Word2Vec —— 深度学习的一小步，自然语言处理的一大步

AI研习社

21+阅读 · 2018年6月14日

自然语言处理（二）机器翻译篇 (NLP: machine translation)

自然语言处理（二）机器翻译篇 (NLP: machine translation)

DeepLearning中文论坛

12+阅读 · 2015年7月1日

相关论文

CodeOCR: On the Effectiveness of Vision Language Models in Code Understanding

Arxiv

0+阅读 · 4月28日

SpecAgent: A Speculative Retrieval and Forecasting Agent for Code Completion

Arxiv

0+阅读 · 4月21日

VerilogCL: A Contrastive Learning Framework for Robust LLM-Based Verilog Generation

Arxiv

0+阅读 · 4月20日

VeruSAGE: A Study of Agent-Based Verification for Rust Systems

Arxiv

0+阅读 · 4月15日

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

Arxiv

0+阅读 · 4月11日

DeepGuard: Secure Code Generation via Multi-Layer Semantic Aggregation

Arxiv

0+阅读 · 4月10日

Chatbot-Based Assessment of Code Understanding in Automated Programming Assessment Systems

Arxiv

0+阅读 · 4月8日

CodeMind: Evaluating Large Language Models for Code Reasoning

Arxiv

0+阅读 · 4月7日

Self-Improving Code Generation via Semantic Entropy and Behavioral Consensus

Arxiv

0+阅读 · 3月31日

Agnostics: Learning to Code in Any Programming Language via Reinforcement with a Universal Learning Environment

Arxiv

0+阅读 · 3月23日

相关基金

高速率、高频谱效率码分多址系统地址码设计研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于区分型码本的图像表示的研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线异构网络中多媒体信息组播的多速率网络编码理论和应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

5G极化码译码算法理论与实现关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

大规模天线系统中基于网络编码的协作中继与信号处理技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

联机手写维吾尔文基础数据库及识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向类脑计算存储器的调制编码理论及方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

可重构的环境自适应RS码软判决译码器研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员