Coverage closure is the most time-consuming phase of hardware verification, and recent large language model (LLM)-based coding agents offer a promising approach to automated stimulus generation. However, prior LLM-based flows do not systematically analyze which coverage holes remain difficult to close or how inference-time computation is allocated during agentic verification. As a result, the efficiency limits and failure modes of LLM-based coverage closure remain poorly understood, particularly for large designs. We present an empirical study using a two-tier agentic framework comprising a base Codex agent and an enhanced domain-specialized LangGraph system. Our framework enables a taxonomy of coverage holes: methodology-bound ceilings (integration tied-off hardware, infeasible boundaries, dead code) and reasoning frontiers (protocol sequencing, multi-module pipeline warm-up, narrow timing conditions), exposing fundamental limits of purely LLM-driven approaches. We further instrument the system to track token usage across six categories, including system prompt, design comprehension, stimulus generation, coverage feedback, error recovery, and agentic overhead. We show that domain specialization shifts token allocation toward coverage-directed reasoning and improves efficiency. Across designs, the enhanced system achieves comparable or higher coverage (95-99%) while using 4-13x fewer tokens and converging to coverage targets 2-4x faster than a general-purpose baseline. Our results characterize the limits of LLM-based coverage closure, inform benchmark design and human escalation strategies, and guide profile-driven agent design for hardware verification.


翻译:覆盖收敛是硬件验证中最耗时的阶段,基于大型语言模型(LLM)的最新编码智能体为自动化激励生成提供了有前景的方法。然而,以往的LLM流程并未系统分析哪些覆盖盲点难以收敛,也未探讨推理时计算在智能体验证中的分配方式。因此,LLM驱动的覆盖收敛效率极限与失效模式仍未被充分理解,尤其在大型设计场景中。我们通过一个双层智能体框架(包含基础Codex智能体与增强型领域专用LangGraph系统)开展实证研究。该框架实现了覆盖盲点的分类体系:方法论限制性瓶颈(集成绑定硬件、不可行边界、死代码)与推理前沿(协议序列化、多模块流水线预热、窄时序条件),揭示了纯LLM驱动方法的根本局限性。我们进一步对系统进行插桩,追踪六大类令牌消耗(包括系统提示、设计理解、激励生成、覆盖反馈、错误恢复与智能体开销),证明领域专业化可将令牌分配转向覆盖导向推理,并提升效率。在各类设计中,增强型系统以通用基线4-13倍的更低令牌消耗实现同等或更高覆盖率(95-99%),且收敛至覆盖目标的速度快2-4倍。本研究量化了LLM驱动覆盖收敛的极限,为基准测试设计、人工升级策略制定及硬件验证中基于性能画像的智能体框架优化提供依据。

0
下载
关闭预览

相关内容

智能体技能综合综述:分类、技术与应用
专知会员服务
33+阅读 · 5月11日
智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
AgentOps综述:分类、挑战与未来方向
专知会员服务
40+阅读 · 2025年8月6日
高效大语言模型推理服务综述
专知会员服务
18+阅读 · 2025年4月30日
关于大语言模型驱动的推荐系统智能体的综述
专知会员服务
29+阅读 · 2025年2月17日
智能体检索增强生成:关于智能体RAG的综述
专知会员服务
94+阅读 · 2025年1月21日
探究检索增强下的大模型知识边界
专知会员服务
56+阅读 · 2023年7月25日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
16+阅读 · 2020年9月9日
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
20+阅读 · 2020年9月1日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月4日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
智能体技能综合综述:分类、技术与应用
专知会员服务
33+阅读 · 5月11日
智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
AgentOps综述:分类、挑战与未来方向
专知会员服务
40+阅读 · 2025年8月6日
高效大语言模型推理服务综述
专知会员服务
18+阅读 · 2025年4月30日
关于大语言模型驱动的推荐系统智能体的综述
专知会员服务
29+阅读 · 2025年2月17日
智能体检索增强生成:关于智能体RAG的综述
专知会员服务
94+阅读 · 2025年1月21日
探究检索增强下的大模型知识边界
专知会员服务
56+阅读 · 2023年7月25日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员