Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL - 专知论文

会员服务 ·

0

表示 · 代码 · 结构 · 设计 · 大语言模型 ·

Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

翻译：错误代码，正确结构：从不完美的LLM生成RTL中学习网表表示

Siyang Cai,Cangyuan Li,Yinhe Han,Ying Wang

Learning effective netlist representations is fundamentally constrained by the scarcity of labeled datasets, as real designs are protected by Intellectual Property (IP) and costly to annotate. Existing work therefore focuses on small-scale circuits with clean labels, limiting scalability to realistic designs. Meanwhile, Large Language Models (LLMs) can generate Register-Transfer-Level (RTL) at scale, but their functional incorrectness has hindered their use in circuit analysis. In this work, we make a key observation: even when LLM-Generated RTL is functionally imperfect, the synthesized netlists still preserve structural patterns that are strongly indicative of the intended functionality. Building on this insight, we propose a cost-effective data augmentation and training framework that systematically exploits imperfect LLM-Generated RTL as training data for netlist representation learning, forming an end-to-end pipeline from automated code generation to downstream tasks. We conduct evaluations on circuit functional understanding tasks, including sub-circuit boundary identification and component classification, across benchmarks of increasing scales, extending the task scope from operator-level to IP-level. The evaluations demonstrate that models trained on our noisy synthetic corpus generalize well to real-world netlists, matching or even surpassing methods trained on scarce high-quality data and effectively breaking the data bottleneck in circuit representation learning.

翻译：学习有效的网表表示从根本上受到标记数据集稀缺性的制约，因为真实设计受知识产权保护且标注成本高昂。因此现有工作主要集中于具有干净标签的小规模电路，限制了向实际设计的可扩展性。与此同时，大型语言模型能够大规模生成寄存器传输级代码，但其功能正确性问题阻碍了它们在电路分析中的应用。本工作中，我们提出一个关键发现：即使LLM生成的RTL在功能上不完美，其综合后的网表仍保留了能强烈反映预期功能的结构模式。基于这一洞见，我们提出一种经济高效的数据增强与训练框架，系统性地利用不完美的LLM生成RTL作为网表表示学习的训练数据，形成从自动代码生成到下游任务的端到端流程。我们在电路功能理解任务上开展评估，包括子电路边界识别和组件分类，覆盖从算子级到IP级逐步扩展的基准测试。评估结果表明，基于我们带噪声合成语料库训练的模型能良好泛化到真实网表，其性能匹配甚至超越了基于稀缺高质量数据训练的方法，有效突破了电路表示学习中的数据瓶颈。

0

相关内容

【牛津大学博士论文】从多模态数据中学习表示，258页pdf

【牛津大学博士论文】从多模态数据中学习表示，258页pdf

专知会员服务

52+阅读 · 2024年7月28日

网络表示如何可解释？Syracuse大学最新WWW2022《可解释表示学习》教程，附97页ppt

网络表示如何可解释？Syracuse大学最新WWW2022《可解释表示学习》教程，附97页ppt

专知会员服务

50+阅读 · 2022年4月30日

香港浸会大学最新《标签噪声表示学习》综述论文，全面阐述LNRL的数据、目标函数与优化策略

香港浸会大学最新《标签噪声表示学习》综述论文，全面阐述LNRL的数据、目标函数与优化策略

专知会员服务

32+阅读 · 2022年2月15日

图表示学习进展到哪了？看这份KDD2021《图表示学习:基础，方法，应用与系统》教程，众大牛讲解，附Slides

专知会员服务

61+阅读 · 2021年8月24日

异质网络表示学习综述论文

专知会员服务

38+阅读 · 2021年8月2日

复杂网络的双曲空间表征学习方法

专知会员服务

47+阅读 · 2020年11月13日

网络表示学习算法综述

专知会员服务

66+阅读 · 2020年9月24日

【微软】最新《异构网络表示学习》综述论文

专知会员服务

39+阅读 · 2020年6月7日

【KDD2020-清华大学】理解图表示学习中的负采样，Understanding Negative Sampling

【KDD2020-清华大学】理解图表示学习中的负采样，Understanding Negative Sampling

专知会员服务

63+阅读 · 2020年5月23日

【WSDN 2020 论文】一种结构图表示学习框架（A Structural Graph Representation Learning Framework）

【WSDN 2020 论文】一种结构图表示学习框架（A Structural Graph Representation Learning Framework）

专知会员服务

74+阅读 · 2019年11月20日

【UCLA】动态图表示学习，40页ppt，Dynamic Graph Representation Learning

【UCLA】动态图表示学习，40页ppt，Dynamic Graph Representation Learning

专知

27+阅读 · 2021年3月7日

网络表示学习概述

网络表示学习概述

机器学习与推荐算法

20+阅读 · 2020年3月27日

清华大学唐杰老师WWW2019网络表示学习教程-NE、GNN，500页ppt

清华大学唐杰老师WWW2019网络表示学习教程-NE、GNN，500页ppt

专知

71+阅读 · 2019年5月17日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

【最新综述】无监督网络表示学习综述，附18页全文下载

【最新综述】无监督网络表示学习综述，附18页全文下载

专知

28+阅读 · 2019年3月20日

网络表示学习介绍

网络表示学习介绍

人工智能前沿讲习班

18+阅读 · 2018年11月26日

【论文推荐】最新八篇网络节点表示相关论文—可扩展嵌入、对抗自编码器、图划分、异构信息、显式矩阵分解、深度高斯、图、随机游走

【论文推荐】最新八篇网络节点表示相关论文—可扩展嵌入、对抗自编码器、图划分、异构信息、显式矩阵分解、深度高斯、图、随机游走

专知

14+阅读 · 2018年3月30日

网络节点表示学习论文笔记03—基于异构网络节点表示的推荐系统

网络节点表示学习论文笔记03—基于异构网络节点表示的推荐系统

专知

27+阅读 · 2018年2月24日

网络表示学习领域（NRL/NE）必读论文汇总

网络表示学习领域（NRL/NE）必读论文汇总

AI科技评论

16+阅读 · 2018年2月18日

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

专知

14+阅读 · 2018年2月4日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于事件驱动的不完整信息耦合复杂网络群集动力学研究

国家自然科学基金

1+阅读 · 2015年12月31日

不确定知识图谱中面向结构查询的众包清洗研究

国家自然科学基金

4+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

17+阅读 · 2015年12月31日

逻辑错误屏蔽的近似电路逻辑综合多目标优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

无线传感器网络中高效的虚假数据过滤方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

面向异构信息网络中实体归类的模糊聚类

国家自然科学基金

1+阅读 · 2015年12月31日

约束最小生成树及其在容迟容断网络中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

Localizing and Correcting Errors for LLM-based Planners

Arxiv

0+阅读 · 3月6日

ExPairT-LLM: Exact Learning for LLM Code Selection by Pairwise Queries

Arxiv

0+阅读 · 2月20日

Leveraging Large Language Models for Automated Reproduction of Networking Research Results

Arxiv

0+阅读 · 2月13日

Learning on the Manifold: Unlocking Standard Diffusion Transformers with Representation Encoders

Arxiv

0+阅读 · 2月10日

LLMs Encode Their Failures: Predicting Success from Pre-Generation Activations

Arxiv

0+阅读 · 2月10日

CodeCircuit: Toward Inferring LLM-Generated Code Correctness via Attribution Graphs

Arxiv

0+阅读 · 2月6日

Team, Then Trim: An Assembly-Line LLM Framework for High-Quality Tabular Data Generation

Arxiv

0+阅读 · 2月4日

Correctness isnt Efficiency: Runtime Memory Divergence in LLM-Generated Code

Arxiv

0+阅读 · 2月1日

Understanding and Mitigating Errors of LLM-Generated RTL Code

Arxiv

0+阅读 · 2月1日

Rethinking LLM-as-a-Judge: Representation-as-a-Judge with Small Language Models via Semantic Capacity Asymmetry

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

大语言模型

最新内容

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

2+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

2+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

3+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

3+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

3+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

3+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

4+阅读 · 5月29日

“史诗怒火行动”中美军损失的作战飞机

“史诗怒火行动”中美军损失的作战飞机

专知会员服务

2+阅读 · 5月29日

ICML 2026 | 理解上下文持续学习中的泛化与遗忘

ICML 2026 | 理解上下文持续学习中的泛化与遗忘

专知会员服务

5+阅读 · 5月28日

Agent Harness综述：大模型智能体执行器工程全景

Agent Harness综述：大模型智能体执行器工程全景

专知会员服务

13+阅读 · 5月28日

审视现代战争中的 AI 赋能杀伤链系统及印度防务的战略要务（中文版）

审视现代战争中的 AI 赋能杀伤链系统及印度防务的战略要务（中文版）

专知会员服务

14+阅读 · 5月28日

分布式作战效能：乌克兰如何在战术层面重新定义火力打击、电子战与防空（中文版）

分布式作战效能：乌克兰如何在战术层面重新定义火力打击、电子战与防空（中文版）

专知会员服务

9+阅读 · 5月28日

马赛克防御与分布式指挥：伊朗的回击（中文版）

马赛克防御与分布式指挥：伊朗的回击（中文版）

专知会员服务

10+阅读 · 5月28日

《基于理论的威慑效能评估》

《基于理论的威慑效能评估》

专知会员服务

8+阅读 · 5月28日

《移动旅级战斗队转型中的支援单元指挥控制挑战》

《移动旅级战斗队转型中的支援单元指挥控制挑战》

专知会员服务

15+阅读 · 5月27日

相关VIP内容

【牛津大学博士论文】从多模态数据中学习表示，258页pdf

【牛津大学博士论文】从多模态数据中学习表示，258页pdf

专知会员服务

52+阅读 · 2024年7月28日

网络表示如何可解释？Syracuse大学最新WWW2022《可解释表示学习》教程，附97页ppt

网络表示如何可解释？Syracuse大学最新WWW2022《可解释表示学习》教程，附97页ppt

专知会员服务

50+阅读 · 2022年4月30日

香港浸会大学最新《标签噪声表示学习》综述论文，全面阐述LNRL的数据、目标函数与优化策略

香港浸会大学最新《标签噪声表示学习》综述论文，全面阐述LNRL的数据、目标函数与优化策略

专知会员服务

32+阅读 · 2022年2月15日

图表示学习进展到哪了？看这份KDD2021《图表示学习:基础，方法，应用与系统》教程，众大牛讲解，附Slides

专知会员服务

61+阅读 · 2021年8月24日

异质网络表示学习综述论文

专知会员服务

38+阅读 · 2021年8月2日

复杂网络的双曲空间表征学习方法

专知会员服务

47+阅读 · 2020年11月13日

网络表示学习算法综述

专知会员服务

66+阅读 · 2020年9月24日

【微软】最新《异构网络表示学习》综述论文

专知会员服务

39+阅读 · 2020年6月7日

【KDD2020-清华大学】理解图表示学习中的负采样，Understanding Negative Sampling

【KDD2020-清华大学】理解图表示学习中的负采样，Understanding Negative Sampling

专知会员服务

63+阅读 · 2020年5月23日

【WSDN 2020 论文】一种结构图表示学习框架（A Structural Graph Representation Learning Framework）

【WSDN 2020 论文】一种结构图表示学习框架（A Structural Graph Representation Learning Framework）

专知会员服务

74+阅读 · 2019年11月20日

热门VIP内容

开通专知VIP会员享更多权益服务

AutoScientists：自组织智能体团队驱动长期科学实验

战略前沿人工智能的再思考（中文）

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

相关资讯

【UCLA】动态图表示学习，40页ppt，Dynamic Graph Representation Learning

【UCLA】动态图表示学习，40页ppt，Dynamic Graph Representation Learning

专知

27+阅读 · 2021年3月7日

网络表示学习概述

网络表示学习概述

机器学习与推荐算法

20+阅读 · 2020年3月27日

清华大学唐杰老师WWW2019网络表示学习教程-NE、GNN，500页ppt

清华大学唐杰老师WWW2019网络表示学习教程-NE、GNN，500页ppt

专知

71+阅读 · 2019年5月17日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

【最新综述】无监督网络表示学习综述，附18页全文下载

【最新综述】无监督网络表示学习综述，附18页全文下载

专知

28+阅读 · 2019年3月20日

网络表示学习介绍

网络表示学习介绍

人工智能前沿讲习班

18+阅读 · 2018年11月26日

【论文推荐】最新八篇网络节点表示相关论文—可扩展嵌入、对抗自编码器、图划分、异构信息、显式矩阵分解、深度高斯、图、随机游走

【论文推荐】最新八篇网络节点表示相关论文—可扩展嵌入、对抗自编码器、图划分、异构信息、显式矩阵分解、深度高斯、图、随机游走

专知

14+阅读 · 2018年3月30日

网络节点表示学习论文笔记03—基于异构网络节点表示的推荐系统

网络节点表示学习论文笔记03—基于异构网络节点表示的推荐系统

专知

27+阅读 · 2018年2月24日

网络表示学习领域（NRL/NE）必读论文汇总

网络表示学习领域（NRL/NE）必读论文汇总

AI科技评论

16+阅读 · 2018年2月18日

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

专知

14+阅读 · 2018年2月4日

相关论文

Localizing and Correcting Errors for LLM-based Planners

Arxiv

0+阅读 · 3月6日

ExPairT-LLM: Exact Learning for LLM Code Selection by Pairwise Queries

Arxiv

0+阅读 · 2月20日

Leveraging Large Language Models for Automated Reproduction of Networking Research Results

Arxiv

0+阅读 · 2月13日

Learning on the Manifold: Unlocking Standard Diffusion Transformers with Representation Encoders

Arxiv

0+阅读 · 2月10日

LLMs Encode Their Failures: Predicting Success from Pre-Generation Activations

Arxiv

0+阅读 · 2月10日

CodeCircuit: Toward Inferring LLM-Generated Code Correctness via Attribution Graphs

Arxiv

0+阅读 · 2月6日

Team, Then Trim: An Assembly-Line LLM Framework for High-Quality Tabular Data Generation

Arxiv

0+阅读 · 2月4日

Correctness isnt Efficiency: Runtime Memory Divergence in LLM-Generated Code

Arxiv

0+阅读 · 2月1日

Understanding and Mitigating Errors of LLM-Generated RTL Code

Arxiv

0+阅读 · 2月1日

Rethinking LLM-as-a-Judge: Representation-as-a-Judge with Small Language Models via Semantic Capacity Asymmetry

Arxiv

0+阅读 · 1月30日

相关基金

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于事件驱动的不完整信息耦合复杂网络群集动力学研究

国家自然科学基金

1+阅读 · 2015年12月31日

不确定知识图谱中面向结构查询的众包清洗研究

国家自然科学基金

4+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

17+阅读 · 2015年12月31日

逻辑错误屏蔽的近似电路逻辑综合多目标优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

无线传感器网络中高效的虚假数据过滤方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

面向异构信息网络中实体归类的模糊聚类

国家自然科学基金

1+阅读 · 2015年12月31日

约束最小生成树及其在容迟容断网络中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员