Code reproduction is a cornerstone of scientific validity, yet it remains a formidable challenge in computer networking research due to the scarcity of open-source implementations and the complexity of heterogeneous system architectures. While Large Language Models have demonstrated potential in code generation, existing code generation frameworks often fail to address the long-context constraints and intricate logical dependencies required to reproduce network systems from academic papers. To facilitate result reproduction, we introduce \emph{RepLLM}, an end-to-end multi-agent framework designed to automate the transformation of network research into executable code. RepLLM features a novel collaborative architecture comprising four specialized agents -- Content Parsing, Architecture Design, Code Generation, and Audit \& Repair -- coordinated through an explicit \textit{Shared Memory} mechanism to ensure global context consistency. With the enhancement of Chain-of-Thought LLM reasoning and a sandbox-isolated static-dynamic debugging methodology, our framework effectively resolves semantic discrepancies and runtime errors. Extensive evaluations on representative papers from SIGCOMM and NSDI demonstrate that RepLLM significantly outperforms state-of-the-art baselines in generating compile-ready and logically correct systems. Results further demonstrate that RepLLM facilitates the reproduction of 80\% of the original benchmarks with only four hours of human intervention.


翻译:代码复现是科学有效性的基石,但在计算机网络研究中,由于开源实现的稀缺性以及异构系统架构的复杂性,它仍然是一项艰巨的挑战。尽管大型语言模型在代码生成方面已展现出潜力,但现有的代码生成框架往往无法满足从学术论文复现网络系统所需的长上下文约束和复杂的逻辑依赖性。为了促进结果复现,我们引入了 \emph{RepLLM},一个端到端多智能体框架,旨在将网络研究自动化地转化为可执行代码。RepLLM采用了一种新颖的协作架构,包含四个专门化的智能体——内容解析、架构设计、代码生成以及审计与修复——它们通过一个显式的 \textit{共享内存} 机制进行协调,以确保全局上下文的一致性。通过结合思维链LLM推理增强以及沙盒隔离的静态-动态调试方法,我们的框架有效解决了语义差异和运行时错误。在SIGCOMM和NSDI代表性论文上进行的大量评估表明,RepLLM在生成可编译且逻辑正确的系统方面显著优于最先进的基线方法。结果进一步证明,RepLLM能够在仅需四小时人工干预的情况下,促进80%原始基准测试的复现。

0
下载
关闭预览

相关内容

代码(Code)是专知网的一个重要知识资料文档板块,旨在整理收录论文源代码、复现代码,经典工程代码等,便于用户查阅下载使用。
《基于大型语言模型的软件工程自动化研究》最新264页
专知会员服务
37+阅读 · 2025年7月14日
探索大型语言模型在网络安全中的作用:一项系统综述
专知会员服务
20+阅读 · 2025年4月27日
《大语言模型的数据合成与增强综述》
专知会员服务
43+阅读 · 2024年10月19日
大语言模型评估技术研究进展
专知会员服务
48+阅读 · 2024年7月9日
《大型语言模型代码生成》综述
专知会员服务
68+阅读 · 2024年6月4日
自动编程:大型语言模型及其他
专知会员服务
36+阅读 · 2024年5月12日
大型语言模型:原理、实现与发展
专知会员服务
102+阅读 · 2023年11月28日
《大型语言模型归因》综述
专知会员服务
75+阅读 · 2023年11月8日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
499+阅读 · 2023年3月31日
VIP会员
相关VIP内容
《基于大型语言模型的软件工程自动化研究》最新264页
专知会员服务
37+阅读 · 2025年7月14日
探索大型语言模型在网络安全中的作用:一项系统综述
专知会员服务
20+阅读 · 2025年4月27日
《大语言模型的数据合成与增强综述》
专知会员服务
43+阅读 · 2024年10月19日
大语言模型评估技术研究进展
专知会员服务
48+阅读 · 2024年7月9日
《大型语言模型代码生成》综述
专知会员服务
68+阅读 · 2024年6月4日
自动编程:大型语言模型及其他
专知会员服务
36+阅读 · 2024年5月12日
大型语言模型:原理、实现与发展
专知会员服务
102+阅读 · 2023年11月28日
《大型语言模型归因》综述
专知会员服务
75+阅读 · 2023年11月8日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员