Large language models (LLMs) have advanced code generation from single-function tasks to competitive-programming problems, but existing multi-agent solutions either rely on costly large-scale (>30B) models or collapse when downsized to small open-source models. We present MapCoder-Lite, a framework for distilling the complex reasoning of large, multi-agent coding systems into a single 7B model. Our contribution is a novel, three-pillar methodology that synergistically generates, refines, and encodes multi-agent knowledge: (i) pass-based trajectory distillation from strong LLMs fixes format fragility in retrieval and reduces failures in debugging, (ii) supervisor-guided correction with global feedback strengthens planning and coding agents, and (iii) agent-wise LoRA fine-tuning delivers memory-efficient specialisation. Comprehensive evaluation on xCodeEval, APPS, and CodeContests shows that MapCoder-Lite more than doubles xCodeEval accuracy (from 13.2% to 28.3%), eliminates all format failures, while reducing GPU memory and token-generation time by 4x compared to a 32B model. It also achieves over 10% gains on simpler coding benchmarks, demonstrating broad improvements beyond competitive programming. These results demonstrate that careful agent-wise fine-tuning unleashes high-quality multi-agent coding on a small language model. Our code is publicly available at https://github.com/aiha-lab/MapCoder-Lite.


翻译:大语言模型(LLM)在代码生成方面已从单函数任务发展到可解决竞赛编程问题,但现有的多智能体解决方案要么依赖成本高昂的大规模(>300亿参数)模型,要么在缩小至小型开源模型时性能崩溃。我们提出了MapCoder-Lite,这是一个将复杂的大型多智能体编码系统推理能力蒸馏至单个70亿参数模型的框架。我们的核心贡献是一种新颖的三支柱协同方法,用于生成、精炼和编码多智能体知识:(i)基于轮次的轨迹蒸馏从强LLM中提取知识,修复检索中的格式脆弱性并减少调试失败;(ii)采用全局反馈的监督器引导校正机制,增强规划与编码智能体的能力;(iii)基于智能体的LoRA微调实现内存高效的专业化。在xCodeEval、APPS和CodeContests上的综合评估表明,MapCoder-Lite将xCodeEval准确率提升一倍以上(从13.2%至28.3%),完全消除了格式错误,同时与320亿参数模型相比,GPU内存占用和令牌生成时间减少至四分之一。该模型在简单代码基准测试中也实现了超过10%的性能提升,证明了其在竞赛编程之外的广泛改进。这些结果表明,经过精细的智能体级微调,小型语言模型也能释放出高质量的多智能体编码能力。我们的代码已公开于https://github.com/aiha-lab/MapCoder-Lite。

0
下载
关闭预览

相关内容

代码(Code)是专知网的一个重要知识资料文档板块,旨在整理收录论文源代码、复现代码,经典工程代码等,便于用户查阅下载使用。
大语言模型智能体
专知会员服务
99+阅读 · 2024年12月25日
揭示生成式人工智能 / 大型语言模型(LLMs)的军事潜力
专知会员服务
31+阅读 · 2024年9月26日
基于大型语言模型的软件工程智能体综述
专知会员服务
60+阅读 · 2024年9月6日
《大型语言模型代码生成》综述
专知会员服务
70+阅读 · 2024年6月4日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
最新内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
0+阅读 · 49分钟前
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
3+阅读 · 今天14:04
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
6+阅读 · 今天13:49
基于声学的无人机检测技术综述
专知会员服务
5+阅读 · 今天13:37
《当代混合战争分析框架:俄乌战争经验教训》
专知会员服务
5+阅读 · 今天13:11
战略前沿人工智能的再思考(中文)
专知会员服务
7+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
5+阅读 · 5月29日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员