Large language models (LLMs) have advanced code generation from single-function tasks to competitive-programming problems, but existing multi-agent solutions either rely on costly large-scale (>30B) models or collapse when downsized to small open-source models. We present MapCoder-Lite, a framework for distilling the complex reasoning of large, multi-agent coding systems into a single 7B model. Our contribution is a novel, three-pillar methodology that synergistically generates, refines, and encodes multi-agent knowledge: (i) pass-based trajectory distillation from strong LLMs fixes format fragility in retrieval and reduces failures in debugging, (ii) supervisor-guided correction with global feedback strengthens planning and coding agents, and (iii) agent-wise LoRA fine-tuning delivers memory-efficient specialisation. Comprehensive evaluation on xCodeEval, APPS, and CodeContests shows that MapCoder-Lite more than doubles xCodeEval accuracy (from 13.2% to 28.3%), eliminates all format failures, while reducing GPU memory and token-generation time by 4x compared to a 32B model. It also achieves over 10% gains on simpler coding benchmarks, demonstrating broad improvements beyond competitive programming. These results demonstrate that careful agent-wise fine-tuning unleashes high-quality multi-agent coding on a small language model. Our code is publicly available at https://github.com/aiha-lab/MapCoder-Lite.


翻译:大语言模型(LLM)在代码生成方面已从单函数任务发展到可解决竞赛编程问题,但现有的多智能体解决方案要么依赖成本高昂的大规模(>300亿参数)模型,要么在缩小至小型开源模型时性能崩溃。我们提出了MapCoder-Lite,这是一个将复杂的大型多智能体编码系统推理能力蒸馏至单个70亿参数模型的框架。我们的核心贡献是一种新颖的三支柱协同方法,用于生成、精炼和编码多智能体知识:(i)基于轮次的轨迹蒸馏从强LLM中提取知识,修复检索中的格式脆弱性并减少调试失败;(ii)采用全局反馈的监督器引导校正机制,增强规划与编码智能体的能力;(iii)基于智能体的LoRA微调实现内存高效的专业化。在xCodeEval、APPS和CodeContests上的综合评估表明,MapCoder-Lite将xCodeEval准确率提升一倍以上(从13.2%至28.3%),完全消除了格式错误,同时与320亿参数模型相比,GPU内存占用和令牌生成时间减少至四分之一。该模型在简单代码基准测试中也实现了超过10%的性能提升,证明了其在竞赛编程之外的广泛改进。这些结果表明,经过精细的智能体级微调,小型语言模型也能释放出高质量的多智能体编码能力。我们的代码已公开于https://github.com/aiha-lab/MapCoder-Lite。

0
下载
关闭预览

相关内容

代码(Code)是专知网的一个重要知识资料文档板块,旨在整理收录论文源代码、复现代码,经典工程代码等,便于用户查阅下载使用。
《大语言模型智能体:方法、应用与挑战综述》
专知会员服务
58+阅读 · 2025年3月28日
基于大语言模型的智能体优化研究综述
专知会员服务
59+阅读 · 2025年3月25日
大语言模型智能体
专知会员服务
97+阅读 · 2024年12月25日
揭示生成式人工智能 / 大型语言模型(LLMs)的军事潜力
专知会员服务
31+阅读 · 2024年9月26日
基于大型语言模型的软件工程智能体综述
专知会员服务
58+阅读 · 2024年9月6日
《大型语言模型代码生成》综述
专知会员服务
68+阅读 · 2024年6月4日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
相关VIP内容
《大语言模型智能体:方法、应用与挑战综述》
专知会员服务
58+阅读 · 2025年3月28日
基于大语言模型的智能体优化研究综述
专知会员服务
59+阅读 · 2025年3月25日
大语言模型智能体
专知会员服务
97+阅读 · 2024年12月25日
揭示生成式人工智能 / 大型语言模型(LLMs)的军事潜力
专知会员服务
31+阅读 · 2024年9月26日
基于大型语言模型的软件工程智能体综述
专知会员服务
58+阅读 · 2024年9月6日
《大型语言模型代码生成》综述
专知会员服务
68+阅读 · 2024年6月4日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员