Competitive programming presents great challenges for Code LLMs due to its intensive reasoning demands and high logical complexity. However, current Code LLMs still rely heavily on real-world data, which limits their scalability. In this paper, we explore a fully synthetic approach: training Code LLMs with entirely generated tasks, solutions, and test cases, to empower code reasoning models without relying on real-world data. To support this, we leverage feature-based synthesis to propose a novel data synthesis pipeline called SynthSmith. SynthSmith shows strong potential in producing diverse and challenging tasks, along with verified solutions and tests, supporting both supervised fine-tuning and reinforcement learning. Based on the proposed synthetic SFT and RL datasets, we introduce the X-Coder model series, which achieves a notable pass rate of 62.9 avg@8 on LiveCodeBench v5 and 55.8 on v6, outperforming DeepCoder-14B-Preview and AReal-boba2-14B despite having only 7B parameters. In-depth analysis reveals that scaling laws hold on our synthetic dataset, and we explore which dimensions are more effective to scale. We further provide insights into code-centric reinforcement learning and highlight the key factors that shape performance through detailed ablations and analysis. Our findings demonstrate that scaling high-quality synthetic data and adopting staged training can greatly advance code reasoning, while mitigating reliance on real-world coding data.


翻译:竞技编程因其密集的推理需求与高逻辑复杂度,对代码大语言模型构成了巨大挑战。然而,现有代码大语言模型仍严重依赖真实世界数据,这限制了其可扩展性。本文探索了一种全合成方法:使用完全生成的任务、解决方案与测试用例训练代码大语言模型,从而在不依赖真实数据的情况下增强代码推理模型的能力。为此,我们利用基于特征的合成技术,提出了一种名为SynthSmith的新型数据合成流程。SynthSmith在生成多样化且具有挑战性的任务,以及经过验证的解决方案与测试用例方面展现出强大潜力,同时支持监督微调与强化学习。基于所提出的合成监督微调与强化学习数据集,我们推出了X-Coder模型系列。该系列模型在LiveCodeBench v5上取得了62.9 avg@8的显著通过率,在v6版本上达到55.8,仅以70亿参数即超越了DeepCoder-14B-Preview与AReal-boba2-14B模型。深入分析表明,缩放定律在我们的合成数据集上依然成立,并进一步探索了哪些维度对扩展更为有效。我们通过详细的消融实验与分析,深入剖析了以代码为中心的强化学习机制,并揭示了影响性能的关键因素。研究结果表明,扩展高质量合成数据并采用分阶段训练策略能显著推进代码推理能力的发展,同时减少对真实世界编程数据的依赖。

0
下载
关闭预览

相关内容

【CVPR2024】MoReVQA:探索视频问答的模块化推理模型
专知会员服务
18+阅读 · 2024年4月10日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
108+阅读 · 2020年5月3日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员