Large language models (LLMs) already excel at writing code in high-resource languages such as Python and JavaScript, yet stumble on low-resource languages that remain essential to science and engineering. Besides the obvious shortage of pre-training data, post-training itself is a bottleneck: every new language seems to require new datasets, test harnesses, and reinforcement-learning (RL) infrastructure. We introduce Agnostics, a language-agnostic post-training pipeline that eliminates this per-language engineering. The key idea is to judge code solely by its externally observable behavior, so a single verifier can test solutions written in any language. Concretely, we (i) use an LLM to rewrite existing unit-test datasets into an I/O format, (ii) supply a short configuration that tells the verifier how to compile and run a target language, and (iii) apply reinforcement learning with verifiable rewards (RLVR) in a robust code execution environment. Applied to five low-resource languages--Lua, Julia, R, OCaml, and Fortran--Agnostics (1) improves Qwen-3 4B to performance that rivals other 16B-70B open-weight models; (2) scales cleanly to larger and diverse model families (Qwen-3 8B, DeepSeek Coder 6.7B Instruct, Phi 4 Mini); and (3) for ${\le} 16$B parameter models, sets new state-of-the-art pass@1 results on MultiPL-E and a new multi-language version of LiveCodeBench that we introduce. We release the language-agnostic training datasets (Ag-MBPP-X, Ag-Codeforces-X, Ag-LiveCodeBench-X), training code, and ready-to-use configurations, making RL post-training in any programming language as simple as editing a short YAML file.


翻译:大型语言模型(LLMs)在编写高资源语言(如Python和JavaScript)代码方面已表现出色,但在对科学与工程至关重要的低资源语言上仍显不足。除了明显的预训练数据短缺外,后训练过程本身也是一个瓶颈:似乎每种新语言都需要新的数据集、测试框架和强化学习(RL)基础设施。我们提出了Agnostics,一种语言无关的后训练流程,消除了这种针对每种语言的工程开销。其核心思想是仅通过代码外部可观察的行为来评判代码,使得单一验证器能够测试用任何语言编写的解决方案。具体而言,我们(i)使用LLM将现有的单元测试数据集重写为I/O格式,(ii)提供一个简短的配置文件,告知验证器如何编译和运行目标语言,(iii)在鲁棒的代码执行环境中应用带有可验证奖励的强化学习(RLVR)。在五种低资源语言——Lua、Julia、R、OCaml和Fortran——上应用Agnostics后,结果表明:(1)它将Qwen-3 4B模型的性能提升至可与其它16B-70B开源权重模型相媲美的水平;(2)能够清晰地扩展到更大、更多样的模型系列(Qwen-3 8B、DeepSeek Coder 6.7B Instruct、Phi 4 Mini);(3)对于参数量${\le} 16$B的模型,在MultiPL-E以及我们新引入的多语言版本LiveCodeBench上,创造了新的最先进的pass@1结果。我们发布了语言无关的训练数据集(Ag-MBPP-X、Ag-Codeforces-X、Ag-LiveCodeBench-X)、训练代码和即用型配置文件,使得在任何编程语言中进行RL后训练变得如同编辑一个简短的YAML文件一样简单。

0
下载
关闭预览

相关内容

代码(Code)是专知网的一个重要知识资料文档板块,旨在整理收录论文源代码、复现代码,经典工程代码等,便于用户查阅下载使用。
什么是后训练?大语言模型训练后优化方法综述,87页pdf
通过强化学习增强代码生成中的代码大语言模型:综述
专知会员服务
29+阅读 · 2025年1月1日
《大语言模型的数据合成与增强综述》
专知会员服务
43+阅读 · 2024年10月19日
《大型语言模型代码生成》综述
专知会员服务
68+阅读 · 2024年6月4日
大型语言模型增强强化学习综述:概念、分类和方法
专知会员服务
57+阅读 · 2024年4月4日
深度强化学习简介
专知
30+阅读 · 2018年12月3日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
福利 | 当Python遇上大数据与机器学习,入门so easy!
关于强化学习(附代码,练习和解答)
深度学习
37+阅读 · 2018年1月30日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
VIP会员
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员