We present the Multilingual Reasoning Gym, an extension of Reasoning Gym (Stojanovski et al., 2025), that procedurally generates verifiable reasoning problems across 14 languages. We translate templates for 94 tasks with native-speaker validation in 10 languages and targeted code or template adaptations to ensure linguistic naturalness. The Multilingual Reasoning Gym preserves the core benefits of the procedural generation approach used in the original Reasoning Gym, such as virtually unlimited problem instance generation and adjustable difficulty, and remains directly usable for Reinforcement Learning from Verifiable Rewards and evaluation settings. Problems in the Multilingual Reasoning Gym are parallel across languages, enabling crosslingually parallel data generation at massive scale due to the procedural nature of the environments. We release our implementation to support research into multilingual reasoning models.


翻译:我们提出了多语言推理训练场,这是对推理训练场(Stojanovski等人,2025年)的扩展,能够程序化生成涵盖14种语言的可验证推理问题。我们翻译了94个任务的模板,其中10种语言经过了母语者验证,并针对性地进行了代码或模板适配,以确保语言的自然性。多语言推理训练场保留了原始推理训练场所采用程序化生成方法的核心优势,例如近乎无限的问题实例生成能力和可调节的难度,并仍然可直接用于基于可验证奖励的强化学习和评估场景。多语言推理训练场中的问题在不同语言间保持平行,得益于环境的程序化特性,能够实现大规模跨语言平行数据生成。我们公开了实现代码,以支持多语言推理模型的研究。

0
下载
关闭预览

相关内容

从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
25+阅读 · 2025年11月19日
【ICML2025】通过多智能体反思强化大语言模型推理
专知会员服务
23+阅读 · 2025年6月11日
强化多模态大语言模型:基于强化学习的推理综述
专知会员服务
36+阅读 · 2025年5月3日
迈向大型推理模型:基于大型语言模型的强化推理综述
专知会员服务
50+阅读 · 2025年1月17日
「大型语言模型推理」综述
专知会员服务
95+阅读 · 2022年12月24日
自然语言处理常识推理综述论文,60页pdf
专知
73+阅读 · 2019年4月4日
理解人类推理的深度学习
论智
19+阅读 · 2018年11月7日
多轮对话之对话管理:Dialog Management
PaperWeekly
18+阅读 · 2018年1月15日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(简介)
专知会员服务
2+阅读 · 4月12日
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
5+阅读 · 4月12日
远程空中优势:新一代超视距导弹的兴起
专知会员服务
1+阅读 · 4月12日
大语言模型溯因推理的统一分类学与综述
专知会员服务
0+阅读 · 4月12日
相关资讯
自然语言处理常识推理综述论文,60页pdf
专知
73+阅读 · 2019年4月4日
理解人类推理的深度学习
论智
19+阅读 · 2018年11月7日
多轮对话之对话管理:Dialog Management
PaperWeekly
18+阅读 · 2018年1月15日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员