Parallel-SFT: Improving Zero-Shot Cross-Programming-Language Transfer for Code RL - 专知论文

会员服务 ·

0

编程 · 编程语言 · 代码 · 样本 · 零样本 ·

Parallel-SFT: Improving Zero-Shot Cross-Programming-Language Transfer for Code RL

翻译：Parallel-SFT：提升代码强化学习的零样本跨编程语言迁移能力

Zhaofeng Wu,Shiqi Wang,Boya Peng,Anuj Goyal,Melanie Kambadur,Sebastian Ruder,Yoon Kim,Chloe Bi

Modern language models demonstrate impressive coding capabilities in common programming languages (PLs), such as C++ and Python, but their performance in lower-resource PLs is often limited by training data availability. In principle, however, most programming skills are universal across PLs, so the capability acquired in one PL should transfer to others. In this work, we propose the task of zero-shot cross-programming-language transfer for code RL. We find that, for Llama-3.1, RL training for code generation in a source PL fails to improve, and sometimes even degrades, the performance on other target PLs. To address this, we hypothesize that effective RL transfer requires a generalizable SFT initialization before RL. We thus propose **Parallel-SFT**, an SFT strategy that incorporates "parallel programs" -- functionally equivalent code implemented in multiple PLs -- into the data mixture. We demonstrate that this improves transferability: when we subsequently perform RL on our Parallel-SFT model, we observe better generalization to unseen PLs. Analysis of the model internal representations reveals that Parallel-SFT leads to a more functionality-centric latent space, where equivalent programs across PLs are more tightly clustered, which we hypothesize to contribute to the improved transferability.

翻译：现代语言模型在常见编程语言（如C++和Python）中展现出令人瞩目的编码能力，但在低资源编程语言上的表现常受限于训练数据的可用性。然而，从原理上看，大多数编程技能在不同编程语言间具有通用性，因此在一个语言中获取的能力应能迁移至其他语言。本文提出了代码强化学习的零样本跨编程语言迁移任务。我们发现，对于Llama-3.1而言，针对源编程语言的代码生成进行强化学习训练，不仅未能提升目标语言的性能，有时甚至会导致性能下降。为解决此问题，我们假设有效的强化学习迁移需要在进行强化学习之前具备可泛化的SFT初始化。为此，我们提出**Parallel-SFT**，一种将"并行程序"——即用多种编程语言实现的功能等价代码——纳入数据混合的SFT策略。实验证明，该策略能提升迁移能力：当我们在Parallel-SFT模型上执行强化学习时，可观察到对未见编程语言更好的泛化效果。模型内部表示分析表明，Parallel-SFT能够构建更以功能为中心的潜在空间，在该空间中不同编程语言的等价程序聚类更紧密，我们推测这是迁移能力提升的关键因素。

0

相关内容

人们为了让计算机解决各种棘手的问题，使用编程语言 编写程序代码并通过计算机运算得到最终结果的过程。

【斯坦福博士论文】具备检索增强与条件计算能力的语言模型

【斯坦福博士论文】具备检索增强与条件计算能力的语言模型

专知会员服务

15+阅读 · 2025年7月4日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

通过强化学习增强代码生成中的代码大语言模型：综述

通过强化学习增强代码生成中的代码大语言模型：综述

专知会员服务

29+阅读 · 2025年1月1日

大模型如何代码建模？上交大等最新《语言模型与代码生成》综述，涵盖了50多个模型、30多个评估任务和500个相关工作

大模型如何代码建模？上交大等最新《语言模型与代码生成》综述，涵盖了50多个模型、30多个评估任务和500个相关工作

专知会员服务

55+阅读 · 2023年11月16日

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

专知会员服务

61+阅读 · 2023年7月16日

【VLDB2022教程】从BERT到GPT-3 Codex:利用大型语言模型的潜力进行数据管理

【VLDB2022教程】从BERT到GPT-3 Codex:利用大型语言模型的潜力进行数据管理

专知会员服务

20+阅读 · 2022年10月3日

【Google】高效Transformer综述，Efficient Transformers: A Survey

【Google】高效Transformer综述，Efficient Transformers: A Survey

专知会员服务

66+阅读 · 2022年3月17日

【Google】最新《高效Transformers》综述大全，Efficient Transformers: A Survey

【Google】最新《高效Transformers》综述大全，Efficient Transformers: A Survey

专知会员服务

113+阅读 · 2020年9月17日

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

专知会员服务

32+阅读 · 2020年2月21日

【电子书推荐|Google】《Effective Python：编写高质量Python代码的90个有效方法(第二版)》随书代码，Google首席工程师Brett Slatkin

【电子书推荐|Google】《Effective Python：编写高质量Python代码的90个有效方法(第二版)》随书代码，Google首席工程师Brett Slatkin

专知会员服务

78+阅读 · 2019年11月15日

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

自然语言处理中的深度迁移学习——文本预训练

自然语言处理中的深度迁移学习——文本预训练

专知

16+阅读 · 2018年12月10日

【强化学习】叶志豪：介绍强化学习及其在 NLP 上的应用｜分享总结

【强化学习】叶志豪：介绍强化学习及其在 NLP 上的应用｜分享总结

产业智能官

20+阅读 · 2018年7月24日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

从入门到上手写脚本/爬数据/搭网站，有哪些快速学习Python的技巧

从入门到上手写脚本/爬数据/搭网站，有哪些快速学习Python的技巧

Python开发者

12+阅读 · 2018年4月10日

福利 | 当Python遇上大数据与机器学习，入门so easy！

福利 | 当Python遇上大数据与机器学习，入门so easy！

DBAplus社群

13+阅读 · 2018年3月11日

关于强化学习（附代码，练习和解答）

关于强化学习（附代码，练习和解答）

深度学习

38+阅读 · 2018年1月30日

【干货】机器学习经典 PRML 最新 Python 代码实现，附最全 PRML 笔记视频学习资料

【干货】机器学习经典 PRML 最新 Python 代码实现，附最全 PRML 笔记视频学习资料

专知

29+阅读 · 2017年11月26日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

高性能视频云转码服务的优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于内容分析的低复杂度高效视频编码方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于上下文精化的并发对象活性的描述及验证

国家自然科学基金

1+阅读 · 2015年12月31日

基于神经网络的跨语言实体链指研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于比特置信度的低复杂度多进制LDPC码译码算法

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

Parallel-SFT: Improving Zero-Shot Cross-Programming-Language Transfer for Code RL

Arxiv

0+阅读 · 4月23日

LeGo-Code: Can Modular Curriculum Learning Advance Complex Code Generation? Insights from Text-to-SQL

Arxiv

0+阅读 · 4月20日

CodePivot: Bootstrapping Multilingual Transpilation in LLMs via Reinforcement Learning without Parallel Corpora

Arxiv

0+阅读 · 4月20日

TransAgent: Enhancing LLM-Based Code Translation via Fine-Grained Execution Alignment

Arxiv

0+阅读 · 4月7日

Agentic Code Optimization via Compiler-LLM Cooperation

Arxiv

0+阅读 · 4月5日

Agnostics: Learning to Code in Any Programming Language via Reinforcement with a Universal Learning Environment

Arxiv

0+阅读 · 3月23日

Curriculum Reinforcement Learning from Easy to Hard Tasks Improves LLM Reasoning

Arxiv

0+阅读 · 3月16日

R1-Code-Interpreter: LLMs Reason with Code via Supervised and Multi-stage Reinforcement Learning

Arxiv

0+阅读 · 3月3日

Agnostics: Learning to Code in Any Programming Language via Reinforcement with a Universal Learning Environment

Arxiv

0+阅读 · 2月28日

Can Emulating Semantic Translation Help LLMs with Code Translation? A Study Based on Pseudocode

Arxiv

0+阅读 · 2月22日

VIP会员

文章信息

相关主题

最新内容

美国军方使用的10种反无人机武器（2026年更新）

美国军方使用的10种反无人机武器（2026年更新）

专知会员服务

1+阅读 · 46分钟前

智能技术在战场指挥控制系统中的应用（附中英文版下载）

智能技术在战场指挥控制系统中的应用（附中英文版下载）

专知会员服务

1+阅读 · 今天3:21

北约《俄乌战争经验教训课程指南：25份课程计划》150页

北约《俄乌战争经验教训课程指南：25份课程计划》150页

专知会员服务

2+阅读 · 今天3:03

《不确定性环境下基于智能体框架中实时多机器人任务分配的贝叶斯网络》博士论文

《不确定性环境下基于智能体框架中实时多机器人任务分配的贝叶斯网络》博士论文

专知会员服务

2+阅读 · 今天2:59

首场人工智能战争——俄乌战争（中文版、原文下载）

首场人工智能战争——俄乌战争（中文版、原文下载）

专知会员服务

3+阅读 · 今天1:52

《提升战术级作战规划水平：城市进攻作战中的机动样式研究》

《提升战术级作战规划水平：城市进攻作战中的机动样式研究》

专知会员服务

3+阅读 · 今天1:36

《人员配置对陆军突击清障车与联合突击桥战备状态的影响研究》

《人员配置对陆军突击清障车与联合突击桥战备状态的影响研究》

专知会员服务

2+阅读 · 今天1:28

管理咨询报告：美国国防部量子技术开发与实施评估（译文）

管理咨询报告：美国国防部量子技术开发与实施评估（译文）

专知会员服务

1+阅读 · 今天1:16

【博士论文】可解释人工智能的数学基础与 Bandit 优化的研究进展

【博士论文】可解释人工智能的数学基础与 Bandit 优化的研究进展

专知会员服务

5+阅读 · 5月8日

生成-过滤-控制-重放：LLM强化学习中Rollout策略的全面综述

生成-过滤-控制-重放：LLM强化学习中Rollout策略的全面综述

专知会员服务

2+阅读 · 5月8日

认知战与交战性质的改变：神经战略视角

认知战与交战性质的改变：神经战略视角

专知会员服务

5+阅读 · 5月8日

美国《国防授权法案》指令要求界定“认知战”：区分相关概念

美国《国防授权法案》指令要求界定“认知战”：区分相关概念

专知会员服务

4+阅读 · 5月8日

人工智能对特定国防资源管理流程的影响（万字长文）

人工智能对特定国防资源管理流程的影响（万字长文）

专知会员服务

5+阅读 · 5月8日

《多域作战概念实证检验：美军“史诗怒火”行动中跨域协同的地理空间混合方法分析研究》245页报告

《多域作战概念实证检验：美军“史诗怒火”行动中跨域协同的地理空间混合方法分析研究》245页报告

专知会员服务

9+阅读 · 5月8日

《预设时间的单次协同估计、制导与控制框架：实现同时目标拦截》2026最新40页报告

《预设时间的单次协同估计、制导与控制框架：实现同时目标拦截》2026最新40页报告

专知会员服务

10+阅读 · 5月8日

相关VIP内容

【斯坦福博士论文】具备检索增强与条件计算能力的语言模型

【斯坦福博士论文】具备检索增强与条件计算能力的语言模型

专知会员服务

15+阅读 · 2025年7月4日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

通过强化学习增强代码生成中的代码大语言模型：综述

通过强化学习增强代码生成中的代码大语言模型：综述

专知会员服务

29+阅读 · 2025年1月1日

大模型如何代码建模？上交大等最新《语言模型与代码生成》综述，涵盖了50多个模型、30多个评估任务和500个相关工作

大模型如何代码建模？上交大等最新《语言模型与代码生成》综述，涵盖了50多个模型、30多个评估任务和500个相关工作

专知会员服务

55+阅读 · 2023年11月16日

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

专知会员服务

61+阅读 · 2023年7月16日

【VLDB2022教程】从BERT到GPT-3 Codex:利用大型语言模型的潜力进行数据管理

【VLDB2022教程】从BERT到GPT-3 Codex:利用大型语言模型的潜力进行数据管理

专知会员服务

20+阅读 · 2022年10月3日

【Google】高效Transformer综述，Efficient Transformers: A Survey

【Google】高效Transformer综述，Efficient Transformers: A Survey

专知会员服务

66+阅读 · 2022年3月17日

【Google】最新《高效Transformers》综述大全，Efficient Transformers: A Survey

【Google】最新《高效Transformers》综述大全，Efficient Transformers: A Survey

专知会员服务

113+阅读 · 2020年9月17日

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

专知会员服务

32+阅读 · 2020年2月21日

【电子书推荐|Google】《Effective Python：编写高质量Python代码的90个有效方法(第二版)》随书代码，Google首席工程师Brett Slatkin

【电子书推荐|Google】《Effective Python：编写高质量Python代码的90个有效方法(第二版)》随书代码，Google首席工程师Brett Slatkin

专知会员服务

78+阅读 · 2019年11月15日

热门VIP内容

开通专知VIP会员享更多权益服务

智能技术在战场指挥控制系统中的应用（附中英文版下载）

《不确定性环境下基于智能体框架中实时多机器人任务分配的贝叶斯网络》博士论文

美国军方使用的10种反无人机武器（2026年更新）

北约《俄乌战争经验教训课程指南：25份课程计划》150页

相关资讯

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

自然语言处理中的深度迁移学习——文本预训练

自然语言处理中的深度迁移学习——文本预训练

专知

16+阅读 · 2018年12月10日

【强化学习】叶志豪：介绍强化学习及其在 NLP 上的应用｜分享总结

【强化学习】叶志豪：介绍强化学习及其在 NLP 上的应用｜分享总结

产业智能官

20+阅读 · 2018年7月24日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

从入门到上手写脚本/爬数据/搭网站，有哪些快速学习Python的技巧

从入门到上手写脚本/爬数据/搭网站，有哪些快速学习Python的技巧

Python开发者

12+阅读 · 2018年4月10日

福利 | 当Python遇上大数据与机器学习，入门so easy！

福利 | 当Python遇上大数据与机器学习，入门so easy！

DBAplus社群

13+阅读 · 2018年3月11日

关于强化学习（附代码，练习和解答）

关于强化学习（附代码，练习和解答）

深度学习

38+阅读 · 2018年1月30日

【干货】机器学习经典 PRML 最新 Python 代码实现，附最全 PRML 笔记视频学习资料

【干货】机器学习经典 PRML 最新 Python 代码实现，附最全 PRML 笔记视频学习资料

专知

29+阅读 · 2017年11月26日

相关论文

Parallel-SFT: Improving Zero-Shot Cross-Programming-Language Transfer for Code RL

Arxiv

0+阅读 · 4月23日

LeGo-Code: Can Modular Curriculum Learning Advance Complex Code Generation? Insights from Text-to-SQL

Arxiv

0+阅读 · 4月20日

CodePivot: Bootstrapping Multilingual Transpilation in LLMs via Reinforcement Learning without Parallel Corpora

Arxiv

0+阅读 · 4月20日

TransAgent: Enhancing LLM-Based Code Translation via Fine-Grained Execution Alignment

Arxiv

0+阅读 · 4月7日

Agentic Code Optimization via Compiler-LLM Cooperation

Arxiv

0+阅读 · 4月5日

Agnostics: Learning to Code in Any Programming Language via Reinforcement with a Universal Learning Environment

Arxiv

0+阅读 · 3月23日

Curriculum Reinforcement Learning from Easy to Hard Tasks Improves LLM Reasoning

Arxiv

0+阅读 · 3月16日

R1-Code-Interpreter: LLMs Reason with Code via Supervised and Multi-stage Reinforcement Learning

Arxiv

0+阅读 · 3月3日

Agnostics: Learning to Code in Any Programming Language via Reinforcement with a Universal Learning Environment

Arxiv

0+阅读 · 2月28日

Can Emulating Semantic Translation Help LLMs with Code Translation? A Study Based on Pseudocode

Arxiv

0+阅读 · 2月22日

相关基金

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

高性能视频云转码服务的优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于内容分析的低复杂度高效视频编码方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于上下文精化的并发对象活性的描述及验证

国家自然科学基金

1+阅读 · 2015年12月31日

基于神经网络的跨语言实体链指研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于比特置信度的低复杂度多进制LDPC码译码算法

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员