Parallel-SFT: Improving Zero-Shot Cross-Programming-Language Transfer for Code RL - 专知论文

会员服务 ·

0

编程 · 编程语言 · 代码 · 样本 · 零样本 ·

Parallel-SFT: Improving Zero-Shot Cross-Programming-Language Transfer for Code RL

翻译：Parallel-SFT: 提升代码强化学习的零样本跨编程语言迁移能力

Zhaofeng Wu,Shiqi Wang,Boya Peng,Anuj Goyal,Melanie Kambadur,Sebastian Ruder,Yoon Kim,Chloe Bi

Modern language models demonstrate impressive coding capabilities in common programming languages (PLs), such as C++ and Python, but their performance in lower-resource PLs is often limited by training data availability. In principle, however, most programming skills are universal across PLs, so the capability acquired in one PL should transfer to others. In this work, we propose the task of zero-shot cross-programming-language transfer for code RL. We find that, for Llama-3.1, RL training for code generation in a source PL fails to improve, and sometimes even degrades, the performance on other target PLs. To address this, we hypothesize that effective RL transfer requires a generalizable SFT initialization before RL. We thus propose **Parallel-SFT**, an SFT strategy that incorporates "parallel programs" -- functionally equivalent code implemented in multiple PLs -- into the data mixture. We demonstrate that this improves transferability: when we subsequently perform RL on our Parallel-SFT model, we observe better generalization to unseen PLs. Analysis of the model internal representations reveals that Parallel-SFT leads to a more functionality-centric latent space, where equivalent programs across PLs are more tightly clustered, which we hypothesize to contribute to the improved transferability.

翻译：现代语言模型在常见编程语言（如C++和Python）上展现出令人瞩目的编码能力，但在资源较少的编程语言上，其性能常受限于训练数据的可用性。然而原则上，大多数编程技能在不同编程语言间具有通用性，因此一种编程语言中习得的能力应能迁移至其他语言。本研究提出代码强化学习的零样本跨编程语言迁移任务。我们发现，对于Llama-3.1，在源编程语言上进行代码生成的强化学习训练，不仅未能提升目标编程语言的性能，有时甚至会导致性能下降。针对此问题，我们假设有效的强化学习迁移需要在强化学习之前建立可泛化的SFT初始化。为此提出**Parallel-SFT**策略，该SFT方法在数据混合中引入"并行程序"——即用多种编程语言实现的等价功能代码。实验证明该方法能提升迁移性：当我们在Parallel-SFT模型上后续进行强化学习时，观察到对未见编程语言的泛化能力显著增强。模型内部表征分析显示，Parallel-SFT构建了更注重功能性的潜在空间，其中不同编程语言间的等价程序聚类更紧密，我们推测这正是迁移性提升的关键因素。

0

相关内容

人们为了让计算机解决各种棘手的问题，使用编程语言 编写程序代码并通过计算机运算得到最终结果的过程。

【斯坦福博士论文】具备检索增强与条件计算能力的语言模型

【斯坦福博士论文】具备检索增强与条件计算能力的语言模型

专知会员服务

15+阅读 · 2025年7月4日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

通过强化学习增强代码生成中的代码大语言模型：综述

通过强化学习增强代码生成中的代码大语言模型：综述

专知会员服务

29+阅读 · 2025年1月1日

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

专知会员服务

61+阅读 · 2023年7月16日

【VLDB2022教程】从BERT到GPT-3 Codex:利用大型语言模型的潜力进行数据管理

【VLDB2022教程】从BERT到GPT-3 Codex:利用大型语言模型的潜力进行数据管理

专知会员服务

20+阅读 · 2022年10月3日

【Google】高效Transformer综述，Efficient Transformers: A Survey

【Google】高效Transformer综述，Efficient Transformers: A Survey

专知会员服务

66+阅读 · 2022年3月17日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

专知会员服务

27+阅读 · 2020年4月5日

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

专知会员服务

32+阅读 · 2020年2月21日

【电子书推荐|Google】《Effective Python：编写高质量Python代码的90个有效方法(第二版)》随书代码，Google首席工程师Brett Slatkin

【电子书推荐|Google】《Effective Python：编写高质量Python代码的90个有效方法(第二版)》随书代码，Google首席工程师Brett Slatkin

专知会员服务

78+阅读 · 2019年11月15日

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

自然语言处理中的深度迁移学习——文本预训练

自然语言处理中的深度迁移学习——文本预训练

专知

16+阅读 · 2018年12月10日

【强化学习】叶志豪：介绍强化学习及其在 NLP 上的应用｜分享总结

【强化学习】叶志豪：介绍强化学习及其在 NLP 上的应用｜分享总结

产业智能官

20+阅读 · 2018年7月24日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

超强干货|Python金融数据量化分析教程+机器学习电子书

超强干货|Python金融数据量化分析教程+机器学习电子书

Python程序员

16+阅读 · 2018年6月25日

这可能是学习Python最好的免费在线电子书

这可能是学习Python最好的免费在线电子书

程序猿

56+阅读 · 2018年5月17日

从入门到上手写脚本/爬数据/搭网站，有哪些快速学习Python的技巧

从入门到上手写脚本/爬数据/搭网站，有哪些快速学习Python的技巧

Python开发者

12+阅读 · 2018年4月10日

福利 | 当Python遇上大数据与机器学习，入门so easy！

福利 | 当Python遇上大数据与机器学习，入门so easy！

DBAplus社群

13+阅读 · 2018年3月11日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

高性能视频云转码服务的优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于内容分析的低复杂度高效视频编码方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于上下文精化的并发对象活性的描述及验证

国家自然科学基金

1+阅读 · 2015年12月31日

基于神经网络的跨语言实体链指研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于比特置信度的低复杂度多进制LDPC码译码算法

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

基于代数结构及公理语义的泛型约束方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

Parallel-SFT: Improving Zero-Shot Cross-Programming-Language Transfer for Code RL

Arxiv

0+阅读 · 4月22日

LeGo-Code: Can Modular Curriculum Learning Advance Complex Code Generation? Insights from Text-to-SQL

Arxiv

0+阅读 · 4月20日

CodePivot: Bootstrapping Multilingual Transpilation in LLMs via Reinforcement Learning without Parallel Corpora

Arxiv

0+阅读 · 4月20日

TransAgent: Enhancing LLM-Based Code Translation via Fine-Grained Execution Alignment

Arxiv

0+阅读 · 4月7日

Agentic Code Optimization via Compiler-LLM Cooperation

Arxiv

0+阅读 · 4月5日

Agnostics: Learning to Code in Any Programming Language via Reinforcement with a Universal Learning Environment

Arxiv

0+阅读 · 3月23日

Curriculum Reinforcement Learning from Easy to Hard Tasks Improves LLM Reasoning

Arxiv

0+阅读 · 3月16日

Agnostics: Learning to Code in Any Programming Language via Reinforcement with a Universal Learning Environment

Arxiv

0+阅读 · 2月28日

Can Emulating Semantic Translation Help LLMs with Code Translation? A Study Based on Pseudocode

Arxiv

0+阅读 · 2月22日

Augmented Large Language Models with Parametric Knowledge Guiding

Arxiv

20+阅读 · 2023年5月8日

VIP会员

文章信息

相关主题

最新内容

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

2+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

2+阅读 · 6月24日

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

6+阅读 · 6月24日

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

5+阅读 · 6月24日

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

4+阅读 · 6月24日

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

4+阅读 · 6月24日

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

5+阅读 · 6月24日

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

4+阅读 · 6月24日

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

4+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

6+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

4+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

8+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

7+阅读 · 6月23日

相关VIP内容

【斯坦福博士论文】具备检索增强与条件计算能力的语言模型

【斯坦福博士论文】具备检索增强与条件计算能力的语言模型

专知会员服务

15+阅读 · 2025年7月4日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

通过强化学习增强代码生成中的代码大语言模型：综述

通过强化学习增强代码生成中的代码大语言模型：综述

专知会员服务

29+阅读 · 2025年1月1日

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

专知会员服务

61+阅读 · 2023年7月16日

【VLDB2022教程】从BERT到GPT-3 Codex:利用大型语言模型的潜力进行数据管理

【VLDB2022教程】从BERT到GPT-3 Codex:利用大型语言模型的潜力进行数据管理

专知会员服务

20+阅读 · 2022年10月3日

【Google】高效Transformer综述，Efficient Transformers: A Survey

【Google】高效Transformer综述，Efficient Transformers: A Survey

专知会员服务

66+阅读 · 2022年3月17日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

专知会员服务

27+阅读 · 2020年4月5日

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

专知会员服务

32+阅读 · 2020年2月21日

【电子书推荐|Google】《Effective Python：编写高质量Python代码的90个有效方法(第二版)》随书代码，Google首席工程师Brett Slatkin

【电子书推荐|Google】《Effective Python：编写高质量Python代码的90个有效方法(第二版)》随书代码，Google首席工程师Brett Slatkin

专知会员服务

78+阅读 · 2019年11月15日

热门VIP内容

开通专知VIP会员享更多权益服务

Agentic RL：框架、实践与长程智能体训练

重新思考无人机时代的生存能力

综述 | 从问答到任务完成：Agent系统与Harness设计

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

相关资讯

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

自然语言处理中的深度迁移学习——文本预训练

自然语言处理中的深度迁移学习——文本预训练

专知

16+阅读 · 2018年12月10日

【强化学习】叶志豪：介绍强化学习及其在 NLP 上的应用｜分享总结

【强化学习】叶志豪：介绍强化学习及其在 NLP 上的应用｜分享总结

产业智能官

20+阅读 · 2018年7月24日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

超强干货|Python金融数据量化分析教程+机器学习电子书

超强干货|Python金融数据量化分析教程+机器学习电子书

Python程序员

16+阅读 · 2018年6月25日

这可能是学习Python最好的免费在线电子书

这可能是学习Python最好的免费在线电子书

程序猿

56+阅读 · 2018年5月17日

从入门到上手写脚本/爬数据/搭网站，有哪些快速学习Python的技巧

从入门到上手写脚本/爬数据/搭网站，有哪些快速学习Python的技巧

Python开发者

12+阅读 · 2018年4月10日

福利 | 当Python遇上大数据与机器学习，入门so easy！

福利 | 当Python遇上大数据与机器学习，入门so easy！

DBAplus社群

13+阅读 · 2018年3月11日

相关论文

Parallel-SFT: Improving Zero-Shot Cross-Programming-Language Transfer for Code RL

Arxiv

0+阅读 · 4月22日

LeGo-Code: Can Modular Curriculum Learning Advance Complex Code Generation? Insights from Text-to-SQL

Arxiv

0+阅读 · 4月20日

CodePivot: Bootstrapping Multilingual Transpilation in LLMs via Reinforcement Learning without Parallel Corpora

Arxiv

0+阅读 · 4月20日

TransAgent: Enhancing LLM-Based Code Translation via Fine-Grained Execution Alignment

Arxiv

0+阅读 · 4月7日

Agentic Code Optimization via Compiler-LLM Cooperation

Arxiv

0+阅读 · 4月5日

Agnostics: Learning to Code in Any Programming Language via Reinforcement with a Universal Learning Environment

Arxiv

0+阅读 · 3月23日

Curriculum Reinforcement Learning from Easy to Hard Tasks Improves LLM Reasoning

Arxiv

0+阅读 · 3月16日

Agnostics: Learning to Code in Any Programming Language via Reinforcement with a Universal Learning Environment

Arxiv

0+阅读 · 2月28日

Can Emulating Semantic Translation Help LLMs with Code Translation? A Study Based on Pseudocode

Arxiv

0+阅读 · 2月22日

Augmented Large Language Models with Parametric Knowledge Guiding

Arxiv

20+阅读 · 2023年5月8日

相关基金

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

高性能视频云转码服务的优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于内容分析的低复杂度高效视频编码方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于上下文精化的并发对象活性的描述及验证

国家自然科学基金

1+阅读 · 2015年12月31日

基于神经网络的跨语言实体链指研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于比特置信度的低复杂度多进制LDPC码译码算法

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

基于代数结构及公理语义的泛型约束方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员