Efficient Reinforcement Finetuning via Adaptive Curriculum Learning - 专知论文

会员服务 ·

0

自适应 · 微调 · 强化微调 · 课程 · 课程学习 ·

Efficient Reinforcement Finetuning via Adaptive Curriculum Learning

翻译：基于自适应课程学习的强化微调方法

Taiwei Shi,Yiyang Wu,Linxin Song,Tianyi Zhou,Jieyu Zhao

from arxiv, 23 pages, 8 figures, 7 tables

Reinforcement finetuning (RFT) has shown great potential for enhancing the mathematical reasoning capabilities of large language models (LLMs), but it is often sample- and compute-inefficient, requiring extensive training. In this work, we introduce AdaRFT (Adaptive Curriculum Reinforcement Finetuning), a method that significantly improves both the efficiency and final accuracy of RFT through adaptive curriculum learning. AdaRFT dynamically adjusts the difficulty of training problems based on the model's recent reward signals, ensuring that the model consistently trains on tasks that are challenging but solvable. This adaptive sampling strategy accelerates learning by maintaining an optimal difficulty range, avoiding wasted computation on problems that are too easy or too hard. AdaRFT requires only a lightweight extension to standard RFT algorithms like Proximal Policy Optimization (PPO), without modifying the reward function or model architecture. Experiments on competition-level math datasets demonstrate that AdaRFT significantly improves both training efficiency and reasoning performance. We evaluate AdaRFT across multiple data distributions and model sizes, showing that it reduces training time by up to 2x and improves accuracy by a considerable margin, offering a more scalable and effective RFT framework.

翻译：强化微调（RFT）在提升大语言模型（LLMs）的数学推理能力方面展现出巨大潜力，但其通常样本与计算效率低下，需要大量训练。本文提出AdaRFT（自适应课程强化微调），一种通过自适应课程学习显著提升RFT效率和最终准确率的方法。AdaRFT根据模型近期的奖励信号动态调整训练问题的难度，确保模型持续在具有挑战性但可解决的任务上进行训练。这种自适应采样策略通过维持最优难度区间来加速学习，避免在过于简单或困难的问题上浪费计算资源。AdaRFT仅需对标准RFT算法（如近端策略优化PPO）进行轻量级扩展，无需修改奖励函数或模型架构。在竞赛级数学数据集上的实验表明，AdaRFT显著提升了训练效率和推理性能。我们在多种数据分布和模型规模下评估AdaRFT，结果显示其可将训练时间减少高达2倍，并显著提高准确率，从而提供了一个更具可扩展性和有效性的RFT框架。

0

相关内容

自适应

基于强化学习的扩散模型微调：教程与综述

基于强化学习的扩散模型微调：教程与综述

专知会员服务

44+阅读 · 2024年7月20日

大型语言模型增强强化学习综述:概念、分类和方法

大型语言模型增强强化学习综述:概念、分类和方法

专知会员服务

57+阅读 · 2024年4月4日

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

专知会员服务

70+阅读 · 2023年12月21日

如何训练与微调大型语言模型？这份指南细到技术细节公式，17页pdf

如何训练与微调大型语言模型？这份指南细到技术细节公式，17页pdf

专知会员服务

96+阅读 · 2023年9月16日

推荐！【自适应学习、知识表示】《通过主动神经调节进行自适应学习 (ALAN)》美国空军研究实验室2022最新84页项目报告

推荐！【自适应学习、知识表示】《通过主动神经调节进行自适应学习 (ALAN)》美国空军研究实验室2022最新84页项目报告

专知会员服务

55+阅读 · 2022年11月25日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知会员服务

106+阅读 · 2022年9月19日

基于模型的强化学习综述

基于模型的强化学习综述

专知会员服务

149+阅读 · 2022年7月13日

强化学习如何自动调参？牛津Google等JAIR最新《自动强化学习AutoRL》综述论文，52页pdf阐述自动RL方法体系

强化学习如何自动调参？牛津Google等JAIR最新《自动强化学习AutoRL》综述论文，52页pdf阐述自动RL方法体系

专知会员服务

53+阅读 · 2022年6月3日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

专知会员服务

131+阅读 · 2020年4月19日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

【学界】虚拟对抗训练：一种新颖的半监督学习正则化方法

【学界】虚拟对抗训练：一种新颖的半监督学习正则化方法

GAN生成式对抗网络

10+阅读 · 2019年6月9日

深度强化学习在NLP怎么用？看清华黄民烈老师这一份120页《自然语言处理和搜索中的深度强化学习应用》讲义

深度强化学习在NLP怎么用？看清华黄民烈老师这一份120页《自然语言处理和搜索中的深度强化学习应用》讲义

专知

31+阅读 · 2018年9月1日

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

GAN生成式对抗网络

11+阅读 · 2018年6月5日

基于自适应学习平台促进学生个性化学习的研究

基于自适应学习平台促进学生个性化学习的研究

MOOC

12+阅读 · 2018年4月2日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

分数阶随机共振行为机制及其自适应控制与强色噪声背景中的微弱信号检测

国家自然科学基金

0+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

24+阅读 · 2015年12月31日

基于适应度值的信息反馈型群智能算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于概率图谱引导的群组自适应时序脑MR图像脑提取方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于自适应采样和变复杂度近似的多学科稳健性设计优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting

Arxiv

0+阅读 · 3月17日

Supervised Fine-Tuning versus Reinforcement Learning: A Study of Post-Training Methods for Large Language Models

Arxiv

0+阅读 · 3月14日

Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions

Arxiv

0+阅读 · 3月11日

Dynamics-Predictive Sampling for Active RL Finetuning of Large Reasoning Models

Arxiv

0+阅读 · 3月11日

Complexity-aware fine-tuning

Arxiv

0+阅读 · 2月24日

TAROT: Test-driven and Capability-adaptive Curriculum Reinforcement Fine-tuning for Code Generation with Large Language Models

Arxiv

0+阅读 · 2月17日

Offline RL by Reward-Weighted Fine-Tuning for Conversation Optimization

Arxiv

0+阅读 · 2月16日

Improving Medical Visual Reinforcement Fine-Tuning via Perception and Reasoning Augmentation

Arxiv

0+阅读 · 2月11日

Reinforcement Learning with Backtracking Feedback

Arxiv

0+阅读 · 2月9日

Reinforced Attention Learning

Arxiv

0+阅读 · 2月4日

VIP会员

文章信息

相关主题

最新内容

《移动旅级战斗队转型中的支援单元指挥控制挑战》

《移动旅级战斗队转型中的支援单元指挥控制挑战》

专知会员服务

4+阅读 · 5月27日

ICML2026 | 重新思考顺序知识编辑中的正则化

ICML2026 | 重新思考顺序知识编辑中的正则化

专知会员服务

0+阅读 · 5月27日

《用于兵力发展选项优先排序的成本效益模型》

《用于兵力发展选项优先排序的成本效益模型》

专知会员服务

4+阅读 · 5月27日

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

专知会员服务

0+阅读 · 5月27日

美军战场新倡议——国防自主作战群（DAWG）：五角大楼的540亿美元自主作战豪赌

美军战场新倡议——国防自主作战群（DAWG）：五角大楼的540亿美元自主作战豪赌

专知会员服务

3+阅读 · 5月27日

ICML2026 | LAVL：离线目标条件强化学习中的潜在表示对齐

ICML2026 | LAVL：离线目标条件强化学习中的潜在表示对齐

专知会员服务

5+阅读 · 5月26日

AutoResearch AI综述：迈向AI驱动的科学发现自动化

AutoResearch AI综述：迈向AI驱动的科学发现自动化

专知会员服务

6+阅读 · 5月26日

《Palantir边缘人工智能》手册

《Palantir边缘人工智能》手册

专知会员服务

19+阅读 · 5月26日

人工智能与现代战争：2026年美以对伊打击如何重构杀伤链

人工智能与现代战争：2026年美以对伊打击如何重构杀伤链

专知会员服务

10+阅读 · 5月26日

《运用人工智能及其他经验：瑞典制定2045年后战役级多域作战探索性概念的实践》

《运用人工智能及其他经验：瑞典制定2045年后战役级多域作战探索性概念的实践》

专知会员服务

8+阅读 · 5月26日

多层次反无人机战略：改革政策、提升公众意识并纳入防空体系（万字长文）

多层次反无人机战略：改革政策、提升公众意识并纳入防空体系（万字长文）

专知会员服务

9+阅读 · 5月26日

《基于非声学传感器的贝叶斯搜索研究》总结报告

《基于非声学传感器的贝叶斯搜索研究》总结报告

专知会员服务

5+阅读 · 5月26日

美军“国防自主作战群”（DAWG）概念解析

美军“国防自主作战群”（DAWG）概念解析

专知会员服务

3+阅读 · 5月26日

“史诗怒火”行动中的无人机与反无人机作战

“史诗怒火”行动中的无人机与反无人机作战

专知会员服务

15+阅读 · 5月25日

《北约城市作战高级训练技术（UCATT）实况模拟标准2》176页报告

《北约城市作战高级训练技术（UCATT）实况模拟标准2》176页报告

专知会员服务

6+阅读 · 5月25日

相关VIP内容

基于强化学习的扩散模型微调：教程与综述

基于强化学习的扩散模型微调：教程与综述

专知会员服务

44+阅读 · 2024年7月20日

大型语言模型增强强化学习综述:概念、分类和方法

大型语言模型增强强化学习综述:概念、分类和方法

专知会员服务

57+阅读 · 2024年4月4日

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

专知会员服务

70+阅读 · 2023年12月21日

如何训练与微调大型语言模型？这份指南细到技术细节公式，17页pdf

如何训练与微调大型语言模型？这份指南细到技术细节公式，17页pdf

专知会员服务

96+阅读 · 2023年9月16日

推荐！【自适应学习、知识表示】《通过主动神经调节进行自适应学习 (ALAN)》美国空军研究实验室2022最新84页项目报告

推荐！【自适应学习、知识表示】《通过主动神经调节进行自适应学习 (ALAN)》美国空军研究实验室2022最新84页项目报告

专知会员服务

55+阅读 · 2022年11月25日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知会员服务

106+阅读 · 2022年9月19日

基于模型的强化学习综述

基于模型的强化学习综述

专知会员服务

149+阅读 · 2022年7月13日

强化学习如何自动调参？牛津Google等JAIR最新《自动强化学习AutoRL》综述论文，52页pdf阐述自动RL方法体系

强化学习如何自动调参？牛津Google等JAIR最新《自动强化学习AutoRL》综述论文，52页pdf阐述自动RL方法体系

专知会员服务

53+阅读 · 2022年6月3日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

专知会员服务

131+阅读 · 2020年4月19日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML2026 | 重新思考顺序知识编辑中的正则化

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

《移动旅级战斗队转型中的支援单元指挥控制挑战》

《用于兵力发展选项优先排序的成本效益模型》

相关资讯

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

【学界】虚拟对抗训练：一种新颖的半监督学习正则化方法

【学界】虚拟对抗训练：一种新颖的半监督学习正则化方法

GAN生成式对抗网络

10+阅读 · 2019年6月9日

深度强化学习在NLP怎么用？看清华黄民烈老师这一份120页《自然语言处理和搜索中的深度强化学习应用》讲义

深度强化学习在NLP怎么用？看清华黄民烈老师这一份120页《自然语言处理和搜索中的深度强化学习应用》讲义

专知

31+阅读 · 2018年9月1日

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

GAN生成式对抗网络

11+阅读 · 2018年6月5日

基于自适应学习平台促进学生个性化学习的研究

基于自适应学习平台促进学生个性化学习的研究

MOOC

12+阅读 · 2018年4月2日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting

Arxiv

0+阅读 · 3月17日

Supervised Fine-Tuning versus Reinforcement Learning: A Study of Post-Training Methods for Large Language Models

Arxiv

0+阅读 · 3月14日

Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions

Arxiv

0+阅读 · 3月11日

Dynamics-Predictive Sampling for Active RL Finetuning of Large Reasoning Models

Arxiv

0+阅读 · 3月11日

Complexity-aware fine-tuning

Arxiv

0+阅读 · 2月24日

TAROT: Test-driven and Capability-adaptive Curriculum Reinforcement Fine-tuning for Code Generation with Large Language Models

Arxiv

0+阅读 · 2月17日

Offline RL by Reward-Weighted Fine-Tuning for Conversation Optimization

Arxiv

0+阅读 · 2月16日

Improving Medical Visual Reinforcement Fine-Tuning via Perception and Reasoning Augmentation

Arxiv

0+阅读 · 2月11日

Reinforcement Learning with Backtracking Feedback

Arxiv

0+阅读 · 2月9日

Reinforced Attention Learning

Arxiv

0+阅读 · 2月4日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

分数阶随机共振行为机制及其自适应控制与强色噪声背景中的微弱信号检测

国家自然科学基金

0+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

24+阅读 · 2015年12月31日

基于适应度值的信息反馈型群智能算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于概率图谱引导的群组自适应时序脑MR图像脑提取方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于自适应采样和变复杂度近似的多学科稳健性设计优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员