任务中心化理论：基于易到难课程学习的迭代式自我改进 (A Task-Centric Theory for Iterative Self-Improvement with Easy-to-Hard Curricula) - 专知论文

会员服务 ·

0

样本 · 课程学习 · 课程 · 分析 · 微调 ·

A Task-Centric Theory for Iterative Self-Improvement with Easy-to-Hard Curricula

翻译：任务中心化理论：基于易到难课程学习的迭代式自我改进

Chenruo Liu,Yijun Dong,Yiqiu Shen,Qi Lei

Iterative self-improvement fine-tunes an autoregressive large language model (LLM) on reward-verified outputs generated by the LLM itself. In contrast to the empirical success of self-improvement, the theoretical foundation of this generative, iterative procedure in a practical, finite-sample setting remains limited. We make progress toward this goal by modeling each round of self-improvement as maximum-likelihood fine-tuning on a reward-filtered distribution and deriving finite-sample guarantees for the expected reward. Our analysis reveals an explicit feedback loop where better models accept more data per iteration, supporting sustained self-improvement while explaining eventual saturation of such improvement. Adopting a task-centric view by considering reasoning tasks with multiple difficulty levels, we further prove quantifiable conditions on model initialization, task difficulty, and sample budget where easy-to-hard curricula provably achieve better guarantees than training on fixed mixtures of tasks. Our analyses are validated via Monte-Carlo simulations and controlled experiments on graph-based reasoning tasks.

翻译：迭代式自我改进通过在由自回归大语言模型（LLM）生成且经过奖励验证的输出上对模型进行微调。尽管自我改进在实践中取得了显著成效，但针对这种生成式迭代过程在有限样本实际场景中的理论基础仍较为薄弱。本研究通过将每一轮自我改进建模为对奖励筛选分布的极大似然微调，并推导期望奖励的有限样本保证，在此方向取得了进展。分析揭示了一个显式反馈循环：性能更优的模型在每次迭代中能够接受更多数据，这既支撑了持续的自我改进，也解释了此类改进最终趋于饱和的现象。通过采用任务中心化视角——考虑具有多难度层次的推理任务，我们进一步证明了在模型初始化、任务难度及样本预算满足特定量化条件时，易到难课程学习策略能够获得比固定任务混合训练更优的理论保证。所有分析均通过蒙特卡洛模拟及基于图结构推理任务的受控实验得到验证。

0

相关内容

《程序性知识提高代理型大语言模型工作流程》美海军研究实验室43页

《程序性知识提高代理型大语言模型工作流程》美海军研究实验室43页

专知会员服务

23+阅读 · 2025年11月26日

多模态大语言模型的自我改进：综述

多模态大语言模型的自我改进：综述

专知会员服务

25+阅读 · 2025年10月8日

什么是后训练？大语言模型训练后优化方法综述，87页pdf

什么是后训练？大语言模型训练后优化方法综述，87页pdf

专知会员服务

54+阅读 · 2025年3月11日

从基础到突破的LLM微调终极指南：技术、研究、最佳实践、应用研究挑战与机遇的全面综述

从基础到突破的LLM微调终极指南：技术、研究、最佳实践、应用研究挑战与机遇的全面综述

专知会员服务

55+阅读 · 2024年11月17日

大模型如何迭代？北大等《大型语言模型自我进化》综述

大模型如何迭代？北大等《大型语言模型自我进化》综述

专知会员服务

60+阅读 · 2024年4月29日

基于大语言模型的复杂任务自主规划处理框架

基于大语言模型的复杂任务自主规划处理框架

专知会员服务

101+阅读 · 2024年4月12日

如何训练与微调大型语言模型？这份指南细到技术细节公式，17页pdf

如何训练与微调大型语言模型？这份指南细到技术细节公式，17页pdf

专知会员服务

96+阅读 · 2023年9月16日

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

专知会员服务

93+阅读 · 2023年6月1日

自监督学习理论

自监督学习理论

专知会员服务

57+阅读 · 2022年8月23日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

浅谈主动学习（Active Learning）

浅谈主动学习（Active Learning）

凡人机器学习

32+阅读 · 2020年6月18日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知

133+阅读 · 2020年3月18日

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

专知

24+阅读 · 2020年1月12日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

微软研究院Jianfeng Gao：基于深度学习的自然语言处理导论（课程，附PPT下载链接）

微软研究院Jianfeng Gao：基于深度学习的自然语言处理导论（课程，附PPT下载链接）

专知

17+阅读 · 2018年1月24日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

42+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

39+阅读 · 2015年12月31日

小分子动力学演化量子速度极限的代数理论

国家自然科学基金

0+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

随机非线性量化反馈系统的自适应模糊控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于自适应采样和变复杂度近似的多学科稳健性设计优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

一些几何发展方程中的渐近分析研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于结构化方法的复杂研发项目多领域集成分析与优化研究

国家自然科学基金

2+阅读 · 2014年12月31日

Improving LLM-based Recommendation with Self-Hard Negatives from Intermediate Layers

Arxiv

0+阅读 · 2月19日

TAROT: Test-driven and Capability-adaptive Curriculum Reinforcement Fine-tuning for Code Generation with Large Language Models

Arxiv

0+阅读 · 2月17日

REPAIR: Robust Editing via Progressive Adaptive Intervention and Reintegration

Arxiv

0+阅读 · 2月10日

Test-time Recursive Thinking: Self-Improvement without External Feedback

Arxiv

0+阅读 · 2月3日

AERO: Autonomous Evolutionary Reasoning Optimization via Endogenous Dual-Loop Feedback

Arxiv

0+阅读 · 2月3日

ReMiT: RL-Guided Mid-Training for Iterative LLM Evolution

Arxiv

0+阅读 · 2月3日

Reward Evolution with Graph-of-Thoughts: A Bi-Level Language Model Framework for Reinforcement Learning

Arxiv

0+阅读 · 2月2日

Efficient Reinforcement Finetuning via Adaptive Curriculum Learning

Arxiv

0+阅读 · 2月2日

Rewarding Doubt: A Reinforcement Learning Approach to Calibrated Confidence Expression of Large Language Models

Arxiv

0+阅读 · 1月28日

Rewarding Doubt: A Reinforcement Learning Approach to Calibrated Confidence Expression of Large Language Models

Arxiv

0+阅读 · 1月27日

VIP会员

文章信息

相关主题

相关VIP内容

《程序性知识提高代理型大语言模型工作流程》美海军研究实验室43页

《程序性知识提高代理型大语言模型工作流程》美海军研究实验室43页

专知会员服务

23+阅读 · 2025年11月26日

多模态大语言模型的自我改进：综述

多模态大语言模型的自我改进：综述

专知会员服务

25+阅读 · 2025年10月8日

什么是后训练？大语言模型训练后优化方法综述，87页pdf

什么是后训练？大语言模型训练后优化方法综述，87页pdf

专知会员服务

54+阅读 · 2025年3月11日

从基础到突破的LLM微调终极指南：技术、研究、最佳实践、应用研究挑战与机遇的全面综述

从基础到突破的LLM微调终极指南：技术、研究、最佳实践、应用研究挑战与机遇的全面综述

专知会员服务

55+阅读 · 2024年11月17日

大模型如何迭代？北大等《大型语言模型自我进化》综述

大模型如何迭代？北大等《大型语言模型自我进化》综述

专知会员服务

60+阅读 · 2024年4月29日

基于大语言模型的复杂任务自主规划处理框架

基于大语言模型的复杂任务自主规划处理框架

专知会员服务

101+阅读 · 2024年4月12日

如何训练与微调大型语言模型？这份指南细到技术细节公式，17页pdf

如何训练与微调大型语言模型？这份指南细到技术细节公式，17页pdf

专知会员服务

96+阅读 · 2023年9月16日

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

专知会员服务

93+阅读 · 2023年6月1日

自监督学习理论

自监督学习理论

专知会员服务

57+阅读 · 2022年8月23日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

浅谈主动学习（Active Learning）

浅谈主动学习（Active Learning）

凡人机器学习

32+阅读 · 2020年6月18日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知

133+阅读 · 2020年3月18日

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

专知

24+阅读 · 2020年1月12日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

微软研究院Jianfeng Gao：基于深度学习的自然语言处理导论（课程，附PPT下载链接）

微软研究院Jianfeng Gao：基于深度学习的自然语言处理导论（课程，附PPT下载链接）

专知

17+阅读 · 2018年1月24日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

相关论文

Improving LLM-based Recommendation with Self-Hard Negatives from Intermediate Layers

Arxiv

0+阅读 · 2月19日

TAROT: Test-driven and Capability-adaptive Curriculum Reinforcement Fine-tuning for Code Generation with Large Language Models

Arxiv

0+阅读 · 2月17日

REPAIR: Robust Editing via Progressive Adaptive Intervention and Reintegration

Arxiv

0+阅读 · 2月10日

Test-time Recursive Thinking: Self-Improvement without External Feedback

Arxiv

0+阅读 · 2月3日

AERO: Autonomous Evolutionary Reasoning Optimization via Endogenous Dual-Loop Feedback

Arxiv

0+阅读 · 2月3日

ReMiT: RL-Guided Mid-Training for Iterative LLM Evolution

Arxiv

0+阅读 · 2月3日

Reward Evolution with Graph-of-Thoughts: A Bi-Level Language Model Framework for Reinforcement Learning

Arxiv

0+阅读 · 2月2日

Efficient Reinforcement Finetuning via Adaptive Curriculum Learning

Arxiv

0+阅读 · 2月2日

Rewarding Doubt: A Reinforcement Learning Approach to Calibrated Confidence Expression of Large Language Models

Arxiv

0+阅读 · 1月28日

Rewarding Doubt: A Reinforcement Learning Approach to Calibrated Confidence Expression of Large Language Models

Arxiv

0+阅读 · 1月27日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

42+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

39+阅读 · 2015年12月31日

小分子动力学演化量子速度极限的代数理论

国家自然科学基金

0+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

随机非线性量化反馈系统的自适应模糊控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于自适应采样和变复杂度近似的多学科稳健性设计优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

一些几何发展方程中的渐近分析研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于结构化方法的复杂研发项目多领域集成分析与优化研究

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员