GIFT：通过有限温度吉布斯初始化解锁后训练中的全局最优性 (GIFT: Unlocking Global Optimality in Post-Training via Finite-Temperature Gibbs Initialization) - 专知论文

会员服务 ·

0

后训练 · 初始化 · 最优 · 最优性 · 监督 ·

GIFT: Unlocking Global Optimality in Post-Training via Finite-Temperature Gibbs Initialization

翻译：GIFT：通过有限温度吉布斯初始化解锁后训练中的全局最优性

Zhengyang Zhao,Lu Ma,Yizhen Jiang,Xiaochen Ma,Zimo Meng,Chengyu Shen,Lexiang Tang,Haoze Sun,Peng Pei,Wentao Zhang

The prevailing post-training paradigm for Large Reasoning Models (LRMs)--Supervised Fine-Tuning (SFT) followed by Reinforcement Learning (RL)--suffers from an intrinsic optimization mismatch: the rigid supervision inherent in SFT induces distributional collapse, thereby exhausting the exploration space necessary for subsequent RL. In this paper, we reformulate SFT within a unified post-training framework and propose Gibbs Initialization with Finite Temperature (GIFT). We characterize standard SFT as a degenerate zero-temperature limit that suppresses base priors. Conversely, GIFT incorporates supervision as a finite-temperature energy potential, establishing a distributional bridge that ensures objective consistency throughout the post-training pipeline. Our experiments demonstrate that GIFT significantly outperforms standard SFT and other competitive baselines when utilized for RL initialization, providing a mathematically principled pathway toward achieving global optimality in post-training. Our code is available at https://github.com/zzy1127/GIFT.

翻译：大型推理模型（LRMs）当前的主流后训练范式——监督微调（SFT）后接强化学习（RL）——存在内在的优化失配问题：SFT中固有的刚性监督会导致分布坍缩，从而耗尽后续RL所需的探索空间。本文在一个统一的后训练框架内重新形式化了SFT，并提出了有限温度吉布斯初始化（GIFT）。我们将标准SFT刻画为一种抑制基础先验的退化零温极限。相反，GIFT将监督信息作为一个有限温度的能量势引入，建立了一个分布桥梁，确保在整个后训练流程中目标函数的一致性。实验表明，当用于RL初始化时，GIFT显著优于标准SFT及其他竞争基线方法，为在后训练中实现全局最优性提供了一条数学上严谨的路径。我们的代码可在 https://github.com/zzy1127/GIFT 获取。

0

相关内容

后训练

【AAAI2026】善始则事半功倍：基于前缀优化的大语言模型推理强化学习

【AAAI2026】善始则事半功倍：基于前缀优化的大语言模型推理强化学习

专知会员服务

13+阅读 · 2025年12月19日

【伯克利博士论文】迈向视觉-语言基础模型：局限、改进与泛化

【伯克利博士论文】迈向视觉-语言基础模型：局限、改进与泛化

专知会员服务

33+阅读 · 2025年3月12日

什么是后训练？大语言模型训练后优化方法综述，87页pdf

什么是后训练？大语言模型训练后优化方法综述，87页pdf

专知会员服务

54+阅读 · 2025年3月11日

多样化偏好优化

多样化偏好优化

专知会员服务

12+阅读 · 2025年2月3日

SFT 记忆，RL 泛化：基础模型后训练的比较研究

SFT 记忆，RL 泛化：基础模型后训练的比较研究

专知会员服务

24+阅读 · 2025年2月3日

【WWW2024】HetGPT：在预训练的异质图神经网络中利用提示微调的力量

【WWW2024】HetGPT：在预训练的异质图神经网络中利用提示微调的力量

专知会员服务

22+阅读 · 2024年1月28日

如何训练与微调大型语言模型？这份指南细到技术细节公式，17页pdf

如何训练与微调大型语言模型？这份指南细到技术细节公式，17页pdf

专知会员服务

96+阅读 · 2023年9月16日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

专知会员服务

17+阅读 · 2020年7月14日

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

专知会员服务

22+阅读 · 2020年4月8日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

系列教程GNN-algorithms之三：《将图卷积简化进行到底—SGC》

系列教程GNN-algorithms之三：《将图卷积简化进行到底—SGC》

专知

10+阅读 · 2020年8月5日

最新《迁移学习:域自适应理论》综述论文，128页ppt讲解迁移学习与最优传输

最新《迁移学习:域自适应理论》综述论文，128页ppt讲解迁移学习与最优传输

专知

16+阅读 · 2020年4月27日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

一大批中文（BERT等）预训练模型等你认领！

一大批中文（BERT等）预训练模型等你认领！

PaperWeekly

15+阅读 · 2019年6月25日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

量子位

10+阅读 · 2017年12月10日

带变动指标集的非光滑半无限优化问题的最优性条件研究

国家自然科学基金

0+阅读 · 2015年12月31日

Filling问题的最优化原理及其求解方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

考虑岩石剪切局部化细观特征的Mohr—Coulomb强度修正准则

国家自然科学基金

0+阅读 · 2015年12月31日

地表温度与植被盖度的两阶段特征空间模式及其参数反演方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

全局性气动外形优化中的流场加速求解新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于调度采样的网络化系统分布式控制策略研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于动态规划粘性解及特征正交分解降维方法的偏微分方程最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

非线性约束全局优化的新方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

弹性应变梯度问题的有限元方法

国家自然科学基金

0+阅读 · 2014年12月31日

Learning While Staying Curious: Entropy-Preserving Supervised Fine-Tuning via Adaptive Self-Distillation for Large Reasoning Models

Arxiv

0+阅读 · 2月8日

SED-SFT: Selectively Encouraging Diversity in Supervised Fine-Tuning

Arxiv

0+阅读 · 2月7日

Understanding and Exploiting Weight Update Sparsity for Communication-Efficient Distributed RL

Arxiv

0+阅读 · 2月3日

CPMobius: Iterative Coach-Player Reasoning for Data-Free Reinforcement Learning

Arxiv

0+阅读 · 2月3日

Learning While Staying Curious: Entropy-Preserving Supervised Fine-Tuning via Adaptive Self-Distillation for Large Reasoning Models

Arxiv

0+阅读 · 2月2日

Restoring Exploration after Post-Training: Latent Exploration Decoding for Large Reasoning Models

Arxiv

0+阅读 · 2月2日

InstructDiff: Domain-Adaptive Data Selection via Differential Entropy for Efficient LLM Fine-Tuning

Arxiv

0+阅读 · 1月30日

BEAR: Towards Beam-Search-Aware Optimization for Recommendation with Large Language Models

Arxiv

0+阅读 · 1月30日

From Meta-Thought to Execution: Cognitively Aligned Post-Training for Generalizable and Reliable LLM Reasoning

Arxiv

0+阅读 · 1月29日

Balancing Classification and Calibration Performance in Decision-Making LLMs via Calibration Aware Reinforcement Learning

Arxiv

0+阅读 · 1月19日

VIP会员

文章信息

相关主题

相关VIP内容

【AAAI2026】善始则事半功倍：基于前缀优化的大语言模型推理强化学习

【AAAI2026】善始则事半功倍：基于前缀优化的大语言模型推理强化学习

专知会员服务

13+阅读 · 2025年12月19日

【伯克利博士论文】迈向视觉-语言基础模型：局限、改进与泛化

【伯克利博士论文】迈向视觉-语言基础模型：局限、改进与泛化

专知会员服务

33+阅读 · 2025年3月12日

什么是后训练？大语言模型训练后优化方法综述，87页pdf

什么是后训练？大语言模型训练后优化方法综述，87页pdf

专知会员服务

54+阅读 · 2025年3月11日

多样化偏好优化

多样化偏好优化

专知会员服务

12+阅读 · 2025年2月3日

SFT 记忆，RL 泛化：基础模型后训练的比较研究

SFT 记忆，RL 泛化：基础模型后训练的比较研究

专知会员服务

24+阅读 · 2025年2月3日

【WWW2024】HetGPT：在预训练的异质图神经网络中利用提示微调的力量

【WWW2024】HetGPT：在预训练的异质图神经网络中利用提示微调的力量

专知会员服务

22+阅读 · 2024年1月28日

如何训练与微调大型语言模型？这份指南细到技术细节公式，17页pdf

如何训练与微调大型语言模型？这份指南细到技术细节公式，17页pdf

专知会员服务

96+阅读 · 2023年9月16日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

专知会员服务

17+阅读 · 2020年7月14日

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

专知会员服务

22+阅读 · 2020年4月8日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】从语言模型到宇宙结构：一种几何视角的探析

伊朗未来72小时：后哈梅内伊时代的秩序、指挥连续性与打击战略

大/小/微模型赋能先进制造：实践与思考，108页ppt

神经符号人工智能：黑盒模型时代下以任务为导向的综述

相关资讯

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

系列教程GNN-algorithms之三：《将图卷积简化进行到底—SGC》

系列教程GNN-algorithms之三：《将图卷积简化进行到底—SGC》

专知

10+阅读 · 2020年8月5日

最新《迁移学习:域自适应理论》综述论文，128页ppt讲解迁移学习与最优传输

最新《迁移学习:域自适应理论》综述论文，128页ppt讲解迁移学习与最优传输

专知

16+阅读 · 2020年4月27日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

一大批中文（BERT等）预训练模型等你认领！

一大批中文（BERT等）预训练模型等你认领！

PaperWeekly

15+阅读 · 2019年6月25日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

量子位

10+阅读 · 2017年12月10日

相关论文

Learning While Staying Curious: Entropy-Preserving Supervised Fine-Tuning via Adaptive Self-Distillation for Large Reasoning Models

Arxiv

0+阅读 · 2月8日

SED-SFT: Selectively Encouraging Diversity in Supervised Fine-Tuning

Arxiv

0+阅读 · 2月7日

Understanding and Exploiting Weight Update Sparsity for Communication-Efficient Distributed RL

Arxiv

0+阅读 · 2月3日

CPMobius: Iterative Coach-Player Reasoning for Data-Free Reinforcement Learning

Arxiv

0+阅读 · 2月3日

Learning While Staying Curious: Entropy-Preserving Supervised Fine-Tuning via Adaptive Self-Distillation for Large Reasoning Models

Arxiv

0+阅读 · 2月2日

Restoring Exploration after Post-Training: Latent Exploration Decoding for Large Reasoning Models

Arxiv

0+阅读 · 2月2日

InstructDiff: Domain-Adaptive Data Selection via Differential Entropy for Efficient LLM Fine-Tuning

Arxiv

0+阅读 · 1月30日

BEAR: Towards Beam-Search-Aware Optimization for Recommendation with Large Language Models

Arxiv

0+阅读 · 1月30日

From Meta-Thought to Execution: Cognitively Aligned Post-Training for Generalizable and Reliable LLM Reasoning

Arxiv

0+阅读 · 1月29日

Balancing Classification and Calibration Performance in Decision-Making LLMs via Calibration Aware Reinforcement Learning

Arxiv

0+阅读 · 1月19日

相关基金

带变动指标集的非光滑半无限优化问题的最优性条件研究

国家自然科学基金

0+阅读 · 2015年12月31日

Filling问题的最优化原理及其求解方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

考虑岩石剪切局部化细观特征的Mohr—Coulomb强度修正准则

国家自然科学基金

0+阅读 · 2015年12月31日

地表温度与植被盖度的两阶段特征空间模式及其参数反演方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

全局性气动外形优化中的流场加速求解新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于调度采样的网络化系统分布式控制策略研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于动态规划粘性解及特征正交分解降维方法的偏微分方程最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

非线性约束全局优化的新方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

弹性应变梯度问题的有限元方法

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员