Continual post-training of generative models is widely used, yet a principled understanding of when and why forgetting occurs remains limited. We develop theoretical results under a two-mode mixture abstraction (representing old and new tasks), proposed by Chen et al. (2025) (arXiv:2510.18874), and formalize forgetting in two forms: (i) mass forgetting, where the old mixture weight collapses to zero, and (ii) old-component drift, where an already-correct old component shifts during training. For equal-covariance Gaussian modes, we prove that forward-KL objectives trained on data from the new distribution drive the old weight to zero, while reverse-KL objectives converge to the true target (thereby avoiding mass forgetting) and perturb the old mean only through overlap-gated misassignment probabilities controlled by the Bhattacharyya coefficient, yielding drift that decays exponentially with mode separation and a locally well-conditioned geometry with exponential convergence. We further quantify how replay interacts with these objectives. For forward-KL, replay must modify the training distribution to change the population optimum; for reverse-KL, replay leaves the population objective unchanged but prevents finite-batch old-mode starvation through bounded importance weighting. Finally, we analyze three recently proposed near-on-policy post-training methods, SDFT (arxiv:2601.19897), TTT-Discover (arxiv:2601.16175), and OAPL (arxiv:2602.19362), via the same lens and derive explicit conditions under which each retains old mass and exhibits overlap-controlled drift. Overall, our results show that forgetting can by precisely quantified based on the interaction between divergence direction, geometric behavioral overlap, sampling regime, and the visibility of past behavior during training.


翻译:生成模型的持续后训练被广泛使用,然而对于遗忘何时发生及其原因的机理理解仍然有限。我们在Chen等人(2025)(arXiv:2510.18874)提出的双模态混合抽象(代表旧任务和新任务)下发展理论结果,并将遗忘形式化为两种形式:(i)质量遗忘,即旧混合权重坍缩为零;(ii)旧成分漂移,即已正确的旧成分在训练期间发生偏移。对于等协方差的高斯模态,我们证明:在新分布数据上训练的前向KL目标会驱使旧权重趋于零,而反向KL目标则收敛到真实目标(从而避免质量遗忘),并且仅通过由Bhattacharyya系数控制的重叠门限误分配概率扰动旧均值,从而产生随模态分离度指数衰减的漂移,并具有局部良态的几何结构和指数收敛性。我们进一步量化了回放机制与这些目标的相互作用。对于前向KL,回放必须修改训练分布以改变总体最优解;对于反向KL,回放保持总体目标不变,但通过有界重要性加权防止有限批次下的旧模态饥饿。最后,我们通过相同视角分析了三种近期提出的近在线策略后训练方法——SDFT(arxiv:2601.19897)、TTT-Discover(arxiv:2601.16175)和OAPL(arxiv:2602.19362),并推导出每种方法保留旧质量及呈现重叠控制漂移的显式条件。总体而言,我们的结果表明:遗忘可以根据散度方向、几何行为重叠、采样机制以及训练过程中过去行为的可见性之间的相互作用进行精确量化。

0
下载
关闭预览

相关内容

arXiv(X依希腊文的χ发音,读音如英语的archive)是一个收集物理学、数学、计算机科学与生物学的论文预印本的网站,始于1991年8月14日。截至2008年10月,arXiv.org已收集超过50万篇预印本;至2014年底,藏量达到1百万篇。在2014年时,约以每月8000篇的速度增加。
什么是后训练?大语言模型训练后优化方法综述,87页pdf
【CVPR2024】卷积提示"遇见了语言模型的持续学习
专知会员服务
18+阅读 · 2024年4月1日
【CVPR2024】持续遗忘对于预训练视觉模型
专知会员服务
19+阅读 · 2024年3月20日
持续学习:研究综述
专知会员服务
83+阅读 · 2023年1月30日
专知会员服务
51+阅读 · 2020年7月16日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
如何理解模型的过拟合与欠拟合,以及如何解决?
七月在线实验室
12+阅读 · 2019年4月23日
深度学习中Attention Mechanism详细介绍:原理、分类及应用
深度学习与NLP
10+阅读 · 2019年2月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(16份)
专知会员服务
7+阅读 · 4月12日
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
13+阅读 · 4月12日
远程空中优势:新一代超视距导弹的兴起
专知会员服务
2+阅读 · 4月12日
大语言模型溯因推理的统一分类学与综述
专知会员服务
3+阅读 · 4月12日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员