From Collapse to Improvement: Statistical Perspectives on the Evolutionary Dynamics of Iterative Training on Contaminated Sources - 专知论文

会员服务 ·

0

污染 · 样本 · 合成 · 混合 · 演化动力学 ·

From Collapse to Improvement: Statistical Perspectives on the Evolutionary Dynamics of Iterative Training on Contaminated Sources

翻译：从崩溃到改进：基于污染源的迭代训练演化动力学的统计视角

Soham Bakshi,Sunrit Chakraborty

The problem of model collapse has presented new challenges in iterative training of generative models, where such training with synthetic data leads to an overall degradation of performance. This paper looks at the problem from a statistical viewpoint, illustrating that one can actually hope for improvement when models are trained on data contaminated with synthetic samples, as long as there is some amount of fresh information from the true target distribution. In particular, we consider iterative training on samples sourced from a mixture of the true target and synthetic distributions. We analyze the entire iterative evolution in a next-token prediction language model, capturing how the interplay between the mixture weights and the sample size controls the overall long-term performance. With non-trivial mixture weight of the true distribution, even if it decays over time, simply training the model in a contamination-agnostic manner with appropriate sample sizes can avoid collapse and even recover the true target distribution under certain conditions. Simulation studies support our findings and also show that such behavior is more general for other classes of models.

翻译：模型崩溃问题为生成模型的迭代训练带来了新的挑战，其中使用合成数据进行此类训练会导致性能的整体退化。本文从统计学的角度审视该问题，阐明当模型在受合成样本污染的数据上进行训练时，只要存在来自真实目标分布的新鲜信息，实际上有望实现性能改进。具体而言，我们考虑对来自真实目标分布与合成分布混合体的样本进行迭代训练。我们在一个基于下一词预测的语言模型中分析了完整的迭代演化过程，揭示了混合权重与样本量之间的相互作用如何控制整体的长期性能。当真实分布具有非平凡的混合权重时，即使该权重随时间衰减，只要以适当样本量进行与污染无关的简单模型训练，即可避免崩溃，并在特定条件下甚至能恢复真实目标分布。仿真研究支持了我们的发现，并表明此类行为对于其他模型类别具有更广泛的普适性。

0

相关内容

【博士论文】理解神经网络的训练动态：从局部优化轨迹与特征学习视角

【博士论文】理解神经网络的训练动态：从局部优化轨迹与特征学习视角

专知会员服务

14+阅读 · 2025年8月15日

【MIT博士论文】从数据到模型，再回到数据：构建可预测且可靠的机器学习系统”

【MIT博士论文】从数据到模型，再回到数据：构建可预测且可靠的机器学习系统”

专知会员服务

23+阅读 · 2025年6月19日

【CMU博士论文】优化的新视角：应对数据中毒、解决欧几里得优化问题，以及学习最小最大最优估计器。

【CMU博士论文】优化的新视角：应对数据中毒、解决欧几里得优化问题，以及学习最小最大最优估计器。

专知会员服务

20+阅读 · 2024年12月5日

【斯坦福大学博士论文】高效且可信的机器学习的统计方法，267页pdf

【斯坦福大学博士论文】高效且可信的机器学习的统计方法，267页pdf

专知会员服务

29+阅读 · 2024年8月20日

低资源如何合成图像？华东理工等最新《有限数据下的图像合成》综述，详述图像合成技术进展

低资源如何合成图像？华东理工等最新《有限数据下的图像合成》综述，详述图像合成技术进展

专知会员服务

29+阅读 · 2023年8月7日

【ICLR2023】DIFFormer:由能量约束扩散诱导的可扩展(图)Transformer

【ICLR2023】DIFFormer:由能量约束扩散诱导的可扩展(图)Transformer

专知会员服务

21+阅读 · 2023年1月24日

【伯克利博士论文】学习在动态环境中泛化，103页pdf

【伯克利博士论文】学习在动态环境中泛化，103页pdf

专知会员服务

72+阅读 · 2022年10月12日

【AI与军事】《有限数据下的深度学习：一种合成方法》最新53页技术报告

【AI与军事】《有限数据下的深度学习：一种合成方法》最新53页技术报告

专知会员服务

89+阅读 · 2022年7月5日

【DeepMind】基于变换的大规模数据对抗视频预测，Transformation-based Adversarial Video Prediction on Large-Scale Data

【DeepMind】基于变换的大规模数据对抗视频预测，Transformation-based Adversarial Video Prediction on Large-Scale Data

专知会员服务

17+阅读 · 2020年3月9日

【Amazon】使用预先训练的Transformer模型进行数据增强，Data Augmentation using Pre-trained Transformer Models

【Amazon】使用预先训练的Transformer模型进行数据增强，Data Augmentation using Pre-trained Transformer Models

专知会员服务

51+阅读 · 2020年3月7日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

专知

11+阅读 · 2020年8月28日

【DeepMind】CrossTransformers: 空间感知的小样本迁移

【DeepMind】CrossTransformers: 空间感知的小样本迁移

专知

37+阅读 · 2020年7月26日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

AI新视野 | 数据蒸馏Dataset Distillation

AI新视野 | 数据蒸馏Dataset Distillation

人工智能前沿讲习班

31+阅读 · 2019年6月14日

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

专知

78+阅读 · 2019年5月31日

机器学习中如何处理不平衡数据？

机器学习中如何处理不平衡数据？

机器之心

13+阅读 · 2019年2月17日

【深度学习】深度学习的核心：掌握训练数据的方法

【深度学习】深度学习的核心：掌握训练数据的方法

产业智能官

12+阅读 · 2018年1月14日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

操作风险动态量化方法研究：从微观机构到宏观系统

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于多场信息数据驱动的滑坡演化多模式切换概率预测和控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

信息物理系统动力学演化融合机制与行为建模研究

国家自然科学基金

0+阅读 · 2014年12月31日

混凝土材料损伤演化方程、含损伤动态本构关系及其抗侵彻破坏机理的多尺度研究

国家自然科学基金

0+阅读 · 2014年12月31日

Detecting Data Contamination from Reinforcement Learning Post-training for Large Language Models

Arxiv

0+阅读 · 3月18日

Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems

Arxiv

0+阅读 · 3月8日

Analyzing the Training Dynamics of Image Restoration Transformers: A Revisit to Layer Normalization

Arxiv

0+阅读 · 2月20日

Error Propagation and Model Collapse in Diffusion Models: A Theoretical Study

Arxiv

0+阅读 · 2月18日

Understanding vs. Generation: Navigating Optimization Dilemma in Multimodal Models

Arxiv

0+阅读 · 2月17日

Concept Influence: Leveraging Interpretability to Improve Performance and Efficiency in Training Data Attribution

Arxiv

0+阅读 · 2月16日

Why Prototypes Collapse: Diagnosing and Preventing Partial Collapse in Prototypical Self-Supervised Learning

Arxiv

0+阅读 · 2月12日

Preventing Model Collapse Under Overparametrization: Optimal Mixing Ratios for Interpolation Learning and Ridge Regression

Arxiv

0+阅读 · 2月11日

Infusion: Shaping Model Behavior by Editing Training Data via Influence Functions

Arxiv

0+阅读 · 2月10日

Self-Improving Pretraining: using post-trained models to pretrain better models

Arxiv

0+阅读 · 2月4日

VIP会员

文章信息

相关主题

演化动力学

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

2+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

4+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

5+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

6+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

10+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

10+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

15+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

8+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

10+阅读 · 6月17日

相关VIP内容

【博士论文】理解神经网络的训练动态：从局部优化轨迹与特征学习视角

【博士论文】理解神经网络的训练动态：从局部优化轨迹与特征学习视角

专知会员服务

14+阅读 · 2025年8月15日

【MIT博士论文】从数据到模型，再回到数据：构建可预测且可靠的机器学习系统”

【MIT博士论文】从数据到模型，再回到数据：构建可预测且可靠的机器学习系统”

专知会员服务

23+阅读 · 2025年6月19日

【CMU博士论文】优化的新视角：应对数据中毒、解决欧几里得优化问题，以及学习最小最大最优估计器。

【CMU博士论文】优化的新视角：应对数据中毒、解决欧几里得优化问题，以及学习最小最大最优估计器。

专知会员服务

20+阅读 · 2024年12月5日

【斯坦福大学博士论文】高效且可信的机器学习的统计方法，267页pdf

【斯坦福大学博士论文】高效且可信的机器学习的统计方法，267页pdf

专知会员服务

29+阅读 · 2024年8月20日

低资源如何合成图像？华东理工等最新《有限数据下的图像合成》综述，详述图像合成技术进展

低资源如何合成图像？华东理工等最新《有限数据下的图像合成》综述，详述图像合成技术进展

专知会员服务

29+阅读 · 2023年8月7日

【ICLR2023】DIFFormer:由能量约束扩散诱导的可扩展(图)Transformer

【ICLR2023】DIFFormer:由能量约束扩散诱导的可扩展(图)Transformer

专知会员服务

21+阅读 · 2023年1月24日

【伯克利博士论文】学习在动态环境中泛化，103页pdf

【伯克利博士论文】学习在动态环境中泛化，103页pdf

专知会员服务

72+阅读 · 2022年10月12日

【AI与军事】《有限数据下的深度学习：一种合成方法》最新53页技术报告

【AI与军事】《有限数据下的深度学习：一种合成方法》最新53页技术报告

专知会员服务

89+阅读 · 2022年7月5日

【DeepMind】基于变换的大规模数据对抗视频预测，Transformation-based Adversarial Video Prediction on Large-Scale Data

【DeepMind】基于变换的大规模数据对抗视频预测，Transformation-based Adversarial Video Prediction on Large-Scale Data

专知会员服务

17+阅读 · 2020年3月9日

【Amazon】使用预先训练的Transformer模型进行数据增强，Data Augmentation using Pre-trained Transformer Models

【Amazon】使用预先训练的Transformer模型进行数据增强，Data Augmentation using Pre-trained Transformer Models

专知会员服务

51+阅读 · 2020年3月7日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

专知

11+阅读 · 2020年8月28日

【DeepMind】CrossTransformers: 空间感知的小样本迁移

【DeepMind】CrossTransformers: 空间感知的小样本迁移

专知

37+阅读 · 2020年7月26日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

AI新视野 | 数据蒸馏Dataset Distillation

AI新视野 | 数据蒸馏Dataset Distillation

人工智能前沿讲习班

31+阅读 · 2019年6月14日

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

专知

78+阅读 · 2019年5月31日

机器学习中如何处理不平衡数据？

机器学习中如何处理不平衡数据？

机器之心

13+阅读 · 2019年2月17日

【深度学习】深度学习的核心：掌握训练数据的方法

【深度学习】深度学习的核心：掌握训练数据的方法

产业智能官

12+阅读 · 2018年1月14日

相关论文

Detecting Data Contamination from Reinforcement Learning Post-training for Large Language Models

Arxiv

0+阅读 · 3月18日

Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems

Arxiv

0+阅读 · 3月8日

Analyzing the Training Dynamics of Image Restoration Transformers: A Revisit to Layer Normalization

Arxiv

0+阅读 · 2月20日

Error Propagation and Model Collapse in Diffusion Models: A Theoretical Study

Arxiv

0+阅读 · 2月18日

Understanding vs. Generation: Navigating Optimization Dilemma in Multimodal Models

Arxiv

0+阅读 · 2月17日

Concept Influence: Leveraging Interpretability to Improve Performance and Efficiency in Training Data Attribution

Arxiv

0+阅读 · 2月16日

Why Prototypes Collapse: Diagnosing and Preventing Partial Collapse in Prototypical Self-Supervised Learning

Arxiv

0+阅读 · 2月12日

Preventing Model Collapse Under Overparametrization: Optimal Mixing Ratios for Interpolation Learning and Ridge Regression

Arxiv

0+阅读 · 2月11日

Infusion: Shaping Model Behavior by Editing Training Data via Influence Functions

Arxiv

0+阅读 · 2月10日

Self-Improving Pretraining: using post-trained models to pretrain better models

Arxiv

0+阅读 · 2月4日

相关基金

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

操作风险动态量化方法研究：从微观机构到宏观系统

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于多场信息数据驱动的滑坡演化多模式切换概率预测和控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

信息物理系统动力学演化融合机制与行为建模研究

国家自然科学基金

0+阅读 · 2014年12月31日

混凝土材料损伤演化方程、含损伤动态本构关系及其抗侵彻破坏机理的多尺度研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员