As scaling laws push the training of frontier large language models (LLMs) toward ever-growing data requirements, training pipelines are approaching a regime where much of the publicly available online text may be consumed. At the same time, widespread LLM usage increases the volume of machine-generated content on the web; together, these trends raise the likelihood of generated text re-entering future training corpora, increasing the associated risk of performance degradation often called model collapse. In practice, model developers address this concern through data cleaning, watermarking, synthetic-data policies, or, in some cases, blissful ignorance. However, the problem of model collapse in generative models has not been examined from a learning-theoretic perspective: we study it through the theoretical lens of the language generation in the limit framework, introducing a replay adversary that augments the example stream with the generator's own past outputs. Our main contribution is a fine-grained learning-theoretic characterization of when replay fundamentally limits generation: while replay is benign for the strongest notion of uniform generation, it provably creates separations for the weaker notions of non-uniform generation and generation in the limit. Interestingly, our positive results mirror heuristics widely used in practice, such as data cleaning, watermarking, and output filtering, while our separations show when these ideas can fail.


翻译:随着缩放定律推动前沿大语言模型(LLM)的训练对数据量的需求不断增长,训练流程正逐渐接近一个临界点:大部分公开可用的在线文本可能被耗尽。与此同时,LLM的广泛使用增加了网络上机器生成内容的数量;这些趋势共同提高了生成文本重新进入未来训练语料库的可能性,从而增加了通常被称为模型崩溃的性能退化风险。在实践中,模型开发者通过数据清洗、水印技术、合成数据策略或在某些情况下的选择性忽视来应对这一问题。然而,生成模型中的模型崩溃问题尚未从学习理论的角度进行审视:我们通过极限语言生成框架的理论视角来研究该问题,引入了一个回放对抗者,该对抗者将生成器自身过去的输出作为增广样本注入训练流。我们的主要贡献是对回放何时从根本上限制生成能力进行了细粒度的学习理论刻画:虽然回放对于最强的均匀生成概念是良性的,但可证明它会在较弱的非均匀生成和极限生成概念上造成分离。有趣的是,我们的正向结果反映了实践中广泛使用的启发式方法(如数据清洗、水印和输出过滤),而我们的分离结果则揭示了这些方法可能失效的情形。

0
下载
关闭预览

相关内容

从数据中心视角出发的高效大语言模型训练综述
专知会员服务
23+阅读 · 2025年10月31日
【伯克利博士论文】语言模型的脆弱性
专知会员服务
23+阅读 · 2025年2月20日
《大语言模型的数据合成与增强综述》
专知会员服务
44+阅读 · 2024年10月19日
迈向大语言模型偏好学习的统一视角综述
专知会员服务
24+阅读 · 2024年9月7日
数据与多模态大型语言模型的协同作用综述
专知会员服务
59+阅读 · 2024年7月13日
大语言模型的终身学习综述
专知会员服务
76+阅读 · 2024年6月15日
《大型语言模型持续学习》综述
专知会员服务
93+阅读 · 2024年4月26日
《大型语言模型视频理解》综述
专知会员服务
59+阅读 · 2024年1月2日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Arxiv
21+阅读 · 2023年7月12日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
专知会员服务
3+阅读 · 今天7:28
消耗优势:美军的“精确规模化”概念
专知会员服务
7+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
8+阅读 · 6月15日
俄乌战场地面机器人如何改写战争规则
专知会员服务
9+阅读 · 6月14日
相关VIP内容
从数据中心视角出发的高效大语言模型训练综述
专知会员服务
23+阅读 · 2025年10月31日
【伯克利博士论文】语言模型的脆弱性
专知会员服务
23+阅读 · 2025年2月20日
《大语言模型的数据合成与增强综述》
专知会员服务
44+阅读 · 2024年10月19日
迈向大语言模型偏好学习的统一视角综述
专知会员服务
24+阅读 · 2024年9月7日
数据与多模态大型语言模型的协同作用综述
专知会员服务
59+阅读 · 2024年7月13日
大语言模型的终身学习综述
专知会员服务
76+阅读 · 2024年6月15日
《大型语言模型持续学习》综述
专知会员服务
93+阅读 · 2024年4月26日
《大型语言模型视频理解》综述
专知会员服务
59+阅读 · 2024年1月2日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员