Model collapse, the degradation in performance that arises when generative models are trained on the outputs of prior models, is an increasing concern as artificially generated content proliferates. Related critiques of large language models have highlighted their tendency to reproduce frequent patterns in training data, their reliance on vast datasets, and their substantial environmental cost. Together, these factors contribute to data degradation, the reinforcement of cultural biases, and inefficient resource use. In this position paper we aim to combine these views and argue that model collapse threatens current efforts to democratize AI. By reducing training efficiency and skewing data distributions away from the tails of their support, model collapse disproportionately impacts low-resource and marginalized communities. We examine both the environmental and cultural implications of this phenomenon, situate our position within recent position papers on model collapse, and conclude with a call to action. Finally, we outline initial directions for mitigating these effects.


翻译:模型崩溃是指生成模型在先验模型输出上训练时出现的性能退化现象,随着人工生成内容的激增,这一问题日益受到关注。对大型语言模型的相关批评已强调其倾向于重复训练数据中的高频模式、依赖海量数据集以及产生巨大环境成本。这些因素共同导致数据退化、文化偏见强化及资源利用效率低下。本立场论文旨在整合上述观点,论证模型崩溃正在威胁当前人工智能民主化的努力。通过降低训练效率并使数据分布偏离支撑集的尾部,模型崩溃对低资源及边缘化社区造成不成比例的影响。我们探讨了该现象的环境与文化影响,将我们的立场置于近期关于模型崩溃的立场论文框架内,并最终提出行动倡议。最后,我们概述了缓解这些影响的初步方向。

0
下载
关闭预览

相关内容

大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
生成模型中持续学习的综合综述
专知会员服务
25+阅读 · 2025年6月17日
【ICML2025】多模态表示坍塌的深度剖析
专知会员服务
15+阅读 · 2025年5月30日
大语言模型越狱攻击:模型、根因及其攻防演化
专知会员服务
22+阅读 · 2025年4月28日
大语言模型的知识冲突:成因、根源与展望
专知会员服务
13+阅读 · 2024年9月23日
大模型报告:模型能力决定下限,场景适配度决定上限
专知会员服务
57+阅读 · 2024年6月3日
大语言模型安全现状与挑战
专知会员服务
88+阅读 · 2024年1月14日
「PPT」深度学习中的不确定性估计
专知
27+阅读 · 2019年7月20日
如何理解模型的过拟合与欠拟合,以及如何解决?
七月在线实验室
12+阅读 · 2019年4月23日
深度学习 | GAN模式崩溃的理论解释
数据派THU
10+阅读 · 2019年2月17日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
机器学习模型的“可解释性”到底有多重要?
中国科学院自动化研究所
20+阅读 · 2018年3月1日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
生成模型中持续学习的综合综述
专知会员服务
25+阅读 · 2025年6月17日
【ICML2025】多模态表示坍塌的深度剖析
专知会员服务
15+阅读 · 2025年5月30日
大语言模型越狱攻击:模型、根因及其攻防演化
专知会员服务
22+阅读 · 2025年4月28日
大语言模型的知识冲突:成因、根源与展望
专知会员服务
13+阅读 · 2024年9月23日
大模型报告:模型能力决定下限,场景适配度决定上限
专知会员服务
57+阅读 · 2024年6月3日
大语言模型安全现状与挑战
专知会员服务
88+阅读 · 2024年1月14日
相关资讯
「PPT」深度学习中的不确定性估计
专知
27+阅读 · 2019年7月20日
如何理解模型的过拟合与欠拟合,以及如何解决?
七月在线实验室
12+阅读 · 2019年4月23日
深度学习 | GAN模式崩溃的理论解释
数据派THU
10+阅读 · 2019年2月17日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
机器学习模型的“可解释性”到底有多重要?
中国科学院自动化研究所
20+阅读 · 2018年3月1日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员