Large Language Models (LLMs) are known for their performance, but we uncover a significant structural inefficiency: a phenomenon we term attention collapse. In many pre-trained decoder-style LLMs, the attention matrices in deeper layers degenerate, collapsing to near rank-one structures. These underutilized layers, which we call lazy layers, are redundant and impair model efficiency. To address this, we introduce Inheritune, a simple yet powerful training recipe designed to build smaller, stronger language models. Inheritune initializes a compact model by inheriting the potent early layers from a larger pre-trained model and then progressively trains and expands it. Our experiments on various models, including the GPT-2 family, demonstrate that models trained with Inheritune can match or even surpass the performance of their larger counterparts, despite having significantly fewer layers. This work presents a novel path toward model compression by design, enabling the creation of compact, yet highly performant language models. Code is available at https://github.com/sanyalsunny111/LLM-Inheritune.


翻译:大型语言模型(LLM)以其卓越性能而闻名,但我们发现其存在显著的结构性低效现象:一种我们称之为注意力坍缩的现象。在许多预训练的类解码器LLM中,深层注意力矩阵会发生退化,坍缩为近似秩一结构。这些未被充分利用的层——我们称之为惰性层——是冗余的,并损害了模型效率。为解决此问题,我们提出了Inheritune,一种简单而强大的训练方案,旨在构建更小更强的语言模型。Inheritune通过继承更大预训练模型中强力的早期层来初始化一个紧凑模型,然后对其进行渐进式训练与扩展。我们在包括GPT-2系列在内的多种模型上的实验表明,采用Inheritune训练的模型尽管层数显著减少,但其性能能够匹配甚至超越其更大规模的对应模型。这项工作为通过设计实现模型压缩提供了一条新路径,使得创建紧凑且高性能的语言模型成为可能。代码发布于https://github.com/sanyalsunny111/LLM-Inheritune。

0
下载
关闭预览

相关内容

大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
TransMLA:多头潜在注意力(MLA)即为所需
专知会员服务
23+阅读 · 2025年2月13日
《LLM 时代小模型的作用》综述
专知会员服务
49+阅读 · 2024年9月12日
Transformer-XL:释放注意力模型的潜力
谷歌开发者
31+阅读 · 2019年2月19日
从Seq2seq到Attention模型到Self Attention(一)
量化投资与机器学习
76+阅读 · 2018年10月8日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
深度学习中的注意力机制
CSDN大数据
24+阅读 · 2017年11月2日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月4日
VIP会员
相关资讯
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员