We study the problem of entropy calibration, which asks whether a language model's entropy over generations matches its log loss on human text. Past work found that models are miscalibrated, with entropy per step increasing as generations grow longer, due to error accumulation. To calibrate the model and improve text quality, it has become standard practice to truncate the distribution, but this approach reduces output diversity, which we would like to avoid. Therefore, in this paper, we ask: does miscalibration improve automatically with scale, and if not, is it theoretically possible to calibrate without tradeoffs? To build intuition, we first study a simplified theoretical setting to characterize the scaling behavior of miscalibration with respect to dataset size. We find that the rate of scaling depends on the power law exponent of the data distribution -- in particular, for a power law exponent close to 1, the scaling exponent is close to 0, meaning that miscalibration improves very slowly with scale. Next, we measure miscalibration empirically in language models ranging from 0.5B to 70B parameters. We find that the observed scaling behavior is similar to what is predicted theoretically: our fitted scaling exponents for text are close to 0, meaning that larger models accumulate error at a similar rate as smaller ones. This scaling (or, lack thereof) provides one explanation for why we sample from larger models with similar amounts of truncation as smaller models, even though the larger models are of higher quality. However, truncation is not a satisfying solution because it comes at the cost of increased log loss. In theory, is it even possible to reduce entropy while preserving log loss? We prove that it is possible, if we assume access to a black box which can fit models to predict the future entropy of text.


翻译:本文研究熵校准问题,即探究语言模型在生成文本时的熵是否与其在人类文本上的对数损失相匹配。已有研究发现模型存在校准偏差,由于误差累积效应,随着生成文本长度的增加,每一步的熵会持续上升。为校准模型并提升文本质量,截断概率分布已成为标准实践方法,但这种方法会降低输出多样性,而这是我们希望避免的。因此,本文提出两个核心问题:校准偏差是否会随模型规模扩大而自动改善?若不能,理论上是否存在无需权衡的校准方法?为建立理论直觉,我们首先在简化理论框架下研究校准偏差随数据集规模的标度行为。研究发现,标度速率取决于数据分布幂律指数的特性——当幂律指数接近1时,标度指数趋近于0,这意味着校准偏差随规模扩大的改善极为缓慢。随后,我们对参数量从0.5B到70B的语言模型进行了实证校准偏差测量。观测到的标度行为与理论预测高度吻合:文本数据的拟合标度指数接近0,表明大模型与小模型具有相似的误差累积速率。这种标度特性(或缺乏标度性)解释了为何我们对大模型采样时仍需采用与小模型相近的截断量,尽管大模型本身具有更优的生成质量。然而截断法并非理想解决方案,因其会导致对数损失增加。从理论层面探讨:在保持对数损失不变的前提下降低熵是否可能?我们证明,若假设存在能够预测文本未来熵的黑盒模型拟合器,则该目标在理论上是可实现的。

0
下载
关闭预览

相关内容

大语言模型对齐研究综述
专知会员服务
56+阅读 · 2024年8月1日
大语言模型评估技术研究进展
专知会员服务
48+阅读 · 2024年7月9日
【博士论文】语言模型与人类偏好对齐,148页pdf
专知会员服务
32+阅读 · 2024年4月21日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
金融领域自然语言处理研究资源大列表
专知
13+阅读 · 2020年2月27日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
机器学习各种熵:从入门到全面掌握
AI研习社
10+阅读 · 2018年3月22日
从香农熵到手推KL散度:一文带你纵览机器学习中的信息论
算法与数学之美
10+阅读 · 2018年1月14日
【直观详解】信息熵、交叉熵和相对熵
机器学习研究会
10+阅读 · 2017年11月7日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员