Perplexity -- a function measuring a model's overall level of "surprise" when encountering a particular output -- has gained significant traction in recent years, both as a loss function and as a simple-to-compute metric of model quality. Prior studies have pointed out several limitations of perplexity, often from an empirical manner. Here we leverage recent results on Transformer continuity to show in a rigorous manner how perplexity may be an unsuitable metric for model selection. Specifically, we prove that, if there is any sequence that a compact decoder-only Transformer model predicts accurately and confidently -- a necessary pre-requisite for strong generalisation -- it must imply existence of another sequence with very low perplexity, but not predicted correctly by that same model. Further, by analytically studying iso-perplexity plots, we find that perplexity will not always select for the more accurate model -- rather, any increase in model confidence must be accompanied by a commensurate rise in accuracy for the new model to be selected.


翻译:困惑度——一种衡量模型在遇到特定输出时整体“惊讶”程度的函数——近年来获得了显著关注,既作为损失函数,也作为一种易于计算的模型质量度量指标。先前的研究已从经验角度指出了困惑度的若干局限性。本文利用Transformer连续性方面的最新成果,以严格的方式论证了困惑度为何可能不适合作为模型选择的指标。具体而言,我们证明:如果存在某个序列,一个紧凑的仅解码器Transformer模型能够准确且自信地预测它(这是实现强泛化能力的必要前提),那么必然意味着存在另一个序列,其困惑度极低,但同一模型却无法正确预测它。此外,通过对等困惑度曲线的解析研究,我们发现困惑度并不总是选择更准确的模型——相反,模型置信度的任何提升都必须伴随着准确度的相应提高,新模型才有可能被选中。

0
下载
关闭预览

相关内容

「PPT」深度学习中的不确定性估计
专知
27+阅读 · 2019年7月20日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
从Seq2seq到Attention模型到Self Attention(一)
量化投资与机器学习
76+阅读 · 2018年10月8日
异常检测的阈值,你怎么选?给你整理好了...
机器学习算法与Python学习
10+阅读 · 2018年9月19日
基于面部表情的学习困惑自动识别法
MOOC
10+阅读 · 2018年9月17日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
详解常见的损失函数
七月在线实验室
20+阅读 · 2018年7月12日
你真的会用 t-SNE 么?有关 t-SNE 的小技巧
专知
59+阅读 · 2018年5月28日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关VIP内容
相关资讯
「PPT」深度学习中的不确定性估计
专知
27+阅读 · 2019年7月20日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
从Seq2seq到Attention模型到Self Attention(一)
量化投资与机器学习
76+阅读 · 2018年10月8日
异常检测的阈值,你怎么选?给你整理好了...
机器学习算法与Python学习
10+阅读 · 2018年9月19日
基于面部表情的学习困惑自动识别法
MOOC
10+阅读 · 2018年9月17日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
详解常见的损失函数
七月在线实验室
20+阅读 · 2018年7月12日
你真的会用 t-SNE 么?有关 t-SNE 的小技巧
专知
59+阅读 · 2018年5月28日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员