Autoregressive language models typically use temperature parameter at inference to shape the probability distribution and control the randomness of the text generated. After the text was generated, this parameter can be estimated using maximum likelihood approach. Following it, we propose a procedure to estimate the temperature of any text, including ones written by humans, with respect to a given language model. We evaluate the temperature estimation capability of a wide selection of small-to-medium LLMs. We then use the best-performing Qwen3 14B to estimate temperatures of popular corpora.


翻译:自回归语言模型通常在推理阶段使用温度参数来调整概率分布并控制生成文本的随机性。文本生成后,可通过最大似然方法估计该参数。基于此,我们提出一种针对给定语言模型估计任意文本(包括人类撰写的文本)温度的程序。我们评估了一系列中小型大语言模型的温度估计能力,随后使用表现最佳的Qwen3 14B模型对多个常用语料库进行温度估计。

0
下载
关闭预览

相关内容

专知会员服务
15+阅读 · 2021年9月11日
专知会员服务
38+阅读 · 2021年6月3日
专知会员服务
31+阅读 · 2020年12月14日
【NeurIPS2019】图变换网络:Graph Transformer Network
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
LibRec 每周算法:DeepFM
LibRec智能推荐
14+阅读 · 2017年11月6日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月6日
Arxiv
0+阅读 · 1月6日
VIP会员
相关VIP内容
专知会员服务
15+阅读 · 2021年9月11日
专知会员服务
38+阅读 · 2021年6月3日
专知会员服务
31+阅读 · 2020年12月14日
相关资讯
【NeurIPS2019】图变换网络:Graph Transformer Network
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
LibRec 每周算法:DeepFM
LibRec智能推荐
14+阅读 · 2017年11月6日
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员