Frontier LLMs are increasingly utilised across academia, society and industry. A commonly used unit for comparing models, their inputs and outputs, and estimating inference pricing is the token. In general, tokens are used as a stable currency, assumed to be broadly consistent across tokenizers and contexts, enabling direct comparisons. However, tokenization varies significantly across models and domains of text, making naive interpretation of token counts problematic. We quantify this variation by providing a comprehensive empirical analysis of tokenization, exploring the compression of sequences to tokens across different distributions of textual data. Our analysis challenges commonly held heuristics about token lengths, finding them to be overly simplistic. We hope the insights of our study add clarity and intuition toward tokenization in contemporary LLMs.


翻译:前沿大语言模型在学术界、社会及工业界的应用日益广泛。作为比较模型、输入输出及估算推理成本的常用单位,令牌通常被视为一种稳定的度量标准,人们普遍认为其在不同分词器和语境间具有广泛一致性,从而支持直接比较。然而,分词过程在不同模型和文本领域间存在显著差异,这使得对令牌数量的简单解读可能产生问题。我们通过对分词过程进行全面的实证分析,量化了这种差异性,探究了不同文本数据分布下序列到令牌的压缩特性。我们的分析挑战了关于令牌长度的常见经验法则,发现这些法则过于简化。我们希望本研究能为当代大语言模型中的分词机制提供更清晰的认知与更直观的理解。

0
下载
关闭预览

相关内容

将一个汉字序列切分成一个一个单独的词
面向多模态智能的下一个Token预测:综述
专知会员服务
26+阅读 · 2024年12月30日
Transformer文本分类代码
专知会员服务
118+阅读 · 2020年2月3日
【综述论文】2020年最新深度学习自然语言处理进展综述论文!!!
深度学习自然语言处理
13+阅读 · 2020年4月6日
长文本表示学习概述
云栖社区
15+阅读 · 2019年5月9日
深度学习文本分类方法综述(代码)
中国人工智能学会
28+阅读 · 2018年6月16日
100+中文词向量,总有一款适合你
专知
12+阅读 · 2018年5月13日
文本分类实战: 机器学习vs深度学习算法对比(附代码)
机器学习研究会
35+阅读 · 2017年10月25日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
面向多模态智能的下一个Token预测:综述
专知会员服务
26+阅读 · 2024年12月30日
Transformer文本分类代码
专知会员服务
118+阅读 · 2020年2月3日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员