Building effective tokenizers for multilingual Large Language Models (LLMs) requires careful control over language-specific data mixtures. While a tokenizer's compression performance critically affects the efficiency of LLM training and inference, existing approaches rely on heuristics or costly large-scale searches to determine optimal language ratios. We introduce Tokenizer Regression for Optimal Data MiXture (TREX), a regression-based framework that efficiently predicts the optimal data mixture for tokenizer training. TREX trains small-scale proxy tokenizers on random mixtures, gathers their compression statistics, and learns to predict compression performance from data mixtures. This learned model enables scalable mixture search before large-scale tokenizer training, mitigating the accuracy-cost trade-off in multilingual tokenizer design. Tokenizers trained with TReX's predicted mixtures outperform mixtures based on LLaMA3 and uniform distributions by up to 12% in both inand out-of-distribution compression efficiency, demonstrating strong scalability, robustness, and practical effectiveness.


翻译:为多语言大语言模型构建高效的分词器需要精确控制语言特定的数据混合比例。虽然分词器的压缩性能直接影响大语言模型训练和推理的效率,但现有方法依赖于启发式规则或代价高昂的大规模搜索来确定最优语言比例。本文提出基于分词器回归的最优数据混合方法,这是一种基于回归的框架,能够高效预测分词器训练的最优数据混合比例。该方法通过在随机混合数据上训练小规模代理分词器,收集其压缩统计数据,并学习从数据混合比例预测压缩性能。习得的模型可在进行大规模分词器训练前实现可扩展的混合比例搜索,从而缓解多语言分词器设计中准确性与成本之间的权衡。使用TReX预测的混合比例训练的分词器,在分布内和分布外压缩效率上均优于基于LLaMA3和均匀分布的混合方法,最高提升达12%,展现出强大的可扩展性、鲁棒性和实际有效性。

0
下载
关闭预览

相关内容

将一个汉字序列切分成一个一个单独的词
《混合专家模型推理优化技术综述》
专知会员服务
45+阅读 · 2024年12月21日
《大语言模型的数据合成与增强综述》
专知会员服务
43+阅读 · 2024年10月19日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
深度学习文本分类方法综述(代码)
中国人工智能学会
28+阅读 · 2018年6月16日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
相关VIP内容
《混合专家模型推理优化技术综述》
专知会员服务
45+阅读 · 2024年12月21日
《大语言模型的数据合成与增强综述》
专知会员服务
43+阅读 · 2024年10月19日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员