This paper proposes a method to optimize tokenization for the performance improvement of already trained downstream models. Our method generates tokenization results attaining lower loss values of a given downstream model on the training data for restricting vocabularies and trains a tokenizer reproducing the tokenization results. Therefore, our method can be applied to variety of tokenization methods, while existing work cannot due to the simultaneous learning of the tokenizer and the downstream model. This paper proposes an example of the BiLSTM-based tokenizer with vocabulary restriction, which can capture wider contextual information for the tokenization process than non-neural-based tokenization methods used in existing work. Experimental results on text classification in Japanese, Chinese, and English text classification tasks show that the proposed method improves performance compared to the existing methods for tokenization optimization.


翻译:注:英文专有名词未做翻译,直接保留原文。

0
下载
关闭预览

相关内容

【ICCV2021】多层次对比学习的跨模态检索方法
专知会员服务
23+阅读 · 2021年10月24日
知识增强预训练语言模型:全面综述
专知会员服务
97+阅读 · 2021年10月19日
专知会员服务
30+阅读 · 2021年6月15日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
NLG任务评价指标BLEU与ROUGE
AINLP
21+阅读 · 2020年5月25日
基于PyTorch/TorchText的自然语言处理库
专知
28+阅读 · 2019年4月22日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
20+阅读 · 2017年12月17日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年6月5日
An Overview on Machine Translation Evaluation
Arxiv
14+阅读 · 2022年2月22日
Arxiv
19+阅读 · 2021年4月8日
Arxiv
20+阅读 · 2020年6月8日
VIP会员
最新内容
“Maven计划”的发展演变之“Maven智能系统”应用
《无人机革命:来自俄乌战场的启示》(报告)
专知会员服务
4+阅读 · 今天6:48
《实现联合作战能力所需的技术》58页报告
专知会员服务
2+阅读 · 今天6:30
以色列运用人工智能优化空袭警报系统
专知会员服务
3+阅读 · 今天6:20
以色列在多条战线部署AI智能体
专知会员服务
4+阅读 · 今天6:12
2025年大语言模型进展报告
专知会员服务
16+阅读 · 4月25日
多智能体协作机制
专知会员服务
14+阅读 · 4月25日
非对称优势:美海军开发低成本反无人机技术
专知会员服务
9+阅读 · 4月25日
相关基金
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员