Large pre-trained models have revolutionized natural language processing (NLP) research and applications, but high training costs and limited data resources have prevented their benefits from being shared equally amongst speakers of all the world's languages. To address issues of cross-linguistic access to such models and reduce energy consumption for sustainability during large-scale model training, this study proposes an effective and energy-efficient framework called GreenPLM that uses bilingual lexicons to directly "translate" pre-trained language models of one language into another at almost no additional cost. We validate this approach in 18 languages' BERT models and show that this framework is comparable to, if not better than, other heuristics with high training costs. In addition, given lightweight continued pre-training on limited data where available, this framework outperforms the original monolingual language models in six out of seven tested languages with up to 200x less pre-training efforts. Aiming at the Leave No One Behind Principle (LNOB), our approach manages to reduce inequalities between languages and energy consumption greatly. We make our codes and models publicly available here: \url{https://github.com/qcznlp/GreenPLMs}


翻译:大型预训练模型彻底改变了自然语言处理(NLP)的研究与应用,但高昂的训练成本和有限的数据资源阻碍了全球各语言使用者平等分享其益处。为解决此类模型的跨语言访问问题,并在大规模模型训练过程中降低能耗以实现可持续性,本研究提出了一种高效节能的框架——GreenPLM,该框架利用双语词典将某种语言的预训练语言模型直接“翻译”为另一种语言,且几乎无需额外成本。我们在18种语言的BERT模型上验证了该方法,结果表明该框架与其它高成本启发式方法相当甚至更优。此外,在有限数据条件下进行轻量级持续预训练后,该框架在7种测试语言中的6种上优于原始单语语言模型,且预训练工作量降低高达200倍。秉持“不让任何人掉队”原则(LNOB),我们的方法显著减少了语言间的不平等现象并大幅降低了能耗。相关代码与模型已在此公开:\url{https://github.com/qcznlp/GreenPLMs}

0
下载
关闭预览

相关内容

自然语言处理顶会NAACL2022最佳论文出炉!
专知会员服务
43+阅读 · 2022年6月30日
专知会员服务
26+阅读 · 2021年4月2日
专知会员服务
41+阅读 · 2020年9月6日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
167+阅读 · 2020年3月18日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
105+阅读 · 2019年10月9日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
LibRec 精选:推荐系统的常用数据集
LibRec智能推荐
17+阅读 · 2019年2月15日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
25+阅读 · 2023年6月23日
Arxiv
21+阅读 · 2021年12月31日
Arxiv
13+阅读 · 2019年2月28日
VIP会员
最新内容
马赛克战:俄乌战场透析
专知会员服务
0+阅读 · 26分钟前
《利用人工智能增强军事决策》
专知会员服务
0+阅读 · 29分钟前
《自动机器学习在军事数据耕耘法中的应用》
专知会员服务
0+阅读 · 36分钟前
为何指挥所生存能力要求范式转变
专知会员服务
0+阅读 · 44分钟前
“蛛网”行动一周年:远程无人机战争
专知会员服务
0+阅读 · 今天3:23
【剑桥博士论文】智能体-环境协同优化
专知会员服务
5+阅读 · 6月9日
为初级军官战术训练设计生成式人工智能平台
专知会员服务
7+阅读 · 6月9日
《美军条令:作战伤员后送保障》
专知会员服务
5+阅读 · 6月9日
相关VIP内容
相关资讯
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
LibRec 精选:推荐系统的常用数据集
LibRec智能推荐
17+阅读 · 2019年2月15日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员