Cross-Lingual Transfer with Target Language-Ready Task Adapters

Adapters have emerged as a modular and parameter-efficient approach to (zero-shot) cross-lingual transfer. The established MAD-X framework employs separate language and task adapters which can be arbitrarily combined to perform the transfer of any task to any target language. Subsequently, BAD-X, an extension of the MAD-X framework, achieves improved transfer at the cost of MAD-X's modularity by creating "bilingual" adapters specific to the source-target language pair. In this work, we aim to take the best of both worlds by (i) fine-tuning task adapters adapted to the target language(s) (so-called "target language-ready" (TLR) adapters) to maintain high transfer performance, but (ii) without sacrificing the highly modular design of MAD-X. The main idea of "target language-ready" adapters is to resolve the training-vs-inference discrepancy of MAD-X: the task adapter "sees" the target language adapter for the very first time during inference, and thus might not be fully compatible with it. We address this mismatch by exposing the task adapter to the target language adapter during training, and empirically validate several variants of the idea: in the simplest form, we alternate between using the source and target language adapters during task adapter training, which can be generalized to cycling over any set of language adapters. We evaluate different TLR-based transfer configurations with varying degrees of generality across a suite of standard cross-lingual benchmarks, and find that the most general (and thus most modular) configuration consistently outperforms MAD-X and BAD-X on most tasks and languages.

翻译：适配器已作为一种模块化且参数高效的方法出现，用于（零样本）跨语言迁移。成熟的MAD-X框架采用独立的语言适配器和任务适配器，可任意组合以将任何任务迁移至任何目标语言。随后，作为MAD-X框架的扩展，BAD-X通过创建特定于源-目标语言对的“双语”适配器，以牺牲MAD-X的模块化为代价实现了改进的迁移性能。在本工作中，我们旨在取两者之长：（i）微调适配于目标语言的任务适配器（即所谓的“目标语言就绪”（TLR）适配器），以保持高迁移性能，同时（ii）不牺牲MAD-X的高度模块化设计。“目标语言就绪”适配器的主要思想是解决MAD-X训练与推理之间的不一致性：任务适配器在推理过程中首次“看到”目标语言适配器，因此可能与其不完全兼容。我们通过让任务适配器在训练期间暴露于目标语言适配器来解决这一不匹配问题，并实证验证了该思想的若干变体：在最简形式中，我们在任务适配器训练期间交替使用源语言适配器和目标语言适配器，这可以推广到对任意语言适配器集合进行循环训练。我们评估了不同TLR迁移配置（具有不同程度的通用性）在一系列标准跨语言基准上的表现，发现最通用（因此也最具模块化）的配置在大多数任务和语言上持续优于MAD-X和BAD-X。

相关内容

粤港澳大湾区数字经济研究院

关注 1

粤港澳大湾区数字经济研究院是一家面向人工智能、数字经济产业和前沿科技的国际化创新型研究机构，坐落于深圳市深港科技创新合作区内。IDEA正与 MSR、Google Brain、DeepMind、OpenAI 等同行者一起推动人类 AI 技术前沿的发展。IDEA 的使命是立足社会需求，研发颠覆式创新技术并回馈社会，让更多的人从数字经济发展中获益。IDEA 秉承共享共赢共生的开源开放精神，积极营造自由而富有激情的创新工作环境，聚集全世界最聪慧的大脑一起创造人类社会最需要的价值。我们坚持科技擎天，产业立地，相信最好的研究从需求中来，到需求中去，最终惠及广大企业和受众。 IDEA 目前已聚集一批包括院士、世界著名大学教授、世界知名开源系统发明人在内的国际一流技术专家，致力于在 AI 基础技术与开源系统、人工智能金融科技、区块链技术与可信计算、企业级 AI 系统、产业智能物联网与智能机器人等领域研发国际顶尖成果，并培育一批国际领先科技企业，带动深圳乃至大湾区万亿级数字经济产业发展。 AIPT（AI 平台技术研究中心）致力于建设支撑人工智能算法、算力和数据的平台，通过具体项目的研发、实施和部署来推进 AI 技术的落地和产业化，团队成立以来，已发布 ReadPaper 论文阅读平台、BIOS 医疗知识图谱两款产品。AIPT 负责人-谢育涛曾任微软公司技术合伙人兼微软（中国）操作系统工程院院长。谢育涛在微软公司工作 20 余年，先后在微软美国总部的 Microsoft Office 产品组、必应团队、微软亚洲互联网工程院以及微软（中国）操作系统工程院、人工智能和云计算等多个研发部门担任重要职务。他在操作系统、搜索技术、人工智能、应用及服务领域拥有丰富的技术与管理经验。

不可错过！《机器学习100讲》课程，UBC Mark Schmidt讲授

专知会员服务

76+阅读 · 2022年6月28日

ICLR 2022杰出论文公布：7篇论文获得，清华朱军课题组摘得

专知会员服务

60+阅读 · 2022年4月22日

专知会员服务

39+阅读 · 2020年11月3日

近期必读的6篇CVPR 2020【域自适应（Domain Adaptation）】相关论文和代码

专知会员服务

96+阅读 · 2020年3月24日

【跨语言BERT模型大集合】Transfer learning is increasingly going multilingual with language-specific BERT models