Machine learning models often fail under distribution shifts, a problem exacerbated in low-resource settings where limited data restricts robust generalization. Domain generalization(DG) methods address this challenge by learning representations that remain invariant across domains, frequently leveraging causal principles. In this work, we study two causal DG approaches for low-resource natural language processing. First, we apply causal data augmentation using GPT-4o-mini to generate counterfactual paraphrases for sentiment classification on the NaijaSenti Twitter corpus in Yoruba and Igbo. Second, we investigate invariant causal representation learning with the Debiasing in Aspect Review (DINER) framework for aspect-based sentiment analysis. We extend DINER to a multilingual setting by introducing Afri-SemEval, a dataset of 17 languages translated from SemEval-2014 Task. Experiments show improved robustness to unseen domains, with consistent gains from counterfactual augmentation and enhanced out-of-distribution performance from causal representation learning across multiple languages.


翻译:机器学习模型在分布偏移下常常失效,这一问题在低资源场景中尤为突出,因为有限的数据限制了模型的鲁棒泛化能力。领域泛化方法通过学习跨领域保持不变的表示来应对这一挑战,通常借助因果原理。本研究探讨了两种面向低资源自然语言处理的因果领域泛化方法。首先,我们利用GPT-4o-mini进行因果数据增强,为约鲁巴语和伊博语的NaijaSenti推特语料库情感分类任务生成反事实释义样本。其次,我们基于Debiasing in Aspect Review框架研究不变因果表示学习,并将其应用于方面级情感分析任务。通过引入Afri-SemEval数据集(包含从SemEval-2014任务翻译的17种语言),我们将DINER框架扩展至多语言场景。实验表明:反事实增强能持续提升模型对未见领域的鲁棒性,而因果表示学习则在跨多种语言的任务中显著增强了分布外泛化性能。

0
下载
关闭预览

相关内容

【阿姆斯特丹博士论文】在测试时学习泛化
专知会员服务
13+阅读 · 2025年7月16日
【伯克利博士论文】学习跨领域的可迁移表示
专知会员服务
47+阅读 · 2022年8月17日
【NeurIPS2021】学习用于分布外预测的因果语义表示
专知会员服务
18+阅读 · 2021年11月19日
专知会员服务
42+阅读 · 2021年8月12日
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
迁移自适应学习最新综述,附21页论文下载
基于Keras进行迁移学习
论智
12+阅读 · 2018年5月6日
迁移学习之Domain Adaptation
全球人工智能
18+阅读 · 2018年4月11日
【迁移学习】迁移学习在图像分类中的简单应用策略
迁移学习在深度学习中的应用
专知
24+阅读 · 2017年12月24日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
VIP会员
最新内容
《新兴技术武器化及其对全球风险的影响》
专知会员服务
7+阅读 · 4月29日
《帕兰泰尔平台介绍:信息分析平台》
专知会员服务
18+阅读 · 4月29日
智能体化世界建模:基础、能力、规律及展望
专知会员服务
11+阅读 · 4月28日
相关VIP内容
【阿姆斯特丹博士论文】在测试时学习泛化
专知会员服务
13+阅读 · 2025年7月16日
【伯克利博士论文】学习跨领域的可迁移表示
专知会员服务
47+阅读 · 2022年8月17日
【NeurIPS2021】学习用于分布外预测的因果语义表示
专知会员服务
18+阅读 · 2021年11月19日
专知会员服务
42+阅读 · 2021年8月12日
相关资讯
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员