Recently, more and more research has focused on addressing bias in text classification models. However, existing research mainly focuses on the fairness of monolingual text classification models, and research on fairness for multilingual text classification is still very limited. In this paper, we focus on the task of multilingual text classification and propose a debiasing framework for multilingual text classification based on contrastive learning. Our proposed method does not rely on any external language resources and can be extended to any other languages. The model contains four modules: multilingual text representation module, language fusion module, text debiasing module, and text classification module. The multilingual text representation module uses a multilingual pre-trained language model to represent the text, the language fusion module makes the semantic spaces of different languages tend to be consistent through contrastive learning, and the text debiasing module uses contrastive learning to make the model unable to identify sensitive attributes' information. The text classification module completes the basic tasks of multilingual text classification. In addition, the existing research on the fairness of multilingual text classification is relatively simple in the evaluation mode. The evaluation method of fairness is the same as the monolingual equality difference evaluation method, that is, the evaluation is performed on a single language. We propose a multi-dimensional fairness evaluation framework for multilingual text classification, which evaluates the model's monolingual equality difference, multilingual equality difference, multilingual equality performance difference, and destructiveness of the fairness strategy. We hope that our work can provide a more general debiasing method and a more comprehensive evaluation framework for multilingual text fairness tasks.


翻译:近年来,越来越多的研究聚焦于解决文本分类模型中的偏差问题。然而,现有研究主要关注单语言文本分类模型的公平性,针对多语言文本分类公平性的研究仍十分有限。本文聚焦多语言文本分类任务,提出了一种基于对比学习的多语言文本分类去偏框架。所提出的方法不依赖任何外部语言资源,可扩展至其他语言。该模型包含四个模块:多语言文本表示模块、语言融合模块、文本去偏模块和文本分类模块。多语言文本表示模块使用多语言预训练语言模型表示文本,语言融合模块通过对比学习使不同语言的语义空间趋于一致,文本去偏模块利用对比学习使模型无法识别敏感属性信息,文本分类模块完成多语言文本分类的基础任务。此外,现有关于多语言文本分类公平性的研究在评估模式上较为单一,其公平性评估方法与单语言平等差异评估方法相同,即仅在单一语言上进行评估。本文提出了一种面向多语言文本分类的多维公平性评估框架,评估模型的单语言平等差异、多语言平等差异、多语言平等性能差异以及公平策略的破坏性。我们期望本研究能为多语言文本公平性任务提供更通用的去偏方法和更全面的评估框架。

0
下载
关闭预览

相关内容

文本分类(Text Classification)任务是根据给定文档的内容或主题,自动分配预先定义的类别标签。
【COMPTEXT2022教程】跨语言监督文本分类,41页ppt
专知会员服务
18+阅读 · 2022年6月14日
【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
39+阅读 · 2020年11月20日
GNN 新基准!Long Range Graph Benchmark
图与推荐
0+阅读 · 2022年10月18日
IJCAI 2022 | 使用陈述句进行视觉问答的Prompt Tuning
NAACL 2022 | 机器翻译SOTA模型的蒸馏
PaperWeekly
1+阅读 · 2022年6月28日
NLP不同任务Tensorflow深度学习模型大全
专知
10+阅读 · 2019年3月19日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月17日
Interpretable CNNs for Object Classification
Arxiv
20+阅读 · 2020年3月12日
Arxiv
26+阅读 · 2018年2月27日
VIP会员
最新内容
消耗优势:美军的“精确规模化”概念
专知会员服务
7+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
8+阅读 · 6月15日
俄乌战场地面机器人如何改写战争规则
专知会员服务
9+阅读 · 6月14日
《无人水面艇文献综述与结构设计》135页
专知会员服务
16+阅读 · 6月13日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员