The concept of diversity has received increasing attention in natural language processing (NLP) in recent years. It became an advocated property of datasets and systems, and many measures are used to quantify it. However, it is often addressed in an ad hoc manner, with few explicit justifications of its endorsement and many cross-paper inconsistencies. There have been very few attempts to take a step back and understand the conceptualization of diversity in NLP. To address this fragmentation, we take inspiration from other scientific fields where the concept of diversity has been more thoroughly conceptualized. We build upon Stirling (2007), a unified framework adapted from ecology and economics, which distinguishes three dimensions of diversity: variety, balance, and disparity. We survey over 300 recent diversity-related papers from ACL Anthology and build an NLP-specific framework with 4 perspectives: why diversity is important, what diversity is measured on, where it is measured, and how. Our analysis increases comparability of approaches to diversity in NLP, reveals emerging trends and allows us to formulate recommendations for the field.


翻译:近年来,多样性概念在自然语言处理领域日益受到关注。它已成为数据集与系统建设中被倡导的重要属性,且已有多种度量方法用于其量化。然而,现有研究常以临时性方式处理多样性问题,鲜有对其支持理由的明确论证,且存在大量跨文献不一致现象。目前极少有研究尝试退一步思考,系统理解自然语言处理中多样性的概念化体系。为应对这种碎片化现状,我们借鉴了其他已对多样性概念进行更系统化理论构建的科学领域。基于Stirling(2007)从生态学与经济学领域引入的统一框架——该框架区分了多样性的三个维度:种类、均衡性与差异性,我们系统梳理了ACL Anthology中300余篇近年来的多样性相关文献,构建了包含四个维度的自然语言处理专用分析框架:为何需要多样性(动因)、对何种对象进行度量(对象)、在何种范畴内测量(范畴)以及如何度量(方法)。本分析增强了自然语言处理领域多样性研究方法的可比性,揭示了新兴趋势,并为该领域的发展提出了系统性建议。

0
下载
关闭预览

相关内容

大规模语言模型的个性化:综述
专知会员服务
43+阅读 · 2024年11月4日
多语言大型语言模型:资源、分类和前沿综述
专知会员服务
53+阅读 · 2024年4月9日
专知会员服务
44+阅读 · 2021年5月6日
多模态视觉语言表征学习研究综述
专知会员服务
195+阅读 · 2020年12月3日
深度学习自然语言处理综述,266篇参考文献
专知会员服务
231+阅读 · 2019年10月12日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
自然语言处理精品资料
人工智能前沿讲习班
14+阅读 · 2019年3月13日
自然语言处理常见数据集、论文最全整理分享
深度学习与NLP
11+阅读 · 2019年1月26日
自然语言处理(NLP)知识结构总结
AI100
51+阅读 · 2018年8月17日
清华发布《2018自然语言处理研究报告》
智能交通技术
17+阅读 · 2018年8月4日
从语言学到深度学习NLP,一文概述自然语言处理
人工智能学家
13+阅读 · 2018年1月28日
【NLP】十分钟快览自然语言处理学习总结
专知
17+阅读 · 2017年11月21日
Natural 自然语言处理(NLP)「全解析」
人工智能学家
14+阅读 · 2017年9月23日
NLP(自然语言处理)扫盲
大数据和云计算技术
20+阅读 · 2017年7月9日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
人工智能赋能无人机:俄乌战争(万字长文)
专知会员服务
4+阅读 · 今天6:56
国外海军作战管理系统与作战训练系统
专知会员服务
2+阅读 · 今天4:16
美军条令《海军陆战队规划流程(2026版)》
专知会员服务
9+阅读 · 今天3:36
《压缩式分布式交互仿真标准》120页
专知会员服务
4+阅读 · 今天3:21
《电子战数据交换模型研究报告》
专知会员服务
6+阅读 · 今天3:13
《基于Transformer的异常舰船导航识别与跟踪》80页
《低数据领域军事目标检测模型研究》
专知会员服务
6+阅读 · 今天2:37
【CMU博士论文】物理世界的视觉感知与深度理解
专知会员服务
10+阅读 · 4月22日
伊朗战争停火期间美军关键弹药状况分析
专知会员服务
8+阅读 · 4月22日
电子战革命:塑造战场的十年突破(2015–2025)
相关资讯
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
自然语言处理精品资料
人工智能前沿讲习班
14+阅读 · 2019年3月13日
自然语言处理常见数据集、论文最全整理分享
深度学习与NLP
11+阅读 · 2019年1月26日
自然语言处理(NLP)知识结构总结
AI100
51+阅读 · 2018年8月17日
清华发布《2018自然语言处理研究报告》
智能交通技术
17+阅读 · 2018年8月4日
从语言学到深度学习NLP,一文概述自然语言处理
人工智能学家
13+阅读 · 2018年1月28日
【NLP】十分钟快览自然语言处理学习总结
专知
17+阅读 · 2017年11月21日
Natural 自然语言处理(NLP)「全解析」
人工智能学家
14+阅读 · 2017年9月23日
NLP(自然语言处理)扫盲
大数据和云计算技术
20+阅读 · 2017年7月9日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员