We present Algerian Dialect, a large-scale sentiment-annotated dataset consisting of 45,000 YouTube comments written in Algerian Arabic dialect. The comments were collected from more than 30 Algerian press and media channels using the YouTube Data API. Each comment is manually annotated into one of five sentiment categories: very negative, negative, neutral, positive, and very positive. In addition to sentiment labels, the dataset includes rich metadata such as collection timestamps, like counts, video URLs, and annotation dates. This dataset addresses the scarcity of publicly available resources for Algerian dialect and aims to support research in sentiment analysis, dialectal Arabic NLP, and social media analytics. The dataset is publicly available on Mendeley Data under a CC BY 4.0 license at https://doi.org/10.17632/zzwg3nnhsz.2.


翻译:本文介绍了阿尔及利亚方言数据集,这是一个包含45,000条阿尔及利亚阿拉伯语方言YouTube评论的大规模情感标注数据集。评论通过YouTube Data API从30多个阿尔及利亚新闻及媒体频道收集。每条评论均被人工标注为五类情感类别之一:极度负面、负面、中性、正面、极度正面。除情感标签外,数据集还包含丰富的元数据,如采集时间戳、点赞数、视频URL及标注日期。该数据集旨在缓解阿尔及利亚方言公开资源的稀缺现状,以支持情感分析、方言阿拉伯语自然语言处理及社交媒体分析等领域的研究。数据集遵循CC BY 4.0许可协议,已在Mendeley Data平台公开,访问地址为https://doi.org/10.17632/zzwg3nnhsz.2。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
大型语言模型(LLMs),附Slides与视频
专知会员服务
70+阅读 · 2024年6月30日
【LREC2022教程】自然语言处理统一意义表示学习,113页ppt
专知会员服务
23+阅读 · 2021年2月6日
【NeurIPS2019】图变换网络:Graph Transformer Network
基于PyTorch/TorchText的自然语言处理库
专知
28+阅读 · 2019年4月22日
Seq2seq强化,Pointer Network简介
机器学习算法与Python学习
15+阅读 · 2018年12月8日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关资讯
【NeurIPS2019】图变换网络:Graph Transformer Network
基于PyTorch/TorchText的自然语言处理库
专知
28+阅读 · 2019年4月22日
Seq2seq强化,Pointer Network简介
机器学习算法与Python学习
15+阅读 · 2018年12月8日
相关基金
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员