Today, Social networks such as Twitter are the most widely used platforms for communication of people. Analyzing this data has useful information to recognize the opinion of people in tweets. Sentiment analysis plays a vital role in NLP, which identifies the opinion of the individuals about a specific topic. Natural language processing in Persian has many challenges despite the adventure of strong language models. The datasets available in Persian are generally in special topics such as products, foods, hotels, etc while users may use ironies, colloquial phrases in social media To overcome these challenges, there is a necessity for having a dataset of Persian sentiment analysis on Twitter. In this paper, we introduce the Exa sentiment analysis Persian dataset, which is collected from Persian tweets. This dataset contains 12,000 tweets, annotated by 5 native Persian taggers. The aforementioned data is labeled in 3 classes: positive, neutral and negative. We present the characteristics and statistics of this dataset and use the pre-trained Pars Bert and Roberta as the base model to evaluate this dataset. Our evaluation reached a 79.87 Macro F-score, which shows the model and data can be adequately valuable for a sentiment analysis system.


翻译:如今,推特等社交网络已成为人们最广泛使用的交流平台。分析此类数据对于识别用户在推文中的观点具有重要价值。情感分析作为自然语言处理(NLP)的关键任务,旨在识别个体针对特定主题所持的观点。尽管强大的语言模型不断涌现,波斯语的自然语言处理仍面临诸多挑战。现有的波斯语数据集通常局限于特定领域(如产品、食品、酒店等),而社交媒体用户常使用反讽、口语化表达等方式。为应对这些挑战,构建一个基于推特平台的波斯语情感分析数据集显得尤为必要。本文介绍了从波斯语推文收集构建的Exa情感分析波斯语数据集。该数据集包含12,000条推文,由5名波斯语母语标注者进行人工标注。数据标注采用三类情感标签:积极、中立与消极。我们详细阐述了该数据集的特征与统计信息,并基于预训练的Pars Bert和Roberta模型进行基准评估。实验结果显示,该数据集在宏观F值上达到79.87分,表明该模型与数据集能为情感分析系统提供充分有效的支持。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
情感推荐系统综述:面向个性化的态度、情绪与情境建模
《大型语言模型情感认知》最新进展
专知会员服务
43+阅读 · 2024年10月3日
 【中科院信工所】社交媒体情感分析,40页ppt
专知会员服务
104+阅读 · 2019年12月13日
【资源推荐】情感分析资源列表
专知
31+阅读 · 2019年3月20日
Twitter情感分析及其可视化
数据挖掘入门与实战
22+阅读 · 2018年3月20日
就喜欢看综述论文:情感分析中的深度学习
机器之心
13+阅读 · 2018年1月26日
情感分析的新方法,使用word2vec对微博文本进行情感分析和分类
数据挖掘入门与实战
22+阅读 · 2018年1月6日
独家 | 为什么要利用NLP做情感分析?
数盟
13+阅读 · 2017年12月20日
深度学习在情感分析中的应用
CSDN大数据
14+阅读 · 2017年8月22日
现代情感分析方法
Python开发者
13+阅读 · 2017年7月9日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月22日
Arxiv
0+阅读 · 3月17日
Arxiv
12+阅读 · 2023年5月31日
VIP会员
最新内容
【ICML 2026】面向视野外操作的VLA空间记忆框架SOMA
专知会员服务
0+阅读 · 今天16:23
安杜里尔与Meta研发军用智能眼镜的内幕
专知会员服务
5+阅读 · 今天8:47
超越步调威胁:整合人工智能以加速指挥决策
专知会员服务
5+阅读 · 今天8:08
Nature三连发AI自主科学发现论文
专知会员服务
7+阅读 · 5月21日
安杜里尔与人工智能驱动防务的崛起
专知会员服务
14+阅读 · 5月21日
《Palantir平台:FOUNDRY与AIP服务定义文档》
专知会员服务
15+阅读 · 5月21日
2025年科学计算行业发展研究报告
专知会员服务
9+阅读 · 5月20日
相关VIP内容
情感推荐系统综述:面向个性化的态度、情绪与情境建模
《大型语言模型情感认知》最新进展
专知会员服务
43+阅读 · 2024年10月3日
 【中科院信工所】社交媒体情感分析,40页ppt
专知会员服务
104+阅读 · 2019年12月13日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员