This research introduces the first large-scale, well-balanced Persian social media text classification dataset, specifically designed to address the lack of comprehensive resources in this domain. The dataset comprises 36,000 posts across nine categories (Economic, Artistic, Sports, Political, Social, Health, Psychological, Historical, and Science & Technology), each containing 4,000 samples to ensure balanced class distribution. Data collection involved 60,000 raw posts from various Persian social media platforms, followed by rigorous preprocessing and hybrid annotation combining ChatGPT-based few-shot prompting with human verification. To mitigate class imbalance, we employed undersampling with semantic redundancy removal and advanced data augmentation strategies integrating lexical replacement and generative prompting. We benchmarked several models, including BiLSTM, XLM-RoBERTa (with LoRA and AdaLoRA adaptations), FaBERT, SBERT-based architectures, and the Persian-specific TookaBERT (Base and Large). Experimental results show that transformer-based models consistently outperform traditional neural networks, with TookaBERT-Large achieving the best performance (Precision: 0.9622, Recall: 0.9621, F1- score: 0.9621). Class-wise evaluation further confirms robust performance across all categories, though social and political texts exhibited slightly lower scores due to inherent ambiguity. This research presents a new high-quality dataset and provides comprehensive evaluations of cutting-edge models, establishing a solid foundation for further developments in Persian NLP, including trend analysis, social behavior modeling, and user classification. The dataset is publicly available to support future research endeavors.


翻译:本研究首次提出了一个大规模、均衡的波斯语社交媒体文本分类数据集,旨在解决该领域缺乏综合性资源的问题。该数据集包含九个类别(经济、艺术、体育、政治、社会、健康、心理、历史以及科学技术),共计36,000条帖子,每个类别包含4,000个样本,以确保类别分布的平衡。数据收集涉及从多个波斯语社交媒体平台获取的60,000条原始帖子,随后进行了严格的预处理以及结合基于ChatGPT的少样本提示与人工验证的混合标注。为缓解类别不平衡问题,我们采用了基于语义冗余消除的下采样方法,以及融合词汇替换与生成式提示的先进数据增强策略。我们对多种模型进行了基准测试,包括BiLSTM、XLM-RoBERTa(结合LoRA与AdaLoRA适配)、FaBERT、基于SBERT的架构以及波斯语专用的TookaBERT(Base版与Large版)。实验结果表明,基于Transformer的模型始终优于传统神经网络,其中TookaBERT-Large取得了最佳性能(精确率:0.9622,召回率:0.9621,F1分数:0.9621)。按类别评估进一步证实了模型在所有类别上的稳健性能,尽管社会与政治类文本因固有的模糊性而表现出略低的分数。本研究不仅提供了一个高质量的新数据集,还对前沿模型进行了全面评估,为波斯语自然语言处理的进一步发展(包括趋势分析、社会行为建模和用户分类)奠定了坚实基础。该数据集已公开提供,以支持未来的研究工作。

0
下载
关闭预览

相关内容

文本分类算法及其应用场景研究
专知会员服务
19+阅读 · 2024年7月31日
基于深度学习的中文文本分类综述
专知会员服务
25+阅读 · 2024年5月9日
【资源】元学习论文分类列表推荐
专知
19+阅读 · 2019年12月3日
下载 | 最全中文文本分类模型库,上手即用
机器学习算法与Python学习
31+阅读 · 2019年10月17日
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
一文教你如何处理不平衡数据集(附代码)
大数据文摘
12+阅读 · 2019年6月2日
非平衡数据集 focal loss 多类分类
AI研习社
33+阅读 · 2019年4月23日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
深度学习在文本分类中的应用
AI研习社
13+阅读 · 2018年1月7日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
《对信息环境分析实现人工智能预测冲突》96页
专知会员服务
3+阅读 · 今天9:59
《面向海军应用的无人机网络安全仿真环境》
专知会员服务
4+阅读 · 今天9:41
无人机与僵局:俄乌战争难以突破
专知会员服务
3+阅读 · 今天9:02
《控制对手感知:电子战愿景与赋能技术》
专知会员服务
5+阅读 · 今天8:51
自主、人工智能与可消耗集群时代的海军情报
专知会员服务
8+阅读 · 4月6日
“史诗狂怒行动”中的海军动态
专知会员服务
10+阅读 · 4月5日
相关VIP内容
文本分类算法及其应用场景研究
专知会员服务
19+阅读 · 2024年7月31日
基于深度学习的中文文本分类综述
专知会员服务
25+阅读 · 2024年5月9日
相关资讯
【资源】元学习论文分类列表推荐
专知
19+阅读 · 2019年12月3日
下载 | 最全中文文本分类模型库,上手即用
机器学习算法与Python学习
31+阅读 · 2019年10月17日
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
一文教你如何处理不平衡数据集(附代码)
大数据文摘
12+阅读 · 2019年6月2日
非平衡数据集 focal loss 多类分类
AI研习社
33+阅读 · 2019年4月23日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
深度学习在文本分类中的应用
AI研习社
13+阅读 · 2018年1月7日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员