The Arabic language has undergone notable transformations over time, including the emergence of new vocabulary, the obsolescence of others, and shifts in word usage. This evolution is evident in the distinction between the classical and modern Arabic eras. Although historians and linguists have partitioned Arabic literature into multiple eras, relatively little research has explored the automatic classification of Arabic texts by time period, particularly beyond the domain of poetry. This paper addresses this gap by employing neural networks and deep learning techniques to automatically classify Arabic texts into distinct eras and periods. The proposed models are evaluated using two datasets derived from two publicly available corpora, covering texts from the pre-Islamic to the modern era. The study examines class setups ranging from binary to 15-class classification and considers both predefined historical eras and custom periodizations. Results range from F1-scores of 0.83 and 0.79 on the binary-era classification task using the OpenITI and APCD datasets, respectively, to 0.20 on the 15-era classification task using OpenITI and 0.18 on the 12-era classification task using APCD.


翻译:阿拉伯语历经显著演变,包括新词汇的出现、旧词汇的淘汰以及词语用法的变迁。这种演化在古典阿拉伯语与现代阿拉伯语时期的差异中尤为明显。尽管历史学家和语言学家已将阿拉伯文献划分为多个历史时期,但针对阿拉伯文本(尤其是诗歌以外领域)按时代进行自动分类的研究相对匮乏。本文通过运用神经网络与深度学习技术,填补了这一研究空白,实现了阿拉伯文本向不同历史时期与阶段的自动分类。研究采用源自两个公开语料库的数据集对提出的模型进行评估,所涵盖文本从伊斯兰前时期延伸至现代。本研究考察了从二分类到十五分类的类别设置,并同时考虑了预定义的历史分期与自定义时期划分方案。实验结果显示:在二分类任务中,基于OpenITI和APCD数据集的F1分数分别达到0.83和0.79;而在多分类任务中,基于OpenITI的十五分类任务F1分数为0.20,基于APCD的十二分类任务F1分数为0.18。

0
下载
关闭预览

相关内容

基于深度学习的中文文本分类综述
专知会员服务
25+阅读 · 2024年5月9日
斯坦福《序列处理的深度学习架构》概述,31页pdf
专知会员服务
56+阅读 · 2021年1月3日
【Haute-Alsace博士论文】深度学习时序分类,175页pdf
专知会员服务
103+阅读 · 2020年10月4日
【资源】元学习论文分类列表推荐
专知
19+阅读 · 2019年12月3日
专栏 | NLP概述和文本自动分类算法详解
机器之心
12+阅读 · 2018年7月24日
深度学习文本分类方法综述(代码)
中国人工智能学会
28+阅读 · 2018年6月16日
机器学习自动文本分类
AI前线
23+阅读 · 2018年2月4日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
VIP会员
相关VIP内容
基于深度学习的中文文本分类综述
专知会员服务
25+阅读 · 2024年5月9日
斯坦福《序列处理的深度学习架构》概述,31页pdf
专知会员服务
56+阅读 · 2021年1月3日
【Haute-Alsace博士论文】深度学习时序分类,175页pdf
专知会员服务
103+阅读 · 2020年10月4日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员