Text classification is the most fundamental and essential task in natural language processing. The last decade has seen a surge of research in this area due to the unprecedented success of deep learning. Numerous methods, datasets, and evaluation metrics have been proposed in the literature, raising the need for a comprehensive and updated survey. This paper fills the gap by reviewing the state-of-the-art approaches from 1961 to 2021, focusing on models from traditional models to deep learning. We create a taxonomy for text classification according to the text involved and the models used for feature extraction and classification. We then discuss each of these categories in detail, dealing with both the technical developments and benchmark datasets that support tests of predictions. A comprehensive comparison between different techniques, as well as identifying the pros and cons of various evaluation metrics are also provided in this survey. Finally, we conclude by summarizing key implications, future research directions, and the challenges facing the research area.


翻译:案文分类是自然语言处理的最根本和最基本的任务。过去十年,由于深层次学习取得前所未有的成功,这一领域的研究激增。文献中提出了许多方法、数据集和评价指标,提高了进行全面和更新调查的必要性。本文件通过审查1961年至2021年的最新方法填补了这一空白,重点是传统模式到深层次学习的模型。我们根据所涉文本和用于地物提取和分类的模型,为文本分类创建了分类系统。我们随后详细讨论了其中每一类,既涉及技术发展,又涉及支持预测测试的基准数据集。本次调查还全面比较了不同技术,并查明了各种评价指标的利弊。最后,我们总结了研究领域面临的主要影响、未来研究方向和挑战。

1
下载
关闭预览

相关内容

文本分类(Text Classification)任务是根据给定文档的内容或主题,自动分配预先定义的类别标签。
多标签学习的新趋势(2020 Survey)
专知会员服务
44+阅读 · 2020年12月6日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
97+阅读 · 2020年5月31日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
167+阅读 · 2020年3月18日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
92+阅读 · 2019年10月16日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
已删除
将门创投
4+阅读 · 2018年6月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
深度学习医学图像分析文献集
机器学习研究会
19+阅读 · 2017年10月13日
Arxiv
9+阅读 · 2021年10月5日
Arxiv
15+阅读 · 2021年8月5日
Arxiv
126+阅读 · 2020年9月6日
Learning from Few Samples: A Survey
Arxiv
77+阅读 · 2020年7月30日
Arxiv
6+阅读 · 2019年4月25日
Arxiv
53+阅读 · 2018年12月11日
Arxiv
5+阅读 · 2017年7月25日
VIP会员
最新内容
2025年大语言模型进展报告
专知会员服务
7+阅读 · 4月25日
多智能体协作机制
专知会员服务
7+阅读 · 4月25日
非对称优势:美海军开发低成本反无人机技术
专知会员服务
9+阅读 · 4月25日
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
8+阅读 · 4月25日
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
12+阅读 · 4月25日
【NTU博士论文】3D人体动作生成
专知会员服务
9+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
9+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
16+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
12+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
6+阅读 · 4月24日
相关VIP内容
多标签学习的新趋势(2020 Survey)
专知会员服务
44+阅读 · 2020年12月6日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
97+阅读 · 2020年5月31日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
167+阅读 · 2020年3月18日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
92+阅读 · 2019年10月16日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
相关资讯
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
已删除
将门创投
4+阅读 · 2018年6月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
深度学习医学图像分析文献集
机器学习研究会
19+阅读 · 2017年10月13日
相关论文
Arxiv
9+阅读 · 2021年10月5日
Arxiv
15+阅读 · 2021年8月5日
Arxiv
126+阅读 · 2020年9月6日
Learning from Few Samples: A Survey
Arxiv
77+阅读 · 2020年7月30日
Arxiv
6+阅读 · 2019年4月25日
Arxiv
53+阅读 · 2018年12月11日
Arxiv
5+阅读 · 2017年7月25日
Top
微信扫码咨询专知VIP会员