Despite significant progress in text anomaly detection for web applications such as spam filtering and fake news detection, existing methods are fundamentally limited to document-level analysis, unable to identify which specific parts of a text are anomalous. We introduce token-level anomaly detection, a novel paradigm that enables fine-grained localization of anomalies within text. We formally define text anomalies at both document and token-levels, and propose a unified detection framework that operates across multiple levels. To facilitate research in this direction, we collect and annotate three benchmark datasets spanning spam, reviews and grammar errors with token-level labels. Experimental results demonstrate that our framework get better performance than other 6 baselines, opening new possibilities for precise anomaly localization in text. All the codes and data are publicly available on https://github.com/charles-cao/TokenCore.


翻译:尽管在垃圾邮件过滤和虚假新闻检测等网络应用的文本异常检测方面取得了显著进展,但现有方法从根本上局限于文档级分析,无法识别文本中哪些具体部分存在异常。我们引入了词元级异常检测这一新范式,它能够在文本内部实现细粒度的异常定位。我们正式定义了文档级和词元级的文本异常,并提出了一个跨多层级运行的统一检测框架。为了促进这一方向的研究,我们收集并标注了三个涵盖垃圾邮件、评论和语法错误的基准数据集,并提供了词元级标签。实验结果表明,我们的框架相比其他6个基线方法取得了更优的性能,为文本中的精确异常定位开辟了新的可能性。所有代码和数据均已公开在 https://github.com/charles-cao/TokenCore。

0
下载
关闭预览

相关内容

【新书】异常检测 Python,562页pdf
专知会员服务
44+阅读 · 2024年12月27日
【NeurIPS2023】朝向自解释的图级异常检测
专知会员服务
30+阅读 · 2023年10月26日
《基于高斯混合流和入包的异常检测》2023最新57页论文
专知会员服务
28+阅读 · 2023年5月15日
专知会员服务
34+阅读 · 2021年9月16日
专知会员服务
17+阅读 · 2021年9月8日
【WSDM2021-Ttutorial】深度学习异常检测,111页ppt
专知会员服务
154+阅读 · 2021年3月10日
专知会员服务
110+阅读 · 2020年10月27日
专知会员服务
109+阅读 · 2020年8月28日
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
异常检测论文大列表:方法、应用、综述
专知
126+阅读 · 2019年7月15日
异常检测的阈值,你怎么选?给你整理好了...
机器学习算法与Python学习
10+阅读 · 2018年9月19日
动手写机器学习算法:异常检测 Anomaly Detection
七月在线实验室
11+阅读 · 2017年12月8日
侦测欺诈交易(异常点检测)
GBASE数据工程部数据团队
20+阅读 · 2017年5月10日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【新书】异常检测 Python,562页pdf
专知会员服务
44+阅读 · 2024年12月27日
【NeurIPS2023】朝向自解释的图级异常检测
专知会员服务
30+阅读 · 2023年10月26日
《基于高斯混合流和入包的异常检测》2023最新57页论文
专知会员服务
28+阅读 · 2023年5月15日
专知会员服务
34+阅读 · 2021年9月16日
专知会员服务
17+阅读 · 2021年9月8日
【WSDM2021-Ttutorial】深度学习异常检测,111页ppt
专知会员服务
154+阅读 · 2021年3月10日
专知会员服务
110+阅读 · 2020年10月27日
专知会员服务
109+阅读 · 2020年8月28日
相关资讯
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
异常检测论文大列表:方法、应用、综述
专知
126+阅读 · 2019年7月15日
异常检测的阈值,你怎么选?给你整理好了...
机器学习算法与Python学习
10+阅读 · 2018年9月19日
动手写机器学习算法:异常检测 Anomaly Detection
七月在线实验室
11+阅读 · 2017年12月8日
侦测欺诈交易(异常点检测)
GBASE数据工程部数据团队
20+阅读 · 2017年5月10日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员