Towards Token-Level Text Anomaly Detection - 专知论文

会员服务 ·

0

词元 · 异常检测 · 垃圾邮件过滤 · 假新闻检测 · 新闻 ·

Towards Token-Level Text Anomaly Detection

翻译：面向词元级文本异常检测

Yang Cao,Bicheng Yu,Sikun Yang,Ming Liu,Yujiu Yang

from arxiv, WWW 2026

Despite significant progress in text anomaly detection for web applications such as spam filtering and fake news detection, existing methods are fundamentally limited to document-level analysis, unable to identify which specific parts of a text are anomalous. We introduce token-level anomaly detection, a novel paradigm that enables fine-grained localization of anomalies within text. We formally define text anomalies at both document and token-levels, and propose a unified detection framework that operates across multiple levels. To facilitate research in this direction, we collect and annotate three benchmark datasets spanning spam, reviews and grammar errors with token-level labels. Experimental results demonstrate that our framework get better performance than other 6 baselines, opening new possibilities for precise anomaly localization in text. All the codes and data are publicly available on https://github.com/charles-cao/TokenCore.

翻译：尽管在垃圾邮件过滤和虚假新闻检测等网络应用的文本异常检测方面取得了显著进展，但现有方法从根本上局限于文档级分析，无法识别文本中哪些具体部分存在异常。我们引入了词元级异常检测这一新范式，它能够在文本内部实现细粒度的异常定位。我们正式定义了文档级和词元级的文本异常，并提出了一个跨多层级运行的统一检测框架。为了促进这一方向的研究，我们收集并标注了三个涵盖垃圾邮件、评论和语法错误的基准数据集，并提供了词元级标签。实验结果表明，我们的框架相比其他6个基线方法取得了更优的性能，为文本中的精确异常定位开辟了新的可能性。所有代码和数据均已公开在 https://github.com/charles-cao/TokenCore。

0

相关内容

【新书】异常检测 Python，562页pdf

【新书】异常检测 Python，562页pdf

专知会员服务

44+阅读 · 2024年12月27日

【NeurIPS2023】朝向自解释的图级异常检测

【NeurIPS2023】朝向自解释的图级异常检测

专知会员服务

30+阅读 · 2023年10月26日

《基于高斯混合流和入包的异常检测》2023最新57页论文

《基于高斯混合流和入包的异常检测》2023最新57页论文

专知会员服务

29+阅读 · 2023年5月15日

生成式对抗网络异常检测，GANs for Anomaly Detection

专知会员服务

34+阅读 · 2021年9月16日

【ICML2021】基于迁移的语义异常检测

专知会员服务

17+阅读 · 2021年9月8日

【WSDM2021-Ttutorial】深度学习异常检测，111页ppt

【WSDM2021-Ttutorial】深度学习异常检测，111页ppt

专知会员服务

154+阅读 · 2021年3月10日

面向图的异常检测研究综述

专知会员服务

111+阅读 · 2020年10月27日

【KDD2020-Tutorial】深度学习异常检测，180页ppt

专知会员服务

109+阅读 · 2020年8月28日

【雪城大学】深度学习中的异常实例检测:综述论文，Anomalous Instance Detection

【雪城大学】深度学习中的异常实例检测:综述论文，Anomalous Instance Detection

专知会员服务

87+阅读 · 2020年3月17日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知会员服务

219+阅读 · 2019年10月18日

GNN如何异常检测？首篇《图神经网络异常检测》综述来啦

GNN如何异常检测？首篇《图神经网络异常检测》综述来啦

图与推荐

12+阅读 · 2022年10月11日

异常检测（Anomaly Detection）综述

异常检测（Anomaly Detection）综述

极市平台

20+阅读 · 2020年10月24日

【KDD2020-Tutorial】深度学习异常检测，180页ppt

【KDD2020-Tutorial】深度学习异常检测，180页ppt

专知

49+阅读 · 2020年8月28日

异常检测怎么做，试试孤立随机森林算法（附代码）

异常检测怎么做，试试孤立随机森林算法（附代码）

机器之心

16+阅读 · 2020年3月15日

异常检测论文大列表：方法、应用、综述

异常检测论文大列表：方法、应用、综述

专知

126+阅读 · 2019年7月15日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知

137+阅读 · 2019年1月14日

异常检测的阈值，你怎么选？给你整理好了...

异常检测的阈值，你怎么选？给你整理好了...

机器学习算法与Python学习

10+阅读 · 2018年9月19日

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

大数据文摘

19+阅读 · 2018年4月29日

动手写机器学习算法：异常检测 Anomaly Detection

动手写机器学习算法：异常检测 Anomaly Detection

七月在线实验室

11+阅读 · 2017年12月8日

侦测欺诈交易（异常点检测）

侦测欺诈交易（异常点检测）

GBASE数据工程部数据团队

20+阅读 · 2017年5月10日

云计算环境中面向内容的密文检索关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

面向应用商店的移动智能终端恶意软件检测关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于视觉上下文与文字显著性的复杂自然场景中文字检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

社交网络级联数据流异常检测模型研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向微博数据的位置相关事件检测和时空异常聚类模式挖掘研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

高维混合数据异常知识发现的粒计算模型关键问题研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

Defect-aware Hybrid Prompt Optimization via Progressive Tuning for Zero-Shot Multi-type Anomaly Detection and Segmentation

Arxiv

0+阅读 · 2月11日

Interpretable Graph-Level Anomaly Detection via Contrast with Normal Prototypes

Arxiv

0+阅读 · 2月11日

Enhancing Weakly Supervised Multimodal Video Anomaly Detection through Text Guidance

Arxiv

0+阅读 · 2月11日

CausalTAD: Injecting Causal Knowledge into Large Language Models for Tabular Anomaly Detection

Arxiv

0+阅读 · 2月8日

KRONE: Hierarchical and Modular Log Anomaly Detection

Arxiv

0+阅读 · 2月7日

Calibrating Tabular Anomaly Detection via Optimal Transport

Arxiv

0+阅读 · 2月6日

When Anomalies Depend on Context: Learning Conditional Compatibility for Anomaly Detection

Arxiv

0+阅读 · 1月30日

A Multi-directional Meta-Learning Framework for Class-Generalizable Anomaly Detection

Arxiv

0+阅读 · 1月27日

Beyond a Single Perspective: Text Anomaly Detection with Multi-View Language Representations

Arxiv

0+阅读 · 1月25日

PatchEAD: Unifying Industrial Visual Prompting Frameworks for Patch-Exclusive Anomaly Detection

Arxiv

0+阅读 · 1月22日

VIP会员

文章信息

相关主题

垃圾邮件过滤

假新闻检测

最新内容

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

11+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

6+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

6+阅读 · 7月19日

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

7+阅读 · 7月19日

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

10+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

8+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

13+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

8+阅读 · 7月18日

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

10+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

10+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

6+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

5+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

8+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

6+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

7+阅读 · 7月17日

相关VIP内容

【新书】异常检测 Python，562页pdf

【新书】异常检测 Python，562页pdf

专知会员服务

44+阅读 · 2024年12月27日

【NeurIPS2023】朝向自解释的图级异常检测

【NeurIPS2023】朝向自解释的图级异常检测

专知会员服务

30+阅读 · 2023年10月26日

《基于高斯混合流和入包的异常检测》2023最新57页论文

《基于高斯混合流和入包的异常检测》2023最新57页论文

专知会员服务

29+阅读 · 2023年5月15日

生成式对抗网络异常检测，GANs for Anomaly Detection

专知会员服务

34+阅读 · 2021年9月16日

【ICML2021】基于迁移的语义异常检测

专知会员服务

17+阅读 · 2021年9月8日

【WSDM2021-Ttutorial】深度学习异常检测，111页ppt

【WSDM2021-Ttutorial】深度学习异常检测，111页ppt

专知会员服务

154+阅读 · 2021年3月10日

面向图的异常检测研究综述

专知会员服务

111+阅读 · 2020年10月27日

【KDD2020-Tutorial】深度学习异常检测，180页ppt

专知会员服务

109+阅读 · 2020年8月28日

【雪城大学】深度学习中的异常实例检测:综述论文，Anomalous Instance Detection

【雪城大学】深度学习中的异常实例检测:综述论文，Anomalous Instance Detection

专知会员服务

87+阅读 · 2020年3月17日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知会员服务

219+阅读 · 2019年10月18日

热门VIP内容

开通专知VIP会员享更多权益服务

锻造未来士兵：外骨骼、基因工程与赛博格

《无人机蜂群通信技术研究》50页

深入Project Maven：为何人工智能在战场上依然失灵

《无人机系统（UAS）通信网状网络试验性部署》50页报告

相关资讯

GNN如何异常检测？首篇《图神经网络异常检测》综述来啦

GNN如何异常检测？首篇《图神经网络异常检测》综述来啦

图与推荐

12+阅读 · 2022年10月11日

异常检测（Anomaly Detection）综述

异常检测（Anomaly Detection）综述

极市平台

20+阅读 · 2020年10月24日

【KDD2020-Tutorial】深度学习异常检测，180页ppt

【KDD2020-Tutorial】深度学习异常检测，180页ppt

专知

49+阅读 · 2020年8月28日

异常检测怎么做，试试孤立随机森林算法（附代码）

异常检测怎么做，试试孤立随机森林算法（附代码）

机器之心

16+阅读 · 2020年3月15日

异常检测论文大列表：方法、应用、综述

异常检测论文大列表：方法、应用、综述

专知

126+阅读 · 2019年7月15日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知

137+阅读 · 2019年1月14日

异常检测的阈值，你怎么选？给你整理好了...

异常检测的阈值，你怎么选？给你整理好了...

机器学习算法与Python学习

10+阅读 · 2018年9月19日

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

大数据文摘

19+阅读 · 2018年4月29日

动手写机器学习算法：异常检测 Anomaly Detection

动手写机器学习算法：异常检测 Anomaly Detection

七月在线实验室

11+阅读 · 2017年12月8日

侦测欺诈交易（异常点检测）

侦测欺诈交易（异常点检测）

GBASE数据工程部数据团队

20+阅读 · 2017年5月10日

相关论文

Defect-aware Hybrid Prompt Optimization via Progressive Tuning for Zero-Shot Multi-type Anomaly Detection and Segmentation

Arxiv

0+阅读 · 2月11日

Interpretable Graph-Level Anomaly Detection via Contrast with Normal Prototypes

Arxiv

0+阅读 · 2月11日

Enhancing Weakly Supervised Multimodal Video Anomaly Detection through Text Guidance

Arxiv

0+阅读 · 2月11日

CausalTAD: Injecting Causal Knowledge into Large Language Models for Tabular Anomaly Detection

Arxiv

0+阅读 · 2月8日

KRONE: Hierarchical and Modular Log Anomaly Detection

Arxiv

0+阅读 · 2月7日

Calibrating Tabular Anomaly Detection via Optimal Transport

Arxiv

0+阅读 · 2月6日

When Anomalies Depend on Context: Learning Conditional Compatibility for Anomaly Detection

Arxiv

0+阅读 · 1月30日

A Multi-directional Meta-Learning Framework for Class-Generalizable Anomaly Detection

Arxiv

0+阅读 · 1月27日

Beyond a Single Perspective: Text Anomaly Detection with Multi-View Language Representations

Arxiv

0+阅读 · 1月25日

PatchEAD: Unifying Industrial Visual Prompting Frameworks for Patch-Exclusive Anomaly Detection

Arxiv

0+阅读 · 1月22日

相关基金

云计算环境中面向内容的密文检索关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

面向应用商店的移动智能终端恶意软件检测关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于视觉上下文与文字显著性的复杂自然场景中文字检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

社交网络级联数据流异常检测模型研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向微博数据的位置相关事件检测和时空异常聚类模式挖掘研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

高维混合数据异常知识发现的粒计算模型关键问题研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员