Text anomaly detection (TAD) plays a critical role in various language-driven real-world applications, including harmful content moderation, phishing detection, and spam review filtering. While two-step "embedding-detector" TAD methods have shown state-of-the-art performance, their effectiveness is often limited by the use of a single embedding model and the lack of adaptability across diverse datasets and anomaly types. To address these limitations, we propose to exploit the embeddings from multiple pretrained language models and integrate them into $MCA^2$, a multi-view TAD framework. $MCA^2$ adopts a multi-view reconstruction model to effectively extract normal textual patterns from multiple embedding perspectives. To exploit inter-view complementarity, a contrastive collaboration module is designed to leverage and strengthen the interactions across different views. Moreover, an adaptive allocation module is developed to automatically assign the contribution weight of each view, thereby improving the adaptability to diverse datasets. Extensive experiments on 10 benchmark datasets verify the effectiveness of $MCA^2$ against strong baselines. The source code of $MCA^2$ is available at https://github.com/yankehan/MCA2.


翻译:文本异常检测(TAD)在多种语言驱动的现实应用中扮演着关键角色,包括有害内容审核、钓鱼检测和垃圾评论过滤。尽管两阶段的“嵌入-检测器”TAD方法已展现出最先进的性能,但其有效性常受限于使用单一嵌入模型以及缺乏跨不同数据集和异常类型的适应性。为应对这些局限性,我们提出利用多个预训练语言模型的嵌入,并将其集成到$MCA^2$——一个多视图TAD框架中。$MCA^2$采用多视图重构模型,以从多个嵌入视角有效提取正常文本模式。为利用视图间的互补性,设计了一个对比协作模块,以利用并加强不同视图间的交互。此外,开发了一个自适应分配模块,用于自动分配每个视图的贡献权重,从而提升对不同数据集的适应性。在10个基准数据集上的大量实验验证了$MCA^2$相较于强基线的有效性。$MCA^2$的源代码可在 https://github.com/yankehan/MCA2 获取。

0
下载
关闭预览

相关内容

深度图异常检测:综述与新视角
专知会员服务
14+阅读 · 2024年9月19日
基于深度学习的视频异常检测:综述
专知会员服务
26+阅读 · 2024年9月10日
专知会员服务
17+阅读 · 2021年9月8日
「图像视频深度异常检测」简明综述论文
专知会员服务
38+阅读 · 2021年3月8日
最新《深度学习视频异常检测》2020综述论文,21页pdf
专知会员服务
86+阅读 · 2020年9月30日
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
基于知识图谱的文本挖掘 - 超越文本挖掘
专知
40+阅读 · 2019年8月18日
异常检测论文大列表:方法、应用、综述
专知
126+阅读 · 2019年7月15日
基于机器学习的KPI自动化异常检测系统
运维帮
13+阅读 · 2017年8月16日
侦测欺诈交易(异常点检测)
GBASE数据工程部数据团队
20+阅读 · 2017年5月10日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月20日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员