NLLog: Lightweight, Explainable SOC Anomaly Detection via Log-to-Language Rewriting - 专知论文

会员服务 ·

0

HDFS · 覆盖 · 异常检测 · Automator · Analysis ·

NLLog: Lightweight, Explainable SOC Anomaly Detection via Log-to-Language Rewriting

翻译：NLLog: 通过日志到语言重写实现轻量级、可解释的SOC异常检测

Samuel Ndichu,Tao Ban,Seiichi Ozawa,Takeshi Takahashi,Daisuke Inoue

from arxiv, 15 pages, 11 figures, 12 tables; submitted to ACSAC 2026

System-generated logs underpin security monitoring, yet their rigid template-based format hinders both automated analysis and human comprehension. We present NLLog (Natural-Language Log), a lightweight pipeline that deterministically rewrites parsed templates into WHO-WHAT-SEVERITY sentences, pools them with term-frequency-inverse-document-frequency weighting, classifies sessions with tree ensembles, and back-projects evidence with TreeSHAP for analyst review. On Hadoop Distributed File System (HDFS) and Blue Gene/L (BGL) corpora, NLLog exceeds two reproduced matched-protocol baselines; across HDFS, BGL, and the AIT Alert Data Set, it sustains low false-positive rates with commodity-hardware latency suitable for security operations center triage. Coverage, sparse-versus-dense, faithfulness, and adversarial ablations show that fallback sufficiency is corpus-dependent, that an enrollment-time coverage check can surface refinement requirements before deployment, and that an auditable deterministic rewrite combined with lightweight dense encoding provides a measurable representation layer for log-anomaly detection and triage.

翻译：系统生成的日志支撑着安全监控，但其僵化的基于模板的格式既阻碍了自动化分析，也妨碍了人类理解。本文提出NLLog（自然语言日志）——一种轻量级流水线，它确定性地将解析后的模板重写为“谁-做了什么-严重程度”句式，通过词频-逆文档频率加权对其进行池化，使用树集成对会话进行分类，并通过TreeSHAP反向投影证据供分析师审查。在Hadoop分布式文件系统（HDFS）和Blue Gene/L（BGL）语料库上，NLLog超越了两种复现的匹配协议基线；在HDFS、BGL及AIT告警数据集上，它以适合安全运营中心分诊的商用硬件延迟维持了较低的误报率。覆盖率、稀疏与密集、保真度及对抗性消融实验表明：回退充分性依赖于语料库，注册时的覆盖率检查可在部署前揭示细化需求，且可审计的确定性重写结合轻量级密集编码为日志异常检测与分诊提供了可衡量的表示层。

0

相关内容

HDFS

Hadoop分布式文件系统(HDFS),是Apache Hadoop Core项目的一部分

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

专知会员服务

55+阅读 · 2024年7月24日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

百度北京大学发布首篇《自然语言生成保真性》综述论文，52页pdf系统性阐述NLG分析、评价和优化方法

百度北京大学发布首篇《自然语言生成保真性》综述论文，52页pdf系统性阐述NLG分析、评价和优化方法

专知会员服务

28+阅读 · 2022年3月11日

【百度&北京大学】自然语言生成的保真性:分析、评价和优化方法的系统综述，Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods

【百度&北京大学】自然语言生成的保真性:分析、评价和优化方法的系统综述，Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods

专知会员服务

15+阅读 · 2022年3月11日

中山大学&清华发布《自然语言生成》综述论文，36页pdf阐述20年NLG进展

中山大学&清华发布《自然语言生成》综述论文，36页pdf阐述20年NLG进展

专知会员服务

58+阅读 · 2021年12月27日

复旦大学邱锡鹏等《自然语言处理范式迁移综述》论文，详述7大NLP范式：分类、匹配、SeqLab, MRC, Seq2Seq等

专知会员服务

54+阅读 · 2021年9月29日

万字综述，GNN在NLP中的应用，建议收藏慢慢看

万字综述，GNN在NLP中的应用，建议收藏慢慢看

专知会员服务

59+阅读 · 2021年6月22日

【微软雷德蒙研究院】小样本自然语言生成，Few-shot Natural Language Generation for Task-Oriented Dialog

【微软雷德蒙研究院】小样本自然语言生成，Few-shot Natural Language Generation for Task-Oriented Dialog

专知会员服务

33+阅读 · 2020年2月29日

【ECML-PKDD 2019】多维时间序列和事件日志的模式挖掘和异常检测框架（A framework for pattern mining and anomalydetection in multi-dimensional time series andevent logs）

【ECML-PKDD 2019】多维时间序列和事件日志的模式挖掘和异常检测框架（A framework for pattern mining and anomalydetection in multi-dimensional time series andevent logs）

专知会员服务

38+阅读 · 2019年12月1日

基于图的word2vec负采样( GNEG:Graph-Based Negative Sampling for word2vec)

基于图的word2vec负采样( GNEG:Graph-Based Negative Sampling for word2vec)

专知会员服务

40+阅读 · 2019年11月23日

GNN如何异常检测？首篇《图神经网络异常检测》综述来啦

GNN如何异常检测？首篇《图神经网络异常检测》综述来啦

图与推荐

11+阅读 · 2022年10月11日

Facebook 自然语言处理新突破：新模型能力赶超人类 & 超难 NLP 新基准

Facebook 自然语言处理新突破：新模型能力赶超人类 & 超难 NLP 新基准

AI科技评论

10+阅读 · 2019年9月17日

【Github】nlp-tutorial：TensorFlow 和 PyTorch 实现各种NLP模型

【Github】nlp-tutorial：TensorFlow 和 PyTorch 实现各种NLP模型

AINLP

14+阅读 · 2019年9月4日

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

AINLP

11+阅读 · 2019年8月11日

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

AI100

33+阅读 · 2019年3月16日

博客 | 总结+paper分享|对话系统中的自然语言生成技术（NLG）

博客 | 总结+paper分享|对话系统中的自然语言生成技术（NLG）

AI研习社

16+阅读 · 2018年12月4日

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

中国人工智能学会

12+阅读 · 2018年11月15日

NLG ≠ 机器写作 | 专家专栏

NLG ≠ 机器写作 | 专家专栏

量子位

13+阅读 · 2018年9月10日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

用Rasa NLU构建自己的中文NLU系统

用Rasa NLU构建自己的中文NLU系统

待字闺中

18+阅读 · 2017年9月18日

支持可扩展事务处理的数据库日志机制及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

社交网络级联数据流异常检测模型研究

国家自然科学基金

4+阅读 · 2015年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

集核酸纯化、多病原体LAMP反应及在线检测为一体的床旁检测芯片研制

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

Verified Detection and Prevention of Concurrency Anomalies in Multi-Agent Large Language Model Systems

Arxiv

0+阅读 · 6月15日

CHILLGuard: Towards Fine-Grained Chinese LLM Safety Guardrail with Scalable Data Construction and Model-aware Preference Alignment

Arxiv

0+阅读 · 6月13日

Sentinel: Decoding Context Utilization via Attention Probing for Efficient LLM Context Compression

Arxiv

0+阅读 · 6月12日

Energy-Efficient On-Device RAG on a Mobile NPU: System Design and Benchmark on Snapdragon X Elite

Arxiv

0+阅读 · 6月9日

RAVEN: Retrieval-Augmented Vulnerability Exploration Network for Memory Corruption Analysis in User Code and Binary Programs

Arxiv

0+阅读 · 6月5日

Revisiting Vul-RAG: Reproducibility and Replicability of RAG-based Vulnerability Detection with Open-Weight Models

Arxiv

0+阅读 · 6月3日

Cascading Hallucination in Agentic RAG: The CHARM Framework for Detection and Mitigation

Arxiv

0+阅读 · 6月3日

CelerLog: Fast Log Parsing via Dynamic Routing

Arxiv

0+阅读 · 5月25日

LogRouter: Adaptive Two-Level LLM Routing for Log Question Answering in Big Data Systems

Arxiv

0+阅读 · 5月18日

NL2SQLBench: A Modular Benchmarking Framework for LLM-Enabled NL2SQL Solutions

Arxiv

0+阅读 · 4月13日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

1+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

3+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

5+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

6+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

9+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

6+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

9+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

13+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

8+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

10+阅读 · 6月17日

相关VIP内容

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

专知会员服务

55+阅读 · 2024年7月24日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

百度北京大学发布首篇《自然语言生成保真性》综述论文，52页pdf系统性阐述NLG分析、评价和优化方法

百度北京大学发布首篇《自然语言生成保真性》综述论文，52页pdf系统性阐述NLG分析、评价和优化方法

专知会员服务

28+阅读 · 2022年3月11日

【百度&北京大学】自然语言生成的保真性:分析、评价和优化方法的系统综述，Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods

【百度&北京大学】自然语言生成的保真性:分析、评价和优化方法的系统综述，Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods

专知会员服务

15+阅读 · 2022年3月11日

中山大学&清华发布《自然语言生成》综述论文，36页pdf阐述20年NLG进展

中山大学&清华发布《自然语言生成》综述论文，36页pdf阐述20年NLG进展

专知会员服务

58+阅读 · 2021年12月27日

复旦大学邱锡鹏等《自然语言处理范式迁移综述》论文，详述7大NLP范式：分类、匹配、SeqLab, MRC, Seq2Seq等

专知会员服务

54+阅读 · 2021年9月29日

万字综述，GNN在NLP中的应用，建议收藏慢慢看

万字综述，GNN在NLP中的应用，建议收藏慢慢看

专知会员服务

59+阅读 · 2021年6月22日

【微软雷德蒙研究院】小样本自然语言生成，Few-shot Natural Language Generation for Task-Oriented Dialog

【微软雷德蒙研究院】小样本自然语言生成，Few-shot Natural Language Generation for Task-Oriented Dialog

专知会员服务

33+阅读 · 2020年2月29日

【ECML-PKDD 2019】多维时间序列和事件日志的模式挖掘和异常检测框架（A framework for pattern mining and anomalydetection in multi-dimensional time series andevent logs）

【ECML-PKDD 2019】多维时间序列和事件日志的模式挖掘和异常检测框架（A framework for pattern mining and anomalydetection in multi-dimensional time series andevent logs）

专知会员服务

38+阅读 · 2019年12月1日

基于图的word2vec负采样( GNEG:Graph-Based Negative Sampling for word2vec)

基于图的word2vec负采样( GNEG:Graph-Based Negative Sampling for word2vec)

专知会员服务

40+阅读 · 2019年11月23日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

GNN如何异常检测？首篇《图神经网络异常检测》综述来啦

GNN如何异常检测？首篇《图神经网络异常检测》综述来啦

图与推荐

11+阅读 · 2022年10月11日

Facebook 自然语言处理新突破：新模型能力赶超人类 & 超难 NLP 新基准

Facebook 自然语言处理新突破：新模型能力赶超人类 & 超难 NLP 新基准

AI科技评论

10+阅读 · 2019年9月17日

【Github】nlp-tutorial：TensorFlow 和 PyTorch 实现各种NLP模型

【Github】nlp-tutorial：TensorFlow 和 PyTorch 实现各种NLP模型

AINLP

14+阅读 · 2019年9月4日

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

AINLP

11+阅读 · 2019年8月11日

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

AI100

33+阅读 · 2019年3月16日

博客 | 总结+paper分享|对话系统中的自然语言生成技术（NLG）

博客 | 总结+paper分享|对话系统中的自然语言生成技术（NLG）

AI研习社

16+阅读 · 2018年12月4日

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

中国人工智能学会

12+阅读 · 2018年11月15日

NLG ≠ 机器写作 | 专家专栏

NLG ≠ 机器写作 | 专家专栏

量子位

13+阅读 · 2018年9月10日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

用Rasa NLU构建自己的中文NLU系统

用Rasa NLU构建自己的中文NLU系统

待字闺中

18+阅读 · 2017年9月18日

相关论文

Verified Detection and Prevention of Concurrency Anomalies in Multi-Agent Large Language Model Systems

Arxiv

0+阅读 · 6月15日

CHILLGuard: Towards Fine-Grained Chinese LLM Safety Guardrail with Scalable Data Construction and Model-aware Preference Alignment

Arxiv

0+阅读 · 6月13日

Sentinel: Decoding Context Utilization via Attention Probing for Efficient LLM Context Compression

Arxiv

0+阅读 · 6月12日

Energy-Efficient On-Device RAG on a Mobile NPU: System Design and Benchmark on Snapdragon X Elite

Arxiv

0+阅读 · 6月9日

RAVEN: Retrieval-Augmented Vulnerability Exploration Network for Memory Corruption Analysis in User Code and Binary Programs

Arxiv

0+阅读 · 6月5日

Revisiting Vul-RAG: Reproducibility and Replicability of RAG-based Vulnerability Detection with Open-Weight Models

Arxiv

0+阅读 · 6月3日

Cascading Hallucination in Agentic RAG: The CHARM Framework for Detection and Mitigation

Arxiv

0+阅读 · 6月3日

CelerLog: Fast Log Parsing via Dynamic Routing

Arxiv

0+阅读 · 5月25日

LogRouter: Adaptive Two-Level LLM Routing for Log Question Answering in Big Data Systems

Arxiv

0+阅读 · 5月18日

NL2SQLBench: A Modular Benchmarking Framework for LLM-Enabled NL2SQL Solutions

Arxiv

0+阅读 · 4月13日

相关基金

支持可扩展事务处理的数据库日志机制及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

社交网络级联数据流异常检测模型研究

国家自然科学基金

4+阅读 · 2015年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

集核酸纯化、多病原体LAMP反应及在线检测为一体的床旁检测芯片研制

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员