Software systems generate massive unstructured logs that record execution behavior, failures, and interactions across components, yet existing log anomaly detection methods treat these logs primarily as flat sequences of templates, overlooking the relational execution structure that governs how events co-occur and evolve over time. We propose a framework that discovers this hidden structure by recovering an execution state machine directly from logs and inducing a corresponding multi-table relational schema connecting traces, events, states, transitions, and parameters. This discovered state machine serves as a generative prior to produce realistic multi-relational synthetic data that preserves structural, temporal, and process constraints while amplifying rare but valid execution behaviors. We assess the fidelity of the generated data through constraint validation, distributional similarity, and process-level metrics, and demonstrate its usefulness by showing that augmenting real logs with the synthetic relational data significantly improves anomaly and bug detection on held-out real datasets compared to sequence-based baselines and naive oversampling. Our results show that execution logs implicitly encode a relational database governed by a latent state machine, and that recovering this structure enables principled synthetic data generation for robust and interpretable anomaly detection.


翻译:软件系统生成记录执行行为、故障及组件间交互的海量非结构化日志,然而现有日志异常检测方法将这些日志主要视为模板的扁平序列,忽略了支配事件共现与时序演化的关系型执行结构。我们提出一个框架,通过直接从日志中恢复执行状态机并推导出连接轨迹、事件、状态、转移和参数的多表关系模式,来发现这一隐藏结构。该发现的状态机作为生成先验,在保留结构、时序和流程约束的同时,生成逼真的多关系合成数据,并增强罕见但合法的执行行为。我们通过约束验证、分布相似性和流程级指标评估生成数据的保真度,并证明其效用:与基于序列的基线及朴素过采样方法相比,用合成关系数据增强真实日志可显著提升保留真实数据集上的异常和缺陷检测性能。研究结果表明,执行日志隐式编码了由潜在状态机支配的关系型数据库,恢复该结构能够为鲁棒且可解释的异常检测生成规范的合成数据。

0
下载
关闭预览

相关内容

多模态数据的行为识别综述
专知会员服务
88+阅读 · 2022年11月30日
深度学习在时间序列异常检测中的应用综述
专知会员服务
110+阅读 · 2022年11月11日
基于图注意力机制和Transformer的异常检测
专知会员服务
62+阅读 · 2022年5月16日
专知会员服务
34+阅读 · 2021年9月16日
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
异常检测论文大列表:方法、应用、综述
专知
126+阅读 · 2019年7月15日
时序异常检测算法概览
论智
29+阅读 · 2018年8月30日
动手写机器学习算法:异常检测 Anomaly Detection
七月在线实验室
11+阅读 · 2017年12月8日
基于机器学习的KPI自动化异常检测系统
运维帮
13+阅读 · 2017年8月16日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月13日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 24分钟前
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 26分钟前
美以伊冲突:无人机与人工智能的运用
专知会员服务
2+阅读 · 38分钟前
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 58分钟前
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
多模态数据的行为识别综述
专知会员服务
88+阅读 · 2022年11月30日
深度学习在时间序列异常检测中的应用综述
专知会员服务
110+阅读 · 2022年11月11日
基于图注意力机制和Transformer的异常检测
专知会员服务
62+阅读 · 2022年5月16日
专知会员服务
34+阅读 · 2021年9月16日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员