LogCopilot: Automating Log Aggregation Analysis through Large Language Models - 专知论文

会员服务 ·

0

分析 · 系统 · 知识 · 自动化 · 语言模型 ·

LogCopilot: Automating Log Aggregation Analysis through Large Language Models

翻译：LogCopilot：通过大语言模型自动进行日志聚合分析

Senyu Xie,Chenxi Zhang,Tong Zhou,Jiacheng Liu,Xiaoyu Hong,Qingshan Li,Xin Peng

Logs record the runtime behavior of software and are widely used in various tasks such as debugging, testing, and fault diagnosis. With the increase in system size and complexity, log analysis has gradually become a challenging task. Current industrial systems typically use log aggregation systems such as Grafana Loki and ELK to simplify the log collection and analysis process. Engineers write queries using the DSL query language provided by these systems can complete a variety of log analysis tasks. However, writing these queries is often time-consuming and labor-intensive, as it requires engineers to have a thorough understanding of the DSL syntax and the detailed information contained in the logs. To address these challenges, this paper proposes LogCopilot, an automated log aggregation analysis framework based on large language models (LLMs). LogCopilot accepts natural language log analysis instructions and accomplishes automated log analysis through knowledge retrieval and tool calling. LogCopilot constructs a hierarchical knowledge base to represent and provide key knowledge in logs. And it achieves automated log aggregation analysis by generating and executing LogQL queries. The evaluation based on four log datasets confirm the effectiveness of LogCopilot, which achieves an average accuracy of 76.8% and outperforms baseline approaches. Moreover, experiment results shows that LogCopilot is effective in LogQL query generation.

翻译：日志记录了软件在运行时的行为，广泛应用于调试、测试和故障诊断等各项任务中。随着系统规模与复杂性的增加，日志分析逐渐成为一项具有挑战性的任务。当前工业系统通常采用如Grafana Loki和ELK等日志聚合系统来简化日志的收集与分析过程。工程师利用这些系统提供的DSL查询语言编写查询，可完成多种日志分析任务。然而，编写这些查询往往耗时且费力，因为这要求工程师充分掌握DSL语法以及日志中包含的细节信息。为应对这些挑战，本文提出了LogCopilot——一种基于大语言模型（LLM）的自动化日志聚合分析框架。LogCopilot接收自然语言的日志分析指令，并通过知识检索与工具调用来实现自动化日志分析。LogCopilot构建了分层知识库以表征并提供日志中的关键知识，并通过生成与执行LogQL查询来实现自动化的日志聚合分析。基于四个日志数据集的评估证实了LogCopilot的有效性，其平均准确率达到76.8%，优于基线方法。此外，实验结果表明，LogCopilot在LogQL查询生成方面表现出色。

0

相关内容

【KDD2024】LogParser-LLM：利用大型语言模型推动高效日志解析

【KDD2024】LogParser-LLM：利用大型语言模型推动高效日志解析

专知会员服务

27+阅读 · 2024年9月5日

《使用大语言模型（LLM）对安全作战中心的威胁情报分析工作流程实现自动化》

《使用大语言模型（LLM）对安全作战中心的威胁情报分析工作流程实现自动化》

专知会员服务

34+阅读 · 2024年8月2日

大模型如何利用数据？北大华为等最新《大型语言模型的数据管理》综述

大模型如何利用数据？北大华为等最新《大型语言模型的数据管理》综述

专知会员服务

99+阅读 · 2023年12月6日

情报分析《微调多语言模型以剪切自动事件数据》2023最新73页论文

情报分析《微调多语言模型以剪切自动事件数据》2023最新73页论文

专知会员服务

47+阅读 · 2023年8月27日

【干货书】基于统计和机器学习的实用时间序列分析预测，Practical Time Series Analysis Prediction with Statistics & Machine Learning

【干货书】基于统计和机器学习的实用时间序列分析预测，Practical Time Series Analysis Prediction with Statistics & Machine Learning

专知会员服务

144+阅读 · 2022年4月8日

大规模时间序列分析框架的研究与实现，计算机学报

大规模时间序列分析框架的研究与实现，计算机学报

专知会员服务

59+阅读 · 2020年7月13日

【深度学习表格检测、信息提取和结构化】《Table Detection, Information Extraction and Structuring using Deep Learning》by Vihar Kurama

专知会员服务

38+阅读 · 2020年1月23日

【ECML-PKDD 2019】多维时间序列和事件日志的模式挖掘和异常检测框架（A framework for pattern mining and anomalydetection in multi-dimensional time series andevent logs）

【ECML-PKDD 2019】多维时间序列和事件日志的模式挖掘和异常检测框架（A framework for pattern mining and anomalydetection in multi-dimensional time series andevent logs）

专知会员服务

38+阅读 · 2019年12月1日

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

专知会员服务

42+阅读 · 2019年11月21日

【O'Reilly AI Conference 2019】部署大规模分布式数据（How to deploy large-scale distributed data analytics and machine learning on containers (sponsored by HPE))，HPE BlueData，Thomas Phelan

【O'Reilly AI Conference 2019】部署大规模分布式数据（How to deploy large-scale distributed data analytics and machine learning on containers (sponsored by HPE))，HPE BlueData，Thomas Phelan

专知会员服务

19+阅读 · 2019年11月5日

【干货书】基于统计和机器学习的实用时间序列分析预测，Time Series Analysis Prediction

【干货书】基于统计和机器学习的实用时间序列分析预测，Time Series Analysis Prediction

专知

18+阅读 · 2022年4月9日

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

专知

41+阅读 · 2019年11月2日

最全中文自然语言处理数据集、平台和工具整理

最全中文自然语言处理数据集、平台和工具整理

深度学习与NLP

34+阅读 · 2019年6月22日

【综述】《视频目标分割与跟踪》最新39页综述论文，带你了解视频分析进展

【综述】《视频目标分割与跟踪》最新39页综述论文，带你了解视频分析进展

专知

54+阅读 · 2019年4月24日

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

人工智能前沿讲习班

144+阅读 · 2019年3月15日

【知识图谱】基于知识图谱的用户画像技术

【知识图谱】基于知识图谱的用户画像技术

产业智能官

103+阅读 · 2019年1月9日

【大数据】海量数据分析能力形成和大数据关键技术

【大数据】海量数据分析能力形成和大数据关键技术

产业智能官

17+阅读 · 2018年10月29日

机器学习自动文本分类

机器学习自动文本分类

AI前线

23+阅读 · 2018年2月4日

NLP中自动生产文摘（auto text summarization）

NLP中自动生产文摘（auto text summarization）

机器学习研究会

14+阅读 · 2017年10月10日

知识提取的一种应用，从上市公司年报中抽取因果关系

知识提取的一种应用，从上市公司年报中抽取因果关系

文因互联

10+阅读 · 2017年7月7日

云计算环境下面向大数据的在线聚集并行优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

支持可扩展事务处理的数据库日志机制及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

面向社会化媒体异构大数据的快速组合聚类研究

国家自然科学基金

1+阅读 · 2014年12月31日

行为轨迹数据高性能时空聚类及社会分析

国家自然科学基金

2+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

时间序列数据挖掘中的聚类模型与算法研究

国家自然科学基金

14+阅读 · 2008年12月31日

Towards LLM Accelerated Rapid Reviews for Software Tool Discovery -- Case for Log Anomaly Detection

Arxiv

0+阅读 · 6月15日

On Sequence-to-Sequence Models for Automated Log Parsing

Arxiv

0+阅读 · 6月11日

SearchLog: A Web Browser Extension for Capturing Search Logs in Laboratory Studies

Arxiv

0+阅读 · 6月3日

State Machine Guided Multi-Relational Synthetic Data from Logs for Anomaly Detection

Arxiv

0+阅读 · 5月30日

An Empirical Study on Logging Evolution On Stack Overflow: Trends, Topics, and Challenges

Arxiv

0+阅读 · 5月27日

LogDx-CI: Benchmarking Log Reduction Tools for LLM Root-Cause Diagnosis

Arxiv

0+阅读 · 5月26日

CelerLog: Fast Log Parsing via Dynamic Routing

Arxiv

0+阅读 · 5月25日

Leveraging Language Models for Log Statement Generation in Multilingual Scenarios: How Far Are We?

Arxiv

0+阅读 · 5月25日

The Log is the Agent: Event-Sourced Reactive Graphs for Auditable, Forkable Agentic Systems

Arxiv

0+阅读 · 5月21日

LogRouter: Adaptive Two-Level LLM Routing for Log Question Answering in Big Data Systems

Arxiv

0+阅读 · 5月18日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

3+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

5+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

7+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

10+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

11+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

15+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

8+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

10+阅读 · 6月17日

相关VIP内容

【KDD2024】LogParser-LLM：利用大型语言模型推动高效日志解析

【KDD2024】LogParser-LLM：利用大型语言模型推动高效日志解析

专知会员服务

27+阅读 · 2024年9月5日

《使用大语言模型（LLM）对安全作战中心的威胁情报分析工作流程实现自动化》

《使用大语言模型（LLM）对安全作战中心的威胁情报分析工作流程实现自动化》

专知会员服务

34+阅读 · 2024年8月2日

大模型如何利用数据？北大华为等最新《大型语言模型的数据管理》综述

大模型如何利用数据？北大华为等最新《大型语言模型的数据管理》综述

专知会员服务

99+阅读 · 2023年12月6日

情报分析《微调多语言模型以剪切自动事件数据》2023最新73页论文

情报分析《微调多语言模型以剪切自动事件数据》2023最新73页论文

专知会员服务

47+阅读 · 2023年8月27日

【干货书】基于统计和机器学习的实用时间序列分析预测，Practical Time Series Analysis Prediction with Statistics & Machine Learning

【干货书】基于统计和机器学习的实用时间序列分析预测，Practical Time Series Analysis Prediction with Statistics & Machine Learning

专知会员服务

144+阅读 · 2022年4月8日

大规模时间序列分析框架的研究与实现，计算机学报

大规模时间序列分析框架的研究与实现，计算机学报

专知会员服务

59+阅读 · 2020年7月13日

【深度学习表格检测、信息提取和结构化】《Table Detection, Information Extraction and Structuring using Deep Learning》by Vihar Kurama

专知会员服务

38+阅读 · 2020年1月23日

【ECML-PKDD 2019】多维时间序列和事件日志的模式挖掘和异常检测框架（A framework for pattern mining and anomalydetection in multi-dimensional time series andevent logs）

【ECML-PKDD 2019】多维时间序列和事件日志的模式挖掘和异常检测框架（A framework for pattern mining and anomalydetection in multi-dimensional time series andevent logs）

专知会员服务

38+阅读 · 2019年12月1日

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

专知会员服务

42+阅读 · 2019年11月21日

【O'Reilly AI Conference 2019】部署大规模分布式数据（How to deploy large-scale distributed data analytics and machine learning on containers (sponsored by HPE))，HPE BlueData，Thomas Phelan

【O'Reilly AI Conference 2019】部署大规模分布式数据（How to deploy large-scale distributed data analytics and machine learning on containers (sponsored by HPE))，HPE BlueData，Thomas Phelan

专知会员服务

19+阅读 · 2019年11月5日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

【干货书】基于统计和机器学习的实用时间序列分析预测，Time Series Analysis Prediction

【干货书】基于统计和机器学习的实用时间序列分析预测，Time Series Analysis Prediction

专知

18+阅读 · 2022年4月9日

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

专知

41+阅读 · 2019年11月2日

最全中文自然语言处理数据集、平台和工具整理

最全中文自然语言处理数据集、平台和工具整理

深度学习与NLP

34+阅读 · 2019年6月22日

【综述】《视频目标分割与跟踪》最新39页综述论文，带你了解视频分析进展

【综述】《视频目标分割与跟踪》最新39页综述论文，带你了解视频分析进展

专知

54+阅读 · 2019年4月24日

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

人工智能前沿讲习班

144+阅读 · 2019年3月15日

【知识图谱】基于知识图谱的用户画像技术

【知识图谱】基于知识图谱的用户画像技术

产业智能官

103+阅读 · 2019年1月9日

【大数据】海量数据分析能力形成和大数据关键技术

【大数据】海量数据分析能力形成和大数据关键技术

产业智能官

17+阅读 · 2018年10月29日

机器学习自动文本分类

机器学习自动文本分类

AI前线

23+阅读 · 2018年2月4日

NLP中自动生产文摘（auto text summarization）

NLP中自动生产文摘（auto text summarization）

机器学习研究会

14+阅读 · 2017年10月10日

知识提取的一种应用，从上市公司年报中抽取因果关系

知识提取的一种应用，从上市公司年报中抽取因果关系

文因互联

10+阅读 · 2017年7月7日

相关论文

Towards LLM Accelerated Rapid Reviews for Software Tool Discovery -- Case for Log Anomaly Detection

Arxiv

0+阅读 · 6月15日

On Sequence-to-Sequence Models for Automated Log Parsing

Arxiv

0+阅读 · 6月11日

SearchLog: A Web Browser Extension for Capturing Search Logs in Laboratory Studies

Arxiv

0+阅读 · 6月3日

State Machine Guided Multi-Relational Synthetic Data from Logs for Anomaly Detection

Arxiv

0+阅读 · 5月30日

An Empirical Study on Logging Evolution On Stack Overflow: Trends, Topics, and Challenges

Arxiv

0+阅读 · 5月27日

LogDx-CI: Benchmarking Log Reduction Tools for LLM Root-Cause Diagnosis

Arxiv

0+阅读 · 5月26日

CelerLog: Fast Log Parsing via Dynamic Routing

Arxiv

0+阅读 · 5月25日

Leveraging Language Models for Log Statement Generation in Multilingual Scenarios: How Far Are We?

Arxiv

0+阅读 · 5月25日

The Log is the Agent: Event-Sourced Reactive Graphs for Auditable, Forkable Agentic Systems

Arxiv

0+阅读 · 5月21日

LogRouter: Adaptive Two-Level LLM Routing for Log Question Answering in Big Data Systems

Arxiv

0+阅读 · 5月18日

相关基金

云计算环境下面向大数据的在线聚集并行优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

支持可扩展事务处理的数据库日志机制及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

面向社会化媒体异构大数据的快速组合聚类研究

国家自然科学基金

1+阅读 · 2014年12月31日

行为轨迹数据高性能时空聚类及社会分析

国家自然科学基金

2+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

时间序列数据挖掘中的聚类模型与算法研究

国家自然科学基金

14+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员