Execution traces are a critical source of information for understanding, debugging, and optimizing complex software systems. However, traces from OS kernels or large-scale applications like Chrome or MySQL are massive and difficult to analyze. Existing tools rely on predefined analyses, and custom insights often require writing domain-specific scripts, which is an error-prone and time-consuming task. This paper introduces TAAF (Trace Abstraction and Analysis Framework), a novel approach that combines time-indexing, knowledge graphs (KGs), and large language models (LLMs) to transform raw trace data into actionable insights. TAAF constructs a time-indexed KG from trace events to capture relationships among entities such as threads, CPUs, and system resources. An LLM then interprets query-specific subgraphs to answer natural-language questions, reducing the need for manual inspection and deep system expertise. To evaluate TAAF, we introduce TraceQA-100, a benchmark of 100 questions grounded in real kernel traces. Experiments across three LLMs and multiple temporal settings show that TAAF improves answer accuracy by up to 31.2%, particularly in multi-hop and causal reasoning tasks. We further analyze where graph-grounded reasoning helps and where limitations remain, offering a foundation for next-generation trace analysis tools.


翻译:执行轨迹是理解、调试和优化复杂软件系统的关键信息来源。然而,来自操作系统内核或大规模应用程序(如Chrome或MySQL)的轨迹数据量巨大且难以分析。现有工具依赖于预定义的分析方法,而获取定制化洞察通常需要编写领域特定脚本,这是一项易出错且耗时的任务。本文介绍了TAAF(轨迹抽象与分析框架),这是一种结合时间索引、知识图谱和大型语言模型的新方法,旨在将原始轨迹数据转化为可操作的洞察。TAAF从轨迹事件构建时间索引的知识图谱,以捕获线程、CPU和系统资源等实体之间的关系。随后,大型语言模型通过解释查询特定的子图来回答自然语言问题,从而减少人工检查的需求并降低对深度系统专业知识的要求。为评估TAAF,我们提出了TraceQA-100基准测试,包含基于真实内核轨迹的100个问题。在三种大型语言模型和多种时间设置下的实验表明,TAAF将答案准确率最高提升了31.2%,尤其在多跳推理和因果推理任务中表现突出。我们进一步分析了基于图谱的推理在哪些场景中有效以及仍存在哪些局限性,为下一代轨迹分析工具奠定了基础。

0
下载
关闭预览

相关内容

自动驾驶中的轨迹预测大型基础模型:全面综述
专知会员服务
16+阅读 · 2025年9月18日
基于大语言模型的知识图谱逻辑规则挖掘框架及应用
专知会员服务
27+阅读 · 2025年5月22日
如何构建行业知识图谱(以医疗行业为例)
【知识图谱】基于知识图谱的用户画像技术
产业智能官
103+阅读 · 2019年1月9日
腾讯互娱刘伟 | 知识图谱在运维中的应用
开放知识图谱
20+阅读 · 2018年10月10日
【知识图谱】 一个有效的知识图谱是如何构建的?
产业智能官
57+阅读 · 2018年4月5日
tensorflow系列笔记:流程,概念和代码解析
北京思腾合力科技有限公司
30+阅读 · 2017年11月11日
大规模知识图谱的构建、推理及应用
人工智能头条
15+阅读 · 2017年8月29日
干货 | 大规模知识图谱的构建、推理及应用
机器学习研究会
11+阅读 · 2017年8月28日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关VIP内容
自动驾驶中的轨迹预测大型基础模型:全面综述
专知会员服务
16+阅读 · 2025年9月18日
基于大语言模型的知识图谱逻辑规则挖掘框架及应用
专知会员服务
27+阅读 · 2025年5月22日
相关资讯
如何构建行业知识图谱(以医疗行业为例)
【知识图谱】基于知识图谱的用户画像技术
产业智能官
103+阅读 · 2019年1月9日
腾讯互娱刘伟 | 知识图谱在运维中的应用
开放知识图谱
20+阅读 · 2018年10月10日
【知识图谱】 一个有效的知识图谱是如何构建的?
产业智能官
57+阅读 · 2018年4月5日
tensorflow系列笔记:流程,概念和代码解析
北京思腾合力科技有限公司
30+阅读 · 2017年11月11日
大规模知识图谱的构建、推理及应用
人工智能头条
15+阅读 · 2017年8月29日
干货 | 大规模知识图谱的构建、推理及应用
机器学习研究会
11+阅读 · 2017年8月28日
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员