The Linux kernel is a critical system, serving as the foundation for numerous systems. Bugs in the Linux kernel can cause serious consequences, affecting billions of users. Fault localization (FL), which aims at identifying the buggy code elements in software, plays an essential role in software quality assurance. While recent LLM agents have achieved promising accuracy in FL on recent benchmarks like SWE-bench, it remains unclear how well these methods perform in the Linux kernel, where FL is much more challenging due to the large-scale code base, limited observability, and diverse impact factors. In this paper, we introduce LinuxFLBench, a FL benchmark constructed from real-world Linux kernel bugs. We conduct an empirical study to assess the performance of state-of-the-art LLM agents on the Linux kernel. Our initial results reveal that existing agents struggle with this task, achieving a best top-1 accuracy of only 41.6% at file level. To address this challenge, we propose LinuxFL$^+$, an enhancement framework designed to improve FL effectiveness of LLM agents for the Linux kernel. LinuxFL$^+$ substantially improves the FL accuracy of all studied agents (e.g., 7.2% - 11.2% accuracy increase) with minimal costs.


翻译:Linux内核是一个关键系统,构成众多系统的基础。Linux内核中的错误可能导致严重后果,影响数十亿用户。故障定位(FL)旨在识别软件中的错误代码元素,在软件质量保证中扮演着至关重要的角色。尽管最近的LLM代理在SWE-bench等最新基准测试中展现出令人瞩目的FL精度,但这些方法在Linux内核上的表现仍不清楚——由于代码库规模庞大、可观测性有限以及影响因素的多样性,Linux内核中的FL更具挑战性。本文引入了LinuxFLBench,一个基于真实Linux内核错误构建的FL基准测试。我们通过实证研究评估了最先进的LLM代理在Linux内核上的性能。初步结果表明,现有代理难以完成此任务,在文件级别最佳Top-1精度仅为41.6%。为应对这一挑战,我们提出LinuxFL$^+$,一种专为提升LLM代理在Linux内核中FL有效性而设计的增强框架。LinuxFL$^+$显著提高了所有研究代理的FL精度(例如,精度提升7.2%-11.2%),且成本极低。

0
下载
关闭预览

相关内容

Linux 是一系列类 Unix 计算机操作系统的统称。该操作系统的核心为 Linux 内核。Linux 操作系统也是软件和开放源代码发展中最著名的例子之一。
基于大语言模型的智能体化软件问题解决:综述
专知会员服务
23+阅读 · 2025年12月31日
AgentOps综述:分类、挑战与未来方向
专知会员服务
40+阅读 · 2025年8月6日
【WWW2024教程】大型语言模型驱动智能体,附slides
专知会员服务
64+阅读 · 2024年5月14日
大型语言模型自动程序修复的系统文献综述
专知会员服务
43+阅读 · 2024年5月5日
《利用 ChatGPT 实现高效事实核查》
专知会员服务
48+阅读 · 2023年10月25日
【硬核书】Linux核心编程|Linux Kernel Programming,741页pdf
专知会员服务
80+阅读 · 2021年3月26日
【经典书】Linux UNIX系统编程手册,1554页pdf
专知会员服务
48+阅读 · 2021年2月20日
霍普金斯《操作系统原理》2020课程,不可错过!
专知会员服务
37+阅读 · 2020年10月27日
推荐系统原理、工程、大厂(Youtube、BAT、TMB)架构干活分享
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
22+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
6+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
2+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
9+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
11+阅读 · 6月17日
相关VIP内容
基于大语言模型的智能体化软件问题解决:综述
专知会员服务
23+阅读 · 2025年12月31日
AgentOps综述:分类、挑战与未来方向
专知会员服务
40+阅读 · 2025年8月6日
【WWW2024教程】大型语言模型驱动智能体,附slides
专知会员服务
64+阅读 · 2024年5月14日
大型语言模型自动程序修复的系统文献综述
专知会员服务
43+阅读 · 2024年5月5日
《利用 ChatGPT 实现高效事实核查》
专知会员服务
48+阅读 · 2023年10月25日
【硬核书】Linux核心编程|Linux Kernel Programming,741页pdf
专知会员服务
80+阅读 · 2021年3月26日
【经典书】Linux UNIX系统编程手册,1554页pdf
专知会员服务
48+阅读 · 2021年2月20日
霍普金斯《操作系统原理》2020课程,不可错过!
专知会员服务
37+阅读 · 2020年10月27日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
22+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员