Codebase-Memory: Tree-Sitter-Based Knowledge Graphs for LLM Code Exploration via MCP - 专知论文

会员服务 ·

0

Codebase-Memory: Tree-Sitter-Based Knowledge Graphs for LLM Code Exploration via MCP

翻译：代码库记忆：基于Tree-Sitter的MCP知识图谱助力LLM代码探索

Martin Vogel,Falk Meyer-Eschenbach,Severin Kohler,Elias Grünewald,Felix Balzer

from arxiv, 10 pages, 5 authors, preprint

Large Language Model (LLM) coding agents typically explore codebases through repeated file-reading and grep-searching, consuming thousands of tokens per query without structural understanding. We present Codebase-Memory, an open-source system that constructs a persistent, Tree-Sitter-based knowledge graph via the Model Context Protocol (MCP), parsing 66 languages through a multi-phase pipeline with parallel worker pools, call-graph traversal, impact analysis, and community discovery. Evaluated across 31 real-world repositories, Codebase-Memory achieves 83% answer quality versus 92% for a file-exploration agent, at ten times fewer tokens and 2.1 times fewer tool calls. For graph-native queries such as hub detection and caller ranking, it matches or exceeds the explorer on 19 of 31 languages.

翻译：大型语言模型（LLM）编码代理通常通过反复读取文件和grep搜索来探索代码库，每次查询消耗数千token却缺乏结构理解。我们提出Codebase-Memory，一个基于Model Context Protocol (MCP)构建持久化、Tree-Sitter型知识图谱的开源系统，通过多阶段流水线（含并行工作池、调用图遍历、影响分析和社区发现）解析66种编程语言。在31个真实仓库上的评估显示，Codebase-Memory以文件探索代理1/10的token消耗和2.1倍的工具调用次数，达到83%的答案质量（对比92%）。对于中心节点检测与调用者排名等图原生查询，它在31种语言中的19种上达到或超越探索代理的表现。

0

相关内容

管理 LLM 智能体中的演进式记忆：风险、机理及稳定性与安全性受控记忆（SSGM）框架

管理 LLM 智能体中的演进式记忆：风险、机理及稳定性与安全性受控记忆（SSGM）框架

专知会员服务

16+阅读 · 3月14日

大型语言模型（LLM）赋能的知识图谱构建：综述

大型语言模型（LLM）赋能的知识图谱构建：综述

专知会员服务

56+阅读 · 2025年10月24日

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

专知会员服务

10+阅读 · 2025年9月3日

【伯克利博士论文】基于代码结构感知方法推进代码生成大型语言模型的发展

【伯克利博士论文】基于代码结构感知方法推进代码生成大型语言模型的发展

专知会员服务

23+阅读 · 2025年7月21日

《基于MCP的软件设计模式视角下的大型语言模型智能体通信研究综述》

《基于MCP的软件设计模式视角下的大型语言模型智能体通信研究综述》

专知会员服务

45+阅读 · 2025年6月9日

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

专知会员服务

48+阅读 · 2025年4月12日

带入您自己的知识：大型语言模型（LLM）知识扩展方法综述

带入您自己的知识：大型语言模型（LLM）知识扩展方法综述

专知会员服务

38+阅读 · 2025年2月21日

【LLM4Code】代码优化的语言模型：综述、挑战与未来方向

【LLM4Code】代码优化的语言模型：综述、挑战与未来方向

专知会员服务

38+阅读 · 2025年1月5日

图上大模型怎么做？UIUC最新《图上大型语言模型》综述，详述LLM在图上作为预测器、编码器和对齐器的技术

图上大模型怎么做？UIUC最新《图上大型语言模型》综述，详述LLM在图上作为预测器、编码器和对齐器的技术

专知会员服务

67+阅读 · 2023年12月7日

大模型如何从思维链(CoT)，到思维树(ToT)，再到思维图(GoT)：用LLMs解决复杂问题！

大模型如何从思维链(CoT)，到思维树(ToT)，再到思维图(GoT)：用LLMs解决复杂问题！

专知会员服务

78+阅读 · 2023年9月3日

论文推荐丨[ICML2020]用于图像到标记符号生成的树状结构解码器

论文推荐丨[ICML2020]用于图像到标记符号生成的树状结构解码器

专知

64+阅读 · 2020年7月31日

基于深度神经网络的关键词提取，Keywords extraction with DNN

基于深度神经网络的关键词提取，Keywords extraction with DNN

专知

10+阅读 · 2020年5月7日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

【Github】ML-NLP：机器学习、NLP面试中常考到的知识点和代码实现

【Github】ML-NLP：机器学习、NLP面试中常考到的知识点和代码实现

AINLP

10+阅读 · 2019年9月12日

【Github】nlp-tutorial：TensorFlow 和 PyTorch 实现各种NLP模型

【Github】nlp-tutorial：TensorFlow 和 PyTorch 实现各种NLP模型

AINLP

14+阅读 · 2019年9月4日

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

专知

17+阅读 · 2018年11月15日

深度学习文本分类方法综述（代码）

深度学习文本分类方法综述（代码）

中国人工智能学会

28+阅读 · 2018年6月16日

【推荐】用TensorFlow实现LSTM社交对话股市情感分析

【推荐】用TensorFlow实现LSTM社交对话股市情感分析

机器学习研究会

11+阅读 · 2018年1月14日

手把手教你入门使用tf-slim库 | 回顾

手把手教你入门使用tf-slim库 | 回顾

AI研习社

12+阅读 · 2017年12月9日

fastText、TextCNN、TextRNN…这套NLP文本分类深度学习方法库供你选择

fastText、TextCNN、TextRNN…这套NLP文本分类深度学习方法库供你选择

数据派THU

29+阅读 · 2017年8月2日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

高容错能力的阵列纠删码模型研究

国家自然科学基金

2+阅读 · 2015年12月31日

有限域上的代数曲线在纠错码构造中的几点应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于比特置信度的低复杂度多进制LDPC码译码算法

国家自然科学基金

0+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

量子码的构造

国家自然科学基金

1+阅读 · 2015年12月31日

Web页面数据对象的感知理解与计算

国家自然科学基金

0+阅读 · 2014年12月31日

基于软件多版本演化的克隆家系提取研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大规模知识图谱的查询处理关键技术研究

国家自然科学基金

18+阅读 · 2014年12月31日

Memory in the LLM Era: Modular Architectures and Strategies in a Unified Framework

Arxiv

0+阅读 · 5月1日

Memory in the LLM Era: Modular Architectures and Strategies in a Unified Framework

Arxiv

0+阅读 · 4月2日

LLMON: An LLM-native Markup Language to Leverage Structure and Semantics at the LLM Interface

Arxiv

0+阅读 · 3月30日

Beyond Code Snippets: Benchmarking LLMs on Repository-Level Question Answering

Arxiv

0+阅读 · 3月27日

Bridging Code Property Graphs and Language Models for Program Analysis

Arxiv

0+阅读 · 3月25日

LLMON: An LLM-native Markup Language to Leverage Structure and Semantics at the LLM Interface

Arxiv

0+阅读 · 3月23日

TA-Mem: Tool-Augmented Autonomous Memory Retrieval for LLM in Long-Term Conversational QA

Arxiv

0+阅读 · 3月10日

Evoking User Memory: Personalizing LLM via Recollection-Familiarity Adaptive Retrieval

Arxiv

0+阅读 · 3月10日

R1-Code-Interpreter: LLMs Reason with Code via Supervised and Multi-stage Reinforcement Learning

Arxiv

0+阅读 · 3月3日

Codified Context: Infrastructure for AI Agents in a Complex Codebase

Arxiv

0+阅读 · 2月24日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

3+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

管理 LLM 智能体中的演进式记忆：风险、机理及稳定性与安全性受控记忆（SSGM）框架

管理 LLM 智能体中的演进式记忆：风险、机理及稳定性与安全性受控记忆（SSGM）框架

专知会员服务

16+阅读 · 3月14日

大型语言模型（LLM）赋能的知识图谱构建：综述

大型语言模型（LLM）赋能的知识图谱构建：综述

专知会员服务

56+阅读 · 2025年10月24日

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

专知会员服务

10+阅读 · 2025年9月3日

【伯克利博士论文】基于代码结构感知方法推进代码生成大型语言模型的发展

【伯克利博士论文】基于代码结构感知方法推进代码生成大型语言模型的发展

专知会员服务

23+阅读 · 2025年7月21日

《基于MCP的软件设计模式视角下的大型语言模型智能体通信研究综述》

《基于MCP的软件设计模式视角下的大型语言模型智能体通信研究综述》

专知会员服务

45+阅读 · 2025年6月9日

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

专知会员服务

48+阅读 · 2025年4月12日

带入您自己的知识：大型语言模型（LLM）知识扩展方法综述

带入您自己的知识：大型语言模型（LLM）知识扩展方法综述

专知会员服务

38+阅读 · 2025年2月21日

【LLM4Code】代码优化的语言模型：综述、挑战与未来方向

【LLM4Code】代码优化的语言模型：综述、挑战与未来方向

专知会员服务

38+阅读 · 2025年1月5日

图上大模型怎么做？UIUC最新《图上大型语言模型》综述，详述LLM在图上作为预测器、编码器和对齐器的技术

图上大模型怎么做？UIUC最新《图上大型语言模型》综述，详述LLM在图上作为预测器、编码器和对齐器的技术

专知会员服务

67+阅读 · 2023年12月7日

大模型如何从思维链(CoT)，到思维树(ToT)，再到思维图(GoT)：用LLMs解决复杂问题！

大模型如何从思维链(CoT)，到思维树(ToT)，再到思维图(GoT)：用LLMs解决复杂问题！

专知会员服务

78+阅读 · 2023年9月3日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

论文推荐丨[ICML2020]用于图像到标记符号生成的树状结构解码器

论文推荐丨[ICML2020]用于图像到标记符号生成的树状结构解码器

专知

64+阅读 · 2020年7月31日

基于深度神经网络的关键词提取，Keywords extraction with DNN

基于深度神经网络的关键词提取，Keywords extraction with DNN

专知

10+阅读 · 2020年5月7日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

【Github】ML-NLP：机器学习、NLP面试中常考到的知识点和代码实现

【Github】ML-NLP：机器学习、NLP面试中常考到的知识点和代码实现

AINLP

10+阅读 · 2019年9月12日

【Github】nlp-tutorial：TensorFlow 和 PyTorch 实现各种NLP模型

【Github】nlp-tutorial：TensorFlow 和 PyTorch 实现各种NLP模型

AINLP

14+阅读 · 2019年9月4日

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

专知

17+阅读 · 2018年11月15日

深度学习文本分类方法综述（代码）

深度学习文本分类方法综述（代码）

中国人工智能学会

28+阅读 · 2018年6月16日

【推荐】用TensorFlow实现LSTM社交对话股市情感分析

【推荐】用TensorFlow实现LSTM社交对话股市情感分析

机器学习研究会

11+阅读 · 2018年1月14日

手把手教你入门使用tf-slim库 | 回顾

手把手教你入门使用tf-slim库 | 回顾

AI研习社

12+阅读 · 2017年12月9日

fastText、TextCNN、TextRNN…这套NLP文本分类深度学习方法库供你选择

fastText、TextCNN、TextRNN…这套NLP文本分类深度学习方法库供你选择

数据派THU

29+阅读 · 2017年8月2日

相关论文

Memory in the LLM Era: Modular Architectures and Strategies in a Unified Framework

Arxiv

0+阅读 · 5月1日

Memory in the LLM Era: Modular Architectures and Strategies in a Unified Framework

Arxiv

0+阅读 · 4月2日

LLMON: An LLM-native Markup Language to Leverage Structure and Semantics at the LLM Interface

Arxiv

0+阅读 · 3月30日

Beyond Code Snippets: Benchmarking LLMs on Repository-Level Question Answering

Arxiv

0+阅读 · 3月27日

Bridging Code Property Graphs and Language Models for Program Analysis

Arxiv

0+阅读 · 3月25日

LLMON: An LLM-native Markup Language to Leverage Structure and Semantics at the LLM Interface

Arxiv

0+阅读 · 3月23日

TA-Mem: Tool-Augmented Autonomous Memory Retrieval for LLM in Long-Term Conversational QA

Arxiv

0+阅读 · 3月10日

Evoking User Memory: Personalizing LLM via Recollection-Familiarity Adaptive Retrieval

Arxiv

0+阅读 · 3月10日

R1-Code-Interpreter: LLMs Reason with Code via Supervised and Multi-stage Reinforcement Learning

Arxiv

0+阅读 · 3月3日

Codified Context: Infrastructure for AI Agents in a Complex Codebase

Arxiv

0+阅读 · 2月24日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

高容错能力的阵列纠删码模型研究

国家自然科学基金

2+阅读 · 2015年12月31日

有限域上的代数曲线在纠错码构造中的几点应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于比特置信度的低复杂度多进制LDPC码译码算法

国家自然科学基金

0+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

量子码的构造

国家自然科学基金

1+阅读 · 2015年12月31日

Web页面数据对象的感知理解与计算

国家自然科学基金

0+阅读 · 2014年12月31日

基于软件多版本演化的克隆家系提取研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大规模知识图谱的查询处理关键技术研究

国家自然科学基金

18+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员