Given a large and evolving codebase, the ability to automatically generate holistic, architecture-aware documentation that captures not only individual functions but also cross-file, cross-module, and system-level interactions remains an open challenge. Comprehensive documentation is essential for long-term software maintenance and collaboration, yet current automated approaches still fail to model the rich semantic dependencies and architectural structures that define real-world software systems. We present \textbf{CodeWiki}, a unified framework for automated repository-level documentation across seven programming languages. CodeWiki introduces three key innovations: (i) hierarchical decomposition that preserves architectural context across multiple levels of granularity, (ii) recursive multi-agent processing with dynamic task delegation for scalable generation, and (iii) multi-modal synthesis that integrates textual descriptions with visual artifacts such as architecture diagrams and data-flow representations. To enable rigorous evaluation, we introduce \textbf{CodeWikiBench}, a comprehensive benchmark featuring multi-dimensional rubrics and LLM-based assessment protocols. Experimental results show that CodeWiki achieves a 68.79\% quality score with proprietary models, outperforming the closed-source DeepWiki baseline (64.06\%) by 4.73\%, with particularly strong improvements on high-level scripting languages (+10.47\%). We open-source CodeWiki to foster future research and community adoption.


翻译:给定一个庞大且不断演化的代码库,自动生成能够捕捉不仅限于单个函数、还包括跨文件、跨模块及系统级交互的整体性、架构感知文档的能力,仍然是一个悬而未决的挑战。全面的文档对于长期的软件维护与协作至关重要,然而当前的自动化方法仍未能有效建模定义现实世界软件系统的丰富语义依赖与架构结构。我们提出\textbf{CodeWiki},一个跨七种编程语言的自动化仓库级文档生成统一框架。CodeWiki引入了三项关键创新:(i) 在多个粒度级别上保持架构上下文的分层分解,(ii) 具备动态任务委派能力、可实现可扩展生成的递归多智能体处理,以及(iii) 集成文本描述与架构图、数据流表示等视觉产物的多模态合成。为了支持严谨的评估,我们引入了\textbf{CodeWikiBench},这是一个包含多维评估量规和基于LLM评估协议的综合基准。实验结果表明,CodeWiki在使用专有模型时获得了68.79\%的质量分数,优于闭源的DeepWiki基线(64.06\%)4.73\%,尤其是在高级脚本语言上表现出显著的提升(+10.47\%)。我们开源CodeWiki以促进未来研究和社区采用。

0
下载
关闭预览

相关内容

代码(Code)是专知网的一个重要知识资料文档板块,旨在整理收录论文源代码、复现代码,经典工程代码等,便于用户查阅下载使用。
AI 智能体系统:体系架构、应用场景及评估范式
大语言模型时代的文档智能:综述
专知会员服务
23+阅读 · 2025年10月17日
文档智能: 数据集、模型和应用
专知会员服务
63+阅读 · 2022年7月31日
重磅!AI框架发展白皮书(2022年),44页pdf
专知
28+阅读 · 2022年2月27日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
完备的 AI 学习路线,最详细的资源整理!
新智元
17+阅读 · 2019年5月4日
完备的 AI 学习路线,最详细的中英文资源整理
机器之心
29+阅读 · 2019年4月28日
【知识图谱】知识图谱+人工智能=新型网络信息体系
产业智能官
14+阅读 · 2018年11月18日
看完这8本算法好书,才算真正懂了 AI
阿里技术
18+阅读 · 2018年8月15日
尽早跑通深度学习的实践代码,是入门深度学习的最快途径
算法与数据结构
22+阅读 · 2017年12月13日
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关资讯
重磅!AI框架发展白皮书(2022年),44页pdf
专知
28+阅读 · 2022年2月27日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
完备的 AI 学习路线,最详细的资源整理!
新智元
17+阅读 · 2019年5月4日
完备的 AI 学习路线,最详细的中英文资源整理
机器之心
29+阅读 · 2019年4月28日
【知识图谱】知识图谱+人工智能=新型网络信息体系
产业智能官
14+阅读 · 2018年11月18日
看完这8本算法好书,才算真正懂了 AI
阿里技术
18+阅读 · 2018年8月15日
尽早跑通深度学习的实践代码,是入门深度学习的最快途径
算法与数据结构
22+阅读 · 2017年12月13日
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员