Recent advances in AI coding tools powered by large language models (LLMs) have shown strong capabilities in software engineering tasks, raising expectations of major productivity gains. Tools such as Cursor and Claude Code have popularized "vibe coding" (where developers steer development through high-level intent), commonly relying on context engineering and Retrieval-Augmented Generation (RAG) to ground generation in a codebase. However, these paradigms struggle in ultra-complex enterprise systems, where software evolves incrementally under pervasive design constraints and depends on tacit knowledge such as responsibilities, intent, and decision rationales distributed across code, configurations, discussions, and version history. In this environment, context engineering faces a fundamental barrier: the required context is scattered across artifacts and entangled across time, beyond the capacity of LLMs to reliably capture, prioritize, and fuse evidence into correct and trustworthy decisions, even as context windows grow. To bridge this gap, we propose the Code Digital Twin, a persistent and evolving knowledge infrastructure built on the codebase. It separates long-term knowledge engineering from task-time context engineering and serves as a backend "context engine" for AI coding assistants. The Code Digital Twin models both the physical and conceptual layers of software and co-evolves with the system. By integrating hybrid knowledge representations, multi-stage extraction pipelines, incremental updates, AI-empowered applications, and human-in-the-loop feedback, it transforms fragmented knowledge into explicit and actionable representations, providing a roadmap toward sustainable and resilient development and evolution of ultra-complex systems.


翻译:近年来,基于大语言模型(LLMs)的AI编程工具在软件工程任务中展现出强大能力,引发了人们对生产力大幅提升的期待。诸如Cursor和Claude Code等工具推动了“氛围编程”(即开发者通过高层意图引导开发)的普及,这类方法通常依赖于上下文工程和检索增强生成(RAG)技术,将生成过程锚定在代码库上。然而,在超复杂的企业级系统中,这些范式面临严峻挑战:此类软件在普遍的设计约束下逐步演进,且依赖于分散在代码、配置、讨论和版本历史中的隐性知识(如职责、意图和决策依据)。在此环境中,上下文工程面临一个根本性障碍:所需的上下文信息分散在不同制品中,且随时间推移相互交织,超出了LLMs可靠捕获、优先级排序及融合证据以形成正确可信决策的能力范围——即使其上下文窗口不断扩展。为弥合这一鸿沟,我们提出代码数字孪生,这是一种构建于代码库之上、持续演进的知识基础设施。它将长期知识工程与任务时上下文工程相分离,作为AI编程助手的后端“上下文引擎”。代码数字孪生同时建模软件的物理层与概念层,并与系统协同演化。通过集成混合知识表示、多阶段提取流水线、增量更新机制、AI赋能应用以及人在回路的反馈,它将碎片化知识转化为显式且可操作的表征,为超复杂系统的可持续性与韧性演进提供了实现路径。

0
下载
关闭预览

相关内容

代码(Code)是专知网的一个重要知识资料文档板块,旨在整理收录论文源代码、复现代码,经典工程代码等,便于用户查阅下载使用。
【新书】AI智能体与应用:基于 LangChain、LangGraph 与 MCP
专知会员服务
62+阅读 · 2025年9月12日
AI智能体编程:技术、挑战与机遇综述
专知会员服务
41+阅读 · 2025年8月18日
《大型语言模型代码生成》综述
专知会员服务
68+阅读 · 2024年6月4日
【数字孪生】面向智能制造的数字孪生
产业智能官
52+阅读 · 2020年5月10日
【数字孪生】从CAD数据到数字孪生
产业智能官
22+阅读 · 2019年11月11日
【数字孪生】工业互联网和数字孪生
产业智能官
19+阅读 · 2019年9月5日
【数字孪生】超棒PPT解读Digital Twin十大领域应用!
产业智能官
103+阅读 · 2019年3月26日
【数字孪生】一文读懂数字孪生的应用及意义
产业智能官
43+阅读 · 2018年9月28日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员