Agentic AI systems can now generate code with remarkable fluency, but a fundamental question remains: \emph{does the generated code actually do what the user intended?} The gap between informal natural language requirements and precise program behavior -- the \emph{intent gap} -- has always plagued software engineering, but AI-generated code amplifies it to an unprecedented scale. This article argues that \textbf{intent formalization} -- the translation of informal user intent into a set of checkable formal specifications -- is the key challenge that will determine whether AI makes software more reliable or merely more abundant. Intent formalization offers a tradeoff spectrum suitable to the reliability needs of different contexts: from lightweight tests that disambiguate likely misinterpretations, through full functional specifications for formal verification, to domain-specific languages from which correct code is synthesized automatically. The central bottleneck is \emph{validating specifications}: since there is no oracle for specification correctness other than the user, we need semi-automated metrics that can assess specification quality with or without code, through lightweight user interaction and proxy artifacts such as tests. We survey early research that demonstrates the \emph{potential} of this approach: interactive test-driven formalization that improves program correctness, AI-generated postconditions that catch real-world bugs missed by prior methods, and end-to-end verified pipelines that produce provably correct code from informal specifications. We outline the open research challenges -- scaling beyond benchmarks, achieving compositionality over changes, metrics for validating specifications, handling rich logics, designing human-AI specification interactions -- that define a research agenda spanning AI, programming languages, formal methods, and human-computer interaction.


翻译:AI智能体系统如今能够以惊人的流畅度生成代码,但一个根本性问题依然存在:\emph{生成的代码是否真正实现了用户的意图?}非正式的自然语言需求与精确程序行为之间的鸿沟——即\emph{意图鸿沟}——一直困扰着软件工程,而AI生成的代码将其放大到了前所未有的规模。本文认为,\textbf{意图形式化}——将非正式的用户意图转化为一系列可检验的形式化规约——是决定AI将使软件变得更可靠还是仅仅变得更泛滥的关键挑战。意图形式化提供了一个适用于不同场景可靠性需求的权衡谱系:从澄清可能误解的轻量级测试,到用于形式化验证的完整功能规约,再到可自动合成正确代码的领域特定语言。其核心瓶颈在于\emph{规约验证}:由于除了用户之外不存在判断规约正确性的“神谕”,我们需要能够通过轻量级用户交互和测试等代理制品,在有代码或无代码的情况下评估规约质量的半自动化度量方法。我们综述了展示该方法\emph{潜力}的早期研究:通过交互式测试驱动形式化提升程序正确性、利用AI生成的后置条件捕获先前方法遗漏的真实世界错误,以及从非正式规约生成可证明正确代码的端到端验证流水线。我们概述了开放的研究挑战——超越基准测试的规模化、实现变更的可组合性、验证规约的度量方法、处理丰富逻辑、设计人机规约交互——这些挑战定义了一个横跨AI、编程语言、形式化方法以及人机交互的研究议程。

0
下载
关闭预览

相关内容

智能体工程(Agent Engineering)
专知会员服务
33+阅读 · 2025年12月31日
AI智能体编程:技术、挑战与机遇综述
专知会员服务
44+阅读 · 2025年8月18日
可解释人工智能(XAI):从内在可解释性到大语言模型
专知会员服务
34+阅读 · 2025年1月20日
设计和构建强大的大语言模型智能体
专知会员服务
55+阅读 · 2024年10月6日
AI智能体面临的威胁:关键安全挑战与未来路径综述
专知会员服务
52+阅读 · 2024年6月7日
AI Agent:基于大模型的自主智能体
专知会员服务
249+阅读 · 2023年9月9日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
为什么说深耕AI领域绕不开知识图谱?
人工智能学家
33+阅读 · 2019年5月30日
深度学习时代的图模型,清华发文综述图网络
GAN生成式对抗网络
13+阅读 · 2018年12月23日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
Arxiv
0+阅读 · 2月18日
VIP会员
最新内容
(中文)AUKUS第二支柱中的人工智能与自主性方案
(译文)认知战:以士兵为目标,塑造战略
专知会员服务
0+阅读 · 31分钟前
(中文)认知战的本体论基础(2026报告)
专知会员服务
5+阅读 · 今天1:45
美空军条令(2026):外国对内防御
专知会员服务
2+阅读 · 今天1:32
美国与以色列如何在攻击伊朗中使用人工智能
专知会员服务
6+阅读 · 4月16日
《自动化战略情报管控》
专知会员服务
3+阅读 · 4月16日
得失评估:审视对伊朗战争的轨迹(简报)
专知会员服务
3+阅读 · 4月16日
【CMU博士论文】迈向可解释机器学习的理论基础
相关VIP内容
智能体工程(Agent Engineering)
专知会员服务
33+阅读 · 2025年12月31日
AI智能体编程:技术、挑战与机遇综述
专知会员服务
44+阅读 · 2025年8月18日
可解释人工智能(XAI):从内在可解释性到大语言模型
专知会员服务
34+阅读 · 2025年1月20日
设计和构建强大的大语言模型智能体
专知会员服务
55+阅读 · 2024年10月6日
AI智能体面临的威胁:关键安全挑战与未来路径综述
专知会员服务
52+阅读 · 2024年6月7日
AI Agent:基于大模型的自主智能体
专知会员服务
249+阅读 · 2023年9月9日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员