SysMoBench: Evaluating AI on Formally Modeling Complex Real-World Systems - 专知论文

会员服务 ·

0

系统 · 形式化 · 形式化建 · 形式化建模 · 正确性 ·

SysMoBench: Evaluating AI on Formally Modeling Complex Real-World Systems

翻译：SysMoBench：评估人工智能在复杂现实系统形式化建模中的能力

Qian Cheng,Ruize Tang,Emilie Ma,Finn Hackett,Peiyang He,Yiming Su,Ivan Beschastnikh,Yu Huang,Xiaoxing Ma,Tianyin Xu

Formal models are essential to specifying large, complex computer systems and verifying their correctness, but are notoriously expensive to write and maintain. Recent advances in generative AI show promise in generating certain forms of specifications. However, existing work mostly targets small code, not complete systems. It is unclear whether AI can deal with realistic system artifacts, as this requires abstracting their complex behavioral properties into formal models. We present SysMoBench, a benchmark that evaluates AI's ability to formally model large, complex systems. We focus on concurrent and distributed systems, which are keystones of today's critical computing infrastructures, encompassing operating systems and cloud infrastructure. We use TLA+, the de facto specification language for concurrent and distributed systems, though the benchmark can be extended to other specification languages. We address the primary challenge of evaluating AI-generated models by automating metrics like syntactic and runtime correctness, conformance to system code, and invariant correctness. SysMoBench currently includes eleven diverse system artifacts: the Raft implementation of Etcd and Redis, the leader election of ZooKeeper, the Spinlock, Mutex, and Ringbuffer in Asterinas OS, etc., with more being added. SysMoBench enables us to understand the capabilities and limitations of today's LLMs and agents, putting tools in this area on a firm footing and opening up promising new research directions.

翻译：形式化模型对于规范大型复杂计算机系统并验证其正确性至关重要，但众所周知，其编写和维护成本高昂。生成式人工智能的最新进展显示出在生成某些形式规范方面的潜力。然而，现有工作主要针对小型代码，而非完整系统。目前尚不清楚人工智能能否处理现实的系统构件，因为这需要将其复杂的行为特性抽象为形式化模型。我们提出了SysMoBench，这是一个用于评估人工智能对大型复杂系统进行形式化建模能力的基准测试。我们专注于并发与分布式系统，它们是当今关键计算基础设施（包括操作系统和云基础设施）的基石。我们采用TLA+——并发与分布式系统事实上的规范语言，尽管该基准可扩展至其他规范语言。我们通过自动化评估指标（如语法与运行时正确性、与系统代码的一致性以及不变式正确性）来解决评估人工智能生成模型的主要挑战。SysMoBench目前包含十一项多样化的系统构件：Etcd和Redis的Raft实现、ZooKeeper的领导者选举、Asterinas OS中的自旋锁、互斥锁和环形缓冲区等，并持续增加更多内容。SysMoBench使我们能够理解当前大语言模型与智能体的能力与局限，为该领域的工具奠定坚实基础，并开辟有前景的新研究方向。

0

相关内容

【斯坦福博士论文】数据、决策与依赖：构建可信人工智能的挑战

【斯坦福博士论文】数据、决策与依赖：构建可信人工智能的挑战

专知会员服务

30+阅读 · 2025年12月13日

超越生成式人工智能：用于临床预测、反事实推断与规划的世界模型

超越生成式人工智能：用于临床预测、反事实推断与规划的世界模型

专知会员服务

23+阅读 · 2025年11月23日

【AI4Science】利用大型语言模型变革科学：关于人工智能辅助科学发现、实验、内容生成与评估的调研

【AI4Science】利用大型语言模型变革科学：关于人工智能辅助科学发现、实验、内容生成与评估的调研

专知会员服务

34+阅读 · 2025年2月10日

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

专知会员服务

51+阅读 · 2024年6月30日

国家标准《人工智能预训练模型第2 部分：评测指标与方法》

国家标准《人工智能预训练模型第2 部分：评测指标与方法》

专知会员服务

94+阅读 · 2024年6月15日

《人类-人工智能安全：生成式人工智能和控制系统安全的后继者》

《人类-人工智能安全：生成式人工智能和控制系统安全的后继者》

专知会员服务

44+阅读 · 2024年5月27日

《生成式人工智能模型：机遇与风险》

《生成式人工智能模型：机遇与风险》

专知会员服务

81+阅读 · 2024年4月22日

生成式AI如何用于交通？清华最新《生成式智能交通》综述，详述生成式AI在交通感知、交通预测、交通仿真和交通决策制定的作用

生成式AI如何用于交通？清华最新《生成式智能交通》综述，详述生成式AI在交通感知、交通预测、交通仿真和交通决策制定的作用

专知会员服务

58+阅读 · 2023年12月17日

【ChatGPT系列报告】斯坦福HAT《生成式人工智能》报告，李飞飞、Percy Liang等大牛评述GAI

【ChatGPT系列报告】斯坦福HAT《生成式人工智能》报告，李飞飞、Percy Liang等大牛评述GAI

专知会员服务

135+阅读 · 2023年3月15日

人工智能系统可信性度量评估研究综述

人工智能系统可信性度量评估研究综述

专知会员服务

99+阅读 · 2022年1月30日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

谷歌可解释人工智能白皮书，27页pdf，Google AI Explainability Whitepaper

谷歌可解释人工智能白皮书，27页pdf，Google AI Explainability Whitepaper

专知

28+阅读 · 2019年12月13日

面向人工智能的计算机体系结构

面向人工智能的计算机体系结构

计算机研究与发展

14+阅读 · 2019年6月6日

人工智能训练师的再定义

人工智能训练师的再定义

竹间智能Emotibot

11+阅读 · 2019年5月15日

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

专知

11+阅读 · 2019年2月8日

【人工智能】【智能驾驶】人工智能在汽车自动驾驶系统中的应用分析

【人工智能】【智能驾驶】人工智能在汽车自动驾驶系统中的应用分析

产业智能官

18+阅读 · 2018年11月22日

【仿真】生产系统仿真软件，实现数字化工厂的利器！

【仿真】生产系统仿真软件，实现数字化工厂的利器！

产业智能官

15+阅读 · 2018年11月1日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

具有重构特征的系统可靠性建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

8+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

生物网络的可计算建模

国家自然科学基金

2+阅读 · 2014年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

VeriStruct: AI-assisted Automated Verification of Data-Structure Modules in Verus

Arxiv

0+阅读 · 2月18日

GenAI for Systems: Recurring Challenges and Design Principles from Software to Silicon

Arxiv

0+阅读 · 2月16日

StackingNet: Collective Inference Across Independent AI Foundation Models

Arxiv

0+阅读 · 2月14日

OmniCode: A Benchmark for Evaluating Software Engineering Agents

Arxiv

0+阅读 · 2月6日

Evaluating Code Reasoning Abilities of Large Language Models Under Real-World Settings

Arxiv

0+阅读 · 2月4日

Large Language Models in Software Documentation and Modeling: A Literature Review and Findings

Arxiv

0+阅读 · 2月4日

OmniCode: A Benchmark for Evaluating Software Engineering Agents

Arxiv

0+阅读 · 2月2日

DevOps-Gym: Benchmarking AI Agents in Software DevOps Cycle

Arxiv

0+阅读 · 1月27日

Agentic Artificial Intelligence (AI): Architectures, Taxonomies, and Evaluation of Large Language Model Agents

Arxiv

0+阅读 · 1月18日

Designing AI-Resilient Assessments Using Interconnected Problems: A Theoretically Grounded and Empirically Validated Framework

Arxiv

0+阅读 · 1月15日

VIP会员

文章信息

相关主题

形式化建模

最新内容

对抗环境下超视距目标打击的情报支援

对抗环境下超视距目标打击的情报支援

专知会员服务

3+阅读 · 今天14:49

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

专知会员服务

1+阅读 · 今天14:25

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

专知会员服务

2+阅读 · 今天13:57

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

专知会员服务

2+阅读 · 今天13:27

《无人机对海面作战影响评估》

《无人机对海面作战影响评估》

专知会员服务

11+阅读 · 7月21日

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

10+阅读 · 7月21日

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

4+阅读 · 7月21日

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

6+阅读 · 7月21日

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

8+阅读 · 7月21日

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

6+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

8+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

9+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

8+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

10+阅读 · 7月20日

相关VIP内容

【斯坦福博士论文】数据、决策与依赖：构建可信人工智能的挑战

【斯坦福博士论文】数据、决策与依赖：构建可信人工智能的挑战

专知会员服务

30+阅读 · 2025年12月13日

超越生成式人工智能：用于临床预测、反事实推断与规划的世界模型

超越生成式人工智能：用于临床预测、反事实推断与规划的世界模型

专知会员服务

23+阅读 · 2025年11月23日

【AI4Science】利用大型语言模型变革科学：关于人工智能辅助科学发现、实验、内容生成与评估的调研

【AI4Science】利用大型语言模型变革科学：关于人工智能辅助科学发现、实验、内容生成与评估的调研

专知会员服务

34+阅读 · 2025年2月10日

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

专知会员服务

51+阅读 · 2024年6月30日

国家标准《人工智能预训练模型第2 部分：评测指标与方法》

国家标准《人工智能预训练模型第2 部分：评测指标与方法》

专知会员服务

94+阅读 · 2024年6月15日

《人类-人工智能安全：生成式人工智能和控制系统安全的后继者》

《人类-人工智能安全：生成式人工智能和控制系统安全的后继者》

专知会员服务

44+阅读 · 2024年5月27日

《生成式人工智能模型：机遇与风险》

《生成式人工智能模型：机遇与风险》

专知会员服务

81+阅读 · 2024年4月22日

生成式AI如何用于交通？清华最新《生成式智能交通》综述，详述生成式AI在交通感知、交通预测、交通仿真和交通决策制定的作用

生成式AI如何用于交通？清华最新《生成式智能交通》综述，详述生成式AI在交通感知、交通预测、交通仿真和交通决策制定的作用

专知会员服务

58+阅读 · 2023年12月17日

【ChatGPT系列报告】斯坦福HAT《生成式人工智能》报告，李飞飞、Percy Liang等大牛评述GAI

【ChatGPT系列报告】斯坦福HAT《生成式人工智能》报告，李飞飞、Percy Liang等大牛评述GAI

专知会员服务

135+阅读 · 2023年3月15日

人工智能系统可信性度量评估研究综述

人工智能系统可信性度量评估研究综述

专知会员服务

99+阅读 · 2022年1月30日

热门VIP内容

开通专知VIP会员享更多权益服务

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

对抗环境下超视距目标打击的情报支援

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

谷歌可解释人工智能白皮书，27页pdf，Google AI Explainability Whitepaper

谷歌可解释人工智能白皮书，27页pdf，Google AI Explainability Whitepaper

专知

28+阅读 · 2019年12月13日

面向人工智能的计算机体系结构

面向人工智能的计算机体系结构

计算机研究与发展

14+阅读 · 2019年6月6日

人工智能训练师的再定义

人工智能训练师的再定义

竹间智能Emotibot

11+阅读 · 2019年5月15日

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

专知

11+阅读 · 2019年2月8日

【人工智能】【智能驾驶】人工智能在汽车自动驾驶系统中的应用分析

【人工智能】【智能驾驶】人工智能在汽车自动驾驶系统中的应用分析

产业智能官

18+阅读 · 2018年11月22日

【仿真】生产系统仿真软件，实现数字化工厂的利器！

【仿真】生产系统仿真软件，实现数字化工厂的利器！

产业智能官

15+阅读 · 2018年11月1日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

相关论文

VeriStruct: AI-assisted Automated Verification of Data-Structure Modules in Verus

Arxiv

0+阅读 · 2月18日

GenAI for Systems: Recurring Challenges and Design Principles from Software to Silicon

Arxiv

0+阅读 · 2月16日

StackingNet: Collective Inference Across Independent AI Foundation Models

Arxiv

0+阅读 · 2月14日

OmniCode: A Benchmark for Evaluating Software Engineering Agents

Arxiv

0+阅读 · 2月6日

Evaluating Code Reasoning Abilities of Large Language Models Under Real-World Settings

Arxiv

0+阅读 · 2月4日

Large Language Models in Software Documentation and Modeling: A Literature Review and Findings

Arxiv

0+阅读 · 2月4日

OmniCode: A Benchmark for Evaluating Software Engineering Agents

Arxiv

0+阅读 · 2月2日

DevOps-Gym: Benchmarking AI Agents in Software DevOps Cycle

Arxiv

0+阅读 · 1月27日

Agentic Artificial Intelligence (AI): Architectures, Taxonomies, and Evaluation of Large Language Model Agents

Arxiv

0+阅读 · 1月18日

Designing AI-Resilient Assessments Using Interconnected Problems: A Theoretically Grounded and Empirically Validated Framework

Arxiv

0+阅读 · 1月15日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

具有重构特征的系统可靠性建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

8+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

生物网络的可计算建模

国家自然科学基金

2+阅读 · 2014年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员