SoK：DARPA人工智能网络挑战赛（AIxCC）：竞赛设计、架构与经验启示 (SoK: DARPA's AI Cyber Challenge (AIxCC): Competition Design, Architectures, and Lessons Learned) - 专知论文

会员服务 ·

0

设计 · 系统 · 分析 · 智能网络 · DARPA ·

SoK: DARPA's AI Cyber Challenge (AIxCC): Competition Design, Architectures, and Lessons Learned

翻译：SoK：DARPA人工智能网络挑战赛（AIxCC）：竞赛设计、架构与经验启示

Cen Zhang,Younggi Park,Fabian Fleischer,Yu-Fu Fu,Jiho Kim,Dongkwan Kim,Youngjoon Kim,Qingxiao Xu,Andrew Chin,Ze Sheng,Hanqing Zhao,Brian J. Lee,Joshua Wang,Michael Pelican,David J. Musliner,Jeff Huang,Jon Silliman,Mikel Mcdaniel,Jefferson Casavant,Isaac Goldthwaite,Nicholas Vidovich,Matthew Lehman,Taesoo Kim

from arxiv, Version 1.1 (February 2026). Systematization of Knowledge and post-competition analysis of DARPA AIxCC (2023-2025)

DARPA's AI Cyber Challenge (AIxCC, 2023--2025) is the largest competition to date for building fully autonomous cyber reasoning systems (CRSs) that leverage recent advances in AI -- particularly large language models (LLMs) -- to discover and remediate vulnerabilities in real-world open-source software. This paper presents the first systematic analysis of AIxCC. Drawing on design documents, source code, execution traces, and discussions with organizers and competing teams, we examine the competition's structure and key design decisions, characterize the architectural approaches of finalist CRSs, and analyze competition results beyond the final scoreboard. Our analysis reveals the factors that truly drove CRS performance, identifies genuine technical advances achieved by teams, and exposes limitations that remain open for future research. We conclude with lessons for organizing future competitions and broader insights toward deploying autonomous CRSs in practice.

翻译：DARPA人工智能网络挑战赛（AIxCC，2023–2025）是迄今为止规模最大的竞赛，旨在构建完全自主的网络推理系统（CRS），该系统利用人工智能——尤其是大语言模型（LLM）——的最新进展，来发现并修复现实世界开源软件中的漏洞。本文首次对AIxCC进行了系统性分析。基于设计文档、源代码、执行轨迹以及与组织者和参赛团队的讨论，我们审视了竞赛的结构与关键设计决策，描述了决赛入围CRS的架构方法，并分析了超越最终排行榜的竞赛结果。我们的分析揭示了真正驱动CRS性能的因素，识别了各团队实现的实际技术进步，并指出了未来研究中仍需解决的局限性。最后，我们总结了组织未来竞赛的经验，并为在实践中部署自主CRS提供了更广泛的见解。

0

相关内容

设计是对现有状的一种重新认识和打破重组的过程，设计让一切变得更美。

美国防部机构推动人工智能红队测试演进：DARPA“战场效能鲁棒性人工智能安全”（SABER）项目

美国防部机构推动人工智能红队测试演进：DARPA“战场效能鲁棒性人工智能安全”（SABER）项目

专知会员服务

21+阅读 · 2025年9月15日

《信息战中基于大语言模型的AI代理红蓝队对抗沙盒方法：探索反信息、提示注入与AI素养中的人类控制》最新报告

《信息战中基于大语言模型的AI代理红蓝队对抗沙盒方法：探索反信息、提示注入与AI素养中的人类控制》最新报告

专知会员服务

26+阅读 · 2025年5月29日

《面向道义推理DevOps的人类-人工智能交流（CODORD）》DARPA项目slides

《面向道义推理DevOps的人类-人工智能交流（CODORD）》DARPA项目slides

专知会员服务

20+阅读 · 2024年11月18日

DARPA“对不同方案的主动解释”（AIDA）计划《Opera：面向运行的概率提取、推理和分析》美国空军2023最新70页技术报告

DARPA“对不同方案的主动解释”（AIDA）计划《Opera：面向运行的概率提取、推理和分析》美国空军2023最新70页技术报告

专知会员服务

57+阅读 · 2023年4月21日

DARPA人工智能领域最新进展及2023财年项目布局分析

DARPA人工智能领域最新进展及2023财年项目布局分析

专知会员服务

116+阅读 · 2023年4月19日

【DARPA终身学习机器（L2M）计划】《终身学习衡量标准》约翰霍普金斯大学应用物理实验室2022最新23页论文

【DARPA终身学习机器（L2M）计划】《终身学习衡量标准》约翰霍普金斯大学应用物理实验室2022最新23页论文

专知会员服务

64+阅读 · 2022年11月7日

美国DARPA最新推出“有保证的神经符号学习和推理”（ANSR）”项目：推进混合AI算法并开发基于证据的技术（附解读PPT与项目详细说明pdf）

美国DARPA最新推出“有保证的神经符号学习和推理”（ANSR）”项目：推进混合AI算法并开发基于证据的技术（附解读PPT与项目详细说明pdf）

专知会员服务

75+阅读 · 2022年6月30日

25页PPT——美国DARPA实施项目总结：AI Next Campaign、ERI、高超音速、Blackjack、COVID-19 fight、工程材料（ELM）、航天（NOM4D）等等

25页PPT——美国DARPA实施项目总结：AI Next Campaign、ERI、高超音速、Blackjack、COVID-19 fight、工程材料（ELM）、航天（NOM4D）等等

专知会员服务

112+阅读 · 2022年4月6日

最新发表《美国DARPA可解释AI计划回顾（2017-2021年）》中文版，DARPA、美国海军研究实验室、QS-2联合发表12页PDF

最新发表《美国DARPA可解释AI计划回顾（2017-2021年）》中文版，DARPA、美国海军研究实验室、QS-2联合发表12页PDF

专知会员服务

191+阅读 · 2022年4月2日

DARPA可解释人工智能

DARPA可解释人工智能

专知会员服务

133+阅读 · 2020年12月22日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

27+阅读 · 2022年11月24日

AI如何促进空军？麻省理工(DAF-MIT)发布《为美国空军开发一系列人工智能挑战》报告，发布挑战数据集和代码库，总结经验教训

AI如何促进空军？麻省理工(DAF-MIT)发布《为美国空军开发一系列人工智能挑战》报告，发布挑战数据集和代码库，总结经验教训

专知

13+阅读 · 2022年7月19日

XAI是否靠谱？美国DARPA「可解释人工智能」（XAI计划）的4年回顾与经验总结，附中文版

XAI是否靠谱？美国DARPA「可解释人工智能」（XAI计划）的4年回顾与经验总结，附中文版

专知

29+阅读 · 2022年4月3日

哈工大SCIR取得国家电网调控AI创新大赛赛道2（Text2SQL）冠军

哈工大SCIR取得国家电网调控AI创新大赛赛道2（Text2SQL）冠军

哈工大SCIR

16+阅读 · 2021年11月13日

NLPCC2020 开放任务评测发布，涵盖预训练、情感分析、信息抽取

NLPCC2020 开放任务评测发布，涵盖预训练、情感分析、信息抽取

AI科技评论

24+阅读 · 2020年3月15日

【资源】kaggle数据科学竞赛方案集锦

【资源】kaggle数据科学竞赛方案集锦

专知

27+阅读 · 2019年9月4日

DARPA | 世界上最大的“5G+AI+仿真”探索项目

DARPA | 世界上最大的“5G+AI+仿真”探索项目

走向智能论坛

32+阅读 · 2019年7月29日

DARPA将无人机带入“狗斗”，实现视距范围内的“AI”空战

DARPA将无人机带入“狗斗”，实现视距范围内的“AI”空战

无人机

32+阅读 · 2019年6月29日

DARPA研发第三代人工智能聚焦提高战场“智慧”

DARPA研发第三代人工智能聚焦提高战场“智慧”

未来产业促进会

10+阅读 · 2019年3月13日

AAA2019 Tutorial：可解释AI—人工智能的圣杯（160页PPT从理论到动机，应用和局限性）

AAA2019 Tutorial：可解释AI—人工智能的圣杯（160页PPT从理论到动机，应用和局限性）

专知

18+阅读 · 2019年1月28日

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

共融机器人战略规划研究和学术交流

国家自然科学基金

15+阅读 · 2016年12月31日

不确定环境下的自主移动机器人目标搜索问题研究

国家自然科学基金

52+阅读 · 2015年12月31日

复杂网络上数据传输博弈的合作性优化与控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向社群智能的认知网络中机会数据通信机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂非完整多自主体网络协同算法设计与性能极限分析

国家自然科学基金

1+阅读 · 2015年12月31日

网络空间安全关键技术研究

国家自然科学基金

20+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

面向CCMANET网络可证明安全命名与名字路由机制关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

The PokeAgent Challenge: Competitive and Long-Context Learning at Scale

Arxiv

0+阅读 · 3月16日

Developing the PsyCogMetrics AI Lab to Evaluate Large Language Models and Advance Cognitive Science -- A Three-Cycle Action Design Science Study

Developing the PsyCogMetrics AI Lab to Evaluate Large Language Models and Advance Cognitive Science -- A Three-Cycle Action Design Science Study

Arxiv

0+阅读 · 3月13日

OSS-CRS: Liberating AIxCC Cyber Reasoning Systems for Real-World Open-Source Security

Arxiv

0+阅读 · 3月9日

From Secure Agentic AI to Secure Agentic Web: Challenges, Threats, and Future Directions

Arxiv

0+阅读 · 3月2日

LLM Scalability Risk for Agentic-AI and Model Supply Chain Security

Arxiv

0+阅读 · 2月22日

Mastering Olympiad-Level Physics with Artificial Intelligence

Arxiv

0+阅读 · 2月18日

GT-HarmBench: Benchmarking AI Safety Risks Through the Lens of Game Theory

Arxiv

0+阅读 · 2月12日

Towards Cybersecurity Superintelligence: from AI-guided humans to human-guided AI

Arxiv

0+阅读 · 2月9日

SoK: DARPA's AI Cyber Challenge (AIxCC): Competition Design, Architectures, and Lessons Learned

Arxiv

0+阅读 · 2月7日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

VIP会员

文章信息

相关主题

最新内容

（中文）以机器速度作战：来自Maven特遣队主任的见解

（中文）以机器速度作战：来自Maven特遣队主任的见解

专知会员服务

1+阅读 · 今天3:42

（中文）AUKUS第二支柱中的人工智能与自主性方案

（中文）AUKUS第二支柱中的人工智能与自主性方案

专知会员服务

0+阅读 · 今天3:24

（译文）认知战：以士兵为目标，塑造战略

（译文）认知战：以士兵为目标，塑造战略

专知会员服务

0+阅读 · 今天3:12

（中文）认知战的本体论基础（2026报告）

（中文）认知战的本体论基础（2026报告）

专知会员服务

9+阅读 · 今天1:45

美空军条令（2026）：外国对内防御

美空军条令（2026）：外国对内防御

专知会员服务

2+阅读 · 今天1:32

美国与以色列如何在攻击伊朗中使用人工智能

美国与以色列如何在攻击伊朗中使用人工智能

专知会员服务

7+阅读 · 4月16日

《面向大语言模型引导规划、Bandit算法驱动探索与多智能体导航的分层决策问题研究》180页

《面向大语言模型引导规划、Bandit算法驱动探索与多智能体导航的分层决策问题研究》180页

专知会员服务

7+阅读 · 4月16日

《自动化战略情报管控》

《自动化战略情报管控》

专知会员服务

3+阅读 · 4月16日

《反无人机蜂群技术研究：基于小队策略构建大规模无人机防御》

《反无人机蜂群技术研究：基于小队策略构建大规模无人机防御》

专知会员服务

9+阅读 · 4月16日

得失评估：审视对伊朗战争的轨迹（简报）

得失评估：审视对伊朗战争的轨迹（简报）

专知会员服务

3+阅读 · 4月16日

【CMU博士论文】迈向可解释机器学习的理论基础

【CMU博士论文】迈向可解释机器学习的理论基础

专知会员服务

4+阅读 · 4月16日

CVPR 2026 | HulluEdit：基于正交子空间编辑的多模态大语言模型幻觉缓解框架

CVPR 2026 | HulluEdit：基于正交子空间编辑的多模态大语言模型幻觉缓解框架

专知会员服务

4+阅读 · 4月16日

无人机视觉语言导航：研究进展、挑战与技术路线图

无人机视觉语言导航：研究进展、挑战与技术路线图

专知会员服务

4+阅读 · 4月16日

《基于强化学习的反无人机蜂群拦截优先级排序》

《基于强化学习的反无人机蜂群拦截优先级排序》

专知会员服务

10+阅读 · 4月16日

乌克兰反无人机方案“天穹哨兵”解析：一款人工智能驱动的近程防空系统

乌克兰反无人机方案“天穹哨兵”解析：一款人工智能驱动的近程防空系统

专知会员服务

5+阅读 · 4月16日

相关VIP内容

美国防部机构推动人工智能红队测试演进：DARPA“战场效能鲁棒性人工智能安全”（SABER）项目

美国防部机构推动人工智能红队测试演进：DARPA“战场效能鲁棒性人工智能安全”（SABER）项目

专知会员服务

21+阅读 · 2025年9月15日

《信息战中基于大语言模型的AI代理红蓝队对抗沙盒方法：探索反信息、提示注入与AI素养中的人类控制》最新报告

《信息战中基于大语言模型的AI代理红蓝队对抗沙盒方法：探索反信息、提示注入与AI素养中的人类控制》最新报告

专知会员服务

26+阅读 · 2025年5月29日

《面向道义推理DevOps的人类-人工智能交流（CODORD）》DARPA项目slides

《面向道义推理DevOps的人类-人工智能交流（CODORD）》DARPA项目slides

专知会员服务

20+阅读 · 2024年11月18日

DARPA“对不同方案的主动解释”（AIDA）计划《Opera：面向运行的概率提取、推理和分析》美国空军2023最新70页技术报告

DARPA“对不同方案的主动解释”（AIDA）计划《Opera：面向运行的概率提取、推理和分析》美国空军2023最新70页技术报告

专知会员服务

57+阅读 · 2023年4月21日

DARPA人工智能领域最新进展及2023财年项目布局分析

DARPA人工智能领域最新进展及2023财年项目布局分析

专知会员服务

116+阅读 · 2023年4月19日

【DARPA终身学习机器（L2M）计划】《终身学习衡量标准》约翰霍普金斯大学应用物理实验室2022最新23页论文

【DARPA终身学习机器（L2M）计划】《终身学习衡量标准》约翰霍普金斯大学应用物理实验室2022最新23页论文

专知会员服务

64+阅读 · 2022年11月7日

美国DARPA最新推出“有保证的神经符号学习和推理”（ANSR）”项目：推进混合AI算法并开发基于证据的技术（附解读PPT与项目详细说明pdf）

美国DARPA最新推出“有保证的神经符号学习和推理”（ANSR）”项目：推进混合AI算法并开发基于证据的技术（附解读PPT与项目详细说明pdf）

专知会员服务

75+阅读 · 2022年6月30日

25页PPT——美国DARPA实施项目总结：AI Next Campaign、ERI、高超音速、Blackjack、COVID-19 fight、工程材料（ELM）、航天（NOM4D）等等

25页PPT——美国DARPA实施项目总结：AI Next Campaign、ERI、高超音速、Blackjack、COVID-19 fight、工程材料（ELM）、航天（NOM4D）等等

专知会员服务

112+阅读 · 2022年4月6日

最新发表《美国DARPA可解释AI计划回顾（2017-2021年）》中文版，DARPA、美国海军研究实验室、QS-2联合发表12页PDF

最新发表《美国DARPA可解释AI计划回顾（2017-2021年）》中文版，DARPA、美国海军研究实验室、QS-2联合发表12页PDF

专知会员服务

191+阅读 · 2022年4月2日

DARPA可解释人工智能

DARPA可解释人工智能

专知会员服务

133+阅读 · 2020年12月22日

热门VIP内容

开通专知VIP会员享更多权益服务

（中文）AUKUS第二支柱中的人工智能与自主性方案

（中文）认知战的本体论基础（2026报告）

（中文）以机器速度作战：来自Maven特遣队主任的见解

（译文）认知战：以士兵为目标，塑造战略

相关资讯

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

27+阅读 · 2022年11月24日

AI如何促进空军？麻省理工(DAF-MIT)发布《为美国空军开发一系列人工智能挑战》报告，发布挑战数据集和代码库，总结经验教训

AI如何促进空军？麻省理工(DAF-MIT)发布《为美国空军开发一系列人工智能挑战》报告，发布挑战数据集和代码库，总结经验教训

专知

13+阅读 · 2022年7月19日

XAI是否靠谱？美国DARPA「可解释人工智能」（XAI计划）的4年回顾与经验总结，附中文版

XAI是否靠谱？美国DARPA「可解释人工智能」（XAI计划）的4年回顾与经验总结，附中文版

专知

29+阅读 · 2022年4月3日

哈工大SCIR取得国家电网调控AI创新大赛赛道2（Text2SQL）冠军

哈工大SCIR取得国家电网调控AI创新大赛赛道2（Text2SQL）冠军

哈工大SCIR

16+阅读 · 2021年11月13日

NLPCC2020 开放任务评测发布，涵盖预训练、情感分析、信息抽取

NLPCC2020 开放任务评测发布，涵盖预训练、情感分析、信息抽取

AI科技评论

24+阅读 · 2020年3月15日

【资源】kaggle数据科学竞赛方案集锦

【资源】kaggle数据科学竞赛方案集锦

专知

27+阅读 · 2019年9月4日

DARPA | 世界上最大的“5G+AI+仿真”探索项目

DARPA | 世界上最大的“5G+AI+仿真”探索项目

走向智能论坛

32+阅读 · 2019年7月29日

DARPA将无人机带入“狗斗”，实现视距范围内的“AI”空战

DARPA将无人机带入“狗斗”，实现视距范围内的“AI”空战

无人机

32+阅读 · 2019年6月29日

DARPA研发第三代人工智能聚焦提高战场“智慧”

DARPA研发第三代人工智能聚焦提高战场“智慧”

未来产业促进会

10+阅读 · 2019年3月13日

AAA2019 Tutorial：可解释AI—人工智能的圣杯（160页PPT从理论到动机，应用和局限性）

AAA2019 Tutorial：可解释AI—人工智能的圣杯（160页PPT从理论到动机，应用和局限性）

专知

18+阅读 · 2019年1月28日

相关论文

The PokeAgent Challenge: Competitive and Long-Context Learning at Scale

Arxiv

0+阅读 · 3月16日

Developing the PsyCogMetrics AI Lab to Evaluate Large Language Models and Advance Cognitive Science -- A Three-Cycle Action Design Science Study

Developing the PsyCogMetrics AI Lab to Evaluate Large Language Models and Advance Cognitive Science -- A Three-Cycle Action Design Science Study

Arxiv

0+阅读 · 3月13日

OSS-CRS: Liberating AIxCC Cyber Reasoning Systems for Real-World Open-Source Security

Arxiv

0+阅读 · 3月9日

From Secure Agentic AI to Secure Agentic Web: Challenges, Threats, and Future Directions

Arxiv

0+阅读 · 3月2日

LLM Scalability Risk for Agentic-AI and Model Supply Chain Security

Arxiv

0+阅读 · 2月22日

Mastering Olympiad-Level Physics with Artificial Intelligence

Arxiv

0+阅读 · 2月18日

GT-HarmBench: Benchmarking AI Safety Risks Through the Lens of Game Theory

Arxiv

0+阅读 · 2月12日

Towards Cybersecurity Superintelligence: from AI-guided humans to human-guided AI

Arxiv

0+阅读 · 2月9日

SoK: DARPA's AI Cyber Challenge (AIxCC): Competition Design, Architectures, and Lessons Learned

Arxiv

0+阅读 · 2月7日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

相关基金

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

共融机器人战略规划研究和学术交流

国家自然科学基金

15+阅读 · 2016年12月31日

不确定环境下的自主移动机器人目标搜索问题研究

国家自然科学基金

52+阅读 · 2015年12月31日

复杂网络上数据传输博弈的合作性优化与控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向社群智能的认知网络中机会数据通信机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂非完整多自主体网络协同算法设计与性能极限分析

国家自然科学基金

1+阅读 · 2015年12月31日

网络空间安全关键技术研究

国家自然科学基金

20+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

面向CCMANET网络可证明安全命名与名字路由机制关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员