CTI-REALM: Benchmark to Evaluate Agent Performance on Security Detection Rule Generation Capabilities - 专知论文

会员服务 ·

0

基准 · 智能体 · AI · 分析 · 网络威胁 ·

CTI-REALM: Benchmark to Evaluate Agent Performance on Security Detection Rule Generation Capabilities

翻译：CTI-REALM：评估智能体在安全检测规则生成能力上的基准

Arjun Chakraborty,Sandra Ho,Adam Cook,Manuel Meléndez

from arxiv, 11 pages, 5 figures, 4 tables

CTI-REALM (Cyber Threat Real World Evaluation and LLM Benchmarking) is a benchmark designed to evaluate AI agents' ability to interpret cyber threat intelligence (CTI) and develop detection rules. The benchmark provides a realistic environment that replicates the security analyst workflow. This enables agents to examine CTI reports, execute queries, understand schema structures, and construct detection rules. Evaluation involves emulated attacks of varying complexity across Linux systems, cloud platforms, and Azure Kubernetes Service (AKS), with ground truth data for accurate assessment. Agent performance is measured through both final detection results and trajectory-based rewards that capture decision-making effectiveness. This work demonstrates the potential of AI agents to support labor-intensive aspects of detection engineering. Our comprehensive evaluation of 16 frontier models shows that Claude Opus 4.6 (High) achieves the highest overall reward (0.637), followed by Claude Opus 4.5 (0.624) and the GPT-5 family. An ablation study confirms that CTI-specific tools significantly improve agent performance, a variance analysis across repeated runs demonstrates result stability. Finally, a memory augmentation study shows that seeded context can close 33\% of the performance gap between smaller and larger models.

翻译：CTI-REALM（网络威胁现实世界评估与大语言模型基准测试）是一个旨在评估AI智能体解读网络威胁情报（CTI）并制定检测规则能力的基准。该基准提供了一个模拟安全分析师工作流程的真实环境，使智能体能够检查CTI报告、执行查询、理解模式结构并构建检测规则。评估涉及在Linux系统、云平台和Azure Kubernetes服务（AKS）上模拟不同复杂程度的攻击，并提供真实数据以进行准确评估。智能体性能通过最终检测结果和基于轨迹的奖励（用于捕捉决策有效性）来衡量。这项工作展示了AI智能体在支持检测工程中劳动密集型环节的潜力。我们对16个前沿模型的综合评估表明，Claude Opus 4.6（High）获得了最高的总体奖励（0.637），其次是Claude Opus 4.5（0.624）和GPT-5系列模型。一项消融研究证实，CTI专用工具能显著提升智能体性能；跨多次运行的方差分析证明了结果的稳定性。最后，一项记忆增强研究表明，植入上下文可以弥合较小模型与较大模型之间33%的性能差距。

0

相关内容

《ARMOR 2025：一个面向军事领域的基准，用于评估大语言模型安全性》

《ARMOR 2025：一个面向军事领域的基准，用于评估大语言模型安全性》

专知会员服务

16+阅读 · 5月7日

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

基于大型语言模型的网络威胁情报：利用LLM提取MITRE ATT&CK技术 | 最新文献

基于大型语言模型的网络威胁情报：利用LLM提取MITRE ATT&CK技术 | 最新文献

专知会员服务

24+阅读 · 2025年10月22日

大语言模型智能体的评估与基准：综述

大语言模型智能体的评估与基准：综述

专知会员服务

50+阅读 · 2025年7月31日

《人工智能安全标准体系（V1.0）》（征求意见稿）

《人工智能安全标准体系（V1.0）》（征求意见稿）

专知会员服务

29+阅读 · 2025年3月23日

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

专知会员服务

50+阅读 · 2024年6月30日

如何评估具身智能？斯坦福李飞飞等发布《BEHAVIOR-1K: 以人为中心、具身化AI基准测试，含1000种日常活动和真实模拟》

如何评估具身智能？斯坦福李飞飞等发布《BEHAVIOR-1K: 以人为中心、具身化AI基准测试，含1000种日常活动和真实模拟》

专知会员服务

62+阅读 · 2024年3月15日

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

专知会员服务

77+阅读 · 2023年4月26日

《支持网络威胁情报的新能力概念》加拿大国防研究与发展部2022最新32页报告

《支持网络威胁情报的新能力概念》加拿大国防研究与发展部2022最新32页报告

专知会员服务

24+阅读 · 2022年11月27日

《人工智能芯片基准测试评估方法》行业标准

《人工智能芯片基准测试评估方法》行业标准

专知会员服务

87+阅读 · 2022年2月20日

推荐！【中文版】《指挥、控制、通信和情报（C3I）系统安全性综述：漏洞、攻击和对策》35页最新论文

推荐！【中文版】《指挥、控制、通信和情报（C3I）系统安全性综述：漏洞、攻击和对策》35页最新论文

专知

42+阅读 · 2022年7月27日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

91+阅读 · 2022年4月17日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

《智能制造机器视觉在线检测测试方法》国家标准意见稿

《智能制造机器视觉在线检测测试方法》国家标准意见稿

专知

13+阅读 · 2022年2月22日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

深度学习在CTR预估中的应用 | CTR深度模型大盘点

深度学习在CTR预估中的应用 | CTR深度模型大盘点

PaperWeekly

15+阅读 · 2018年4月11日

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

AI研习社

14+阅读 · 2018年2月17日

【论文推荐】最新5篇目标检测相关论文——显著目标检测、弱监督One-Shot检测、多框检测器、携带物体检测、假彩色图像检测

【论文推荐】最新5篇目标检测相关论文——显著目标检测、弱监督One-Shot检测、多框检测器、携带物体检测、假彩色图像检测

专知

74+阅读 · 2018年1月16日

推荐｜caffe-orc主流ocr算法：CNN+BLSTM+CTC架构实现！

推荐｜caffe-orc主流ocr算法：CNN+BLSTM+CTC架构实现！

全球人工智能

19+阅读 · 2017年10月29日

[推荐] 这些年，我用过的点击率（CTR）预估模型！！！

[推荐] 这些年，我用过的点击率（CTR）预估模型！！！

菜鸟的机器学习

28+阅读 · 2017年7月31日

面向传感网的软件定义测量技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于概率计算的大规模MIMO检测方法

国家自然科学基金

1+阅读 · 2015年12月31日

网络本体质量及适应性的评估研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于图像属性和深度学习的大规模物体检测研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的城市地下工程施工期安全风险评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

面向信息优势的预警信息系统综合效能评估研究与仿真验证

国家自然科学基金

21+阅读 · 2012年12月31日

Cyber Defense Benchmark: Agentic Threat Hunting Evaluation for LLMs in SecOps

Arxiv

0+阅读 · 4月23日

Cyber Defense Benchmark: Agentic Threat Hunting Evaluation for LLMs in SecOps

Arxiv

0+阅读 · 4月22日

Evaluating Privilege Usage of Agents with Real-World Tools

Arxiv

0+阅读 · 4月20日

RealVuln: Benchmarking Rule-Based, General-Purpose LLM, and Security-Specialized Scanners on Real-World Code

Arxiv

0+阅读 · 4月15日

Towards Effective Offensive Security LLM Agents: Hyperparameter Tuning, LLM as a Judge, and a Lightweight CTF Benchmark

Arxiv

0+阅读 · 4月9日

CirrusBench: Evaluating LLM-based Agents Beyond Correctness in Real-World Cloud Service Environments

Arxiv

0+阅读 · 3月30日

WirelessBench: A Tolerance-Aware LLM Agent Benchmark for Wireless Network Intelligence

Arxiv

0+阅读 · 3月22日

AttackSeqBench: Benchmarking the Capabilities of LLMs for Attack Sequences Understanding

Arxiv

0+阅读 · 3月3日

Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing

Arxiv

0+阅读 · 3月3日

How Well Can LLM Agents Simulate End-User Security and Privacy Attitudes and Behaviors?

Arxiv

0+阅读 · 2月24日

VIP会员

文章信息

相关主题

最新内容

“史诗怒火”行动中的无人机与反无人机作战

“史诗怒火”行动中的无人机与反无人机作战

专知会员服务

10+阅读 · 5月25日

《北约城市作战高级训练技术（UCATT）实况模拟标准2》176页报告

《北约城市作战高级训练技术（UCATT）实况模拟标准2》176页报告

专知会员服务

4+阅读 · 5月25日

[ICML26] 破局长视频理解！快手推出统一框架实现视频定位与深度理解，多项基准测试性能全面提升

[ICML26] 破局长视频理解！快手推出统一框架实现视频定位与深度理解，多项基准测试性能全面提升

专知会员服务

4+阅读 · 5月24日

Claw AI Lab：从自动写论文到交互式AI研究实验室

Claw AI Lab：从自动写论文到交互式AI研究实验室

专知会员服务

7+阅读 · 5月24日

美军“沙赫德-136”自杀式无人机仿制型号将获得集群能力

美军“沙赫德-136”自杀式无人机仿制型号将获得集群能力

专知会员服务

12+阅读 · 5月24日

【ICML 2026】MotiMotion：用视觉推理增强运动可控视频生成

【ICML 2026】MotiMotion：用视觉推理增强运动可控视频生成

专知会员服务

5+阅读 · 5月23日

AI能预测科学突破吗？CUSP基准揭示前沿模型能力边界

AI能预测科学突破吗？CUSP基准揭示前沿模型能力边界

专知会员服务

8+阅读 · 5月23日

美以伊冲突中的无人机反防空作战

美以伊冲突中的无人机反防空作战

专知会员服务

9+阅读 · 5月23日

【ICML 2026】面向视野外操作的VLA空间记忆框架SOMA

【ICML 2026】面向视野外操作的VLA空间记忆框架SOMA

专知会员服务

7+阅读 · 5月22日

【综述】大语言模型驱动的多模态情感识别综述：挑战、分类与未来方向

【综述】大语言模型驱动的多模态情感识别综述：挑战、分类与未来方向

专知会员服务

8+阅读 · 5月22日

安杜里尔与Meta研发军用智能眼镜的内幕

安杜里尔与Meta研发军用智能眼镜的内幕

专知会员服务

7+阅读 · 5月22日

《GPS拒止环境中的网络化赋能目标锁定》总结报告

《GPS拒止环境中的网络化赋能目标锁定》总结报告

专知会员服务

10+阅读 · 5月22日

超越步调威胁：整合人工智能以加速指挥决策

超越步调威胁：整合人工智能以加速指挥决策

专知会员服务

15+阅读 · 5月22日

连接供应链与杀伤链：Palantir 保障与对抗性后勤解决方案

连接供应链与杀伤链：Palantir 保障与对抗性后勤解决方案

专知会员服务

13+阅读 · 5月22日

Nature三连发AI自主科学发现论文

Nature三连发AI自主科学发现论文

专知会员服务

9+阅读 · 5月21日

相关VIP内容

《ARMOR 2025：一个面向军事领域的基准，用于评估大语言模型安全性》

《ARMOR 2025：一个面向军事领域的基准，用于评估大语言模型安全性》

专知会员服务

16+阅读 · 5月7日

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

基于大型语言模型的网络威胁情报：利用LLM提取MITRE ATT&CK技术 | 最新文献

基于大型语言模型的网络威胁情报：利用LLM提取MITRE ATT&CK技术 | 最新文献

专知会员服务

24+阅读 · 2025年10月22日

大语言模型智能体的评估与基准：综述

大语言模型智能体的评估与基准：综述

专知会员服务

50+阅读 · 2025年7月31日

《人工智能安全标准体系（V1.0）》（征求意见稿）

《人工智能安全标准体系（V1.0）》（征求意见稿）

专知会员服务

29+阅读 · 2025年3月23日

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

专知会员服务

50+阅读 · 2024年6月30日

如何评估具身智能？斯坦福李飞飞等发布《BEHAVIOR-1K: 以人为中心、具身化AI基准测试，含1000种日常活动和真实模拟》

如何评估具身智能？斯坦福李飞飞等发布《BEHAVIOR-1K: 以人为中心、具身化AI基准测试，含1000种日常活动和真实模拟》

专知会员服务

62+阅读 · 2024年3月15日

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

专知会员服务

77+阅读 · 2023年4月26日

《支持网络威胁情报的新能力概念》加拿大国防研究与发展部2022最新32页报告

《支持网络威胁情报的新能力概念》加拿大国防研究与发展部2022最新32页报告

专知会员服务

24+阅读 · 2022年11月27日

《人工智能芯片基准测试评估方法》行业标准

《人工智能芯片基准测试评估方法》行业标准

专知会员服务

87+阅读 · 2022年2月20日

热门VIP内容

开通专知VIP会员享更多权益服务

《北约城市作战高级训练技术（UCATT）实况模拟标准2》176页报告

Claw AI Lab：从自动写论文到交互式AI研究实验室

“史诗怒火”行动中的无人机与反无人机作战

[ICML26] 破局长视频理解！快手推出统一框架实现视频定位与深度理解，多项基准测试性能全面提升

相关资讯

推荐！【中文版】《指挥、控制、通信和情报（C3I）系统安全性综述：漏洞、攻击和对策》35页最新论文

推荐！【中文版】《指挥、控制、通信和情报（C3I）系统安全性综述：漏洞、攻击和对策》35页最新论文

专知

42+阅读 · 2022年7月27日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

91+阅读 · 2022年4月17日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

《智能制造机器视觉在线检测测试方法》国家标准意见稿

《智能制造机器视觉在线检测测试方法》国家标准意见稿

专知

13+阅读 · 2022年2月22日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

深度学习在CTR预估中的应用 | CTR深度模型大盘点

深度学习在CTR预估中的应用 | CTR深度模型大盘点

PaperWeekly

15+阅读 · 2018年4月11日

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

AI研习社

14+阅读 · 2018年2月17日

【论文推荐】最新5篇目标检测相关论文——显著目标检测、弱监督One-Shot检测、多框检测器、携带物体检测、假彩色图像检测

【论文推荐】最新5篇目标检测相关论文——显著目标检测、弱监督One-Shot检测、多框检测器、携带物体检测、假彩色图像检测

专知

74+阅读 · 2018年1月16日

推荐｜caffe-orc主流ocr算法：CNN+BLSTM+CTC架构实现！

推荐｜caffe-orc主流ocr算法：CNN+BLSTM+CTC架构实现！

全球人工智能

19+阅读 · 2017年10月29日

[推荐] 这些年，我用过的点击率（CTR）预估模型！！！

[推荐] 这些年，我用过的点击率（CTR）预估模型！！！

菜鸟的机器学习

28+阅读 · 2017年7月31日

相关论文

Cyber Defense Benchmark: Agentic Threat Hunting Evaluation for LLMs in SecOps

Arxiv

0+阅读 · 4月23日

Cyber Defense Benchmark: Agentic Threat Hunting Evaluation for LLMs in SecOps

Arxiv

0+阅读 · 4月22日

Evaluating Privilege Usage of Agents with Real-World Tools

Arxiv

0+阅读 · 4月20日

RealVuln: Benchmarking Rule-Based, General-Purpose LLM, and Security-Specialized Scanners on Real-World Code

Arxiv

0+阅读 · 4月15日

Towards Effective Offensive Security LLM Agents: Hyperparameter Tuning, LLM as a Judge, and a Lightweight CTF Benchmark

Arxiv

0+阅读 · 4月9日

CirrusBench: Evaluating LLM-based Agents Beyond Correctness in Real-World Cloud Service Environments

Arxiv

0+阅读 · 3月30日

WirelessBench: A Tolerance-Aware LLM Agent Benchmark for Wireless Network Intelligence

Arxiv

0+阅读 · 3月22日

AttackSeqBench: Benchmarking the Capabilities of LLMs for Attack Sequences Understanding

Arxiv

0+阅读 · 3月3日

Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing

Arxiv

0+阅读 · 3月3日

How Well Can LLM Agents Simulate End-User Security and Privacy Attitudes and Behaviors?

Arxiv

0+阅读 · 2月24日

相关基金

面向传感网的软件定义测量技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于概率计算的大规模MIMO检测方法

国家自然科学基金

1+阅读 · 2015年12月31日

网络本体质量及适应性的评估研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于图像属性和深度学习的大规模物体检测研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的城市地下工程施工期安全风险评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

面向信息优势的预警信息系统综合效能评估研究与仿真验证

国家自然科学基金

21+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员