Large language models (LLMs) are increasingly used to help security analysts manage the surge of cyber threats, automating tasks from vulnerability assessment to incident response. Yet in operational CTI workflows, reliability gaps remain substantial. Existing explanations often point to generic model issues (e.g., hallucination), but we argue the dominant bottleneck is the threat landscape itself: CTI is heterogeneous, volatile, and fragmented. Under these conditions, evidence is intertwined, crowdsourced, and temporally unstable, which are properties that standard LLM-based studies rarely capture. In this paper, we present a comprehensive empirical study of LLM vulnerabilities in CTI reasoning. We introduce a human-in-the-loop categorization framework that robustly labels failure modes across the CTI lifecycle, avoiding the brittleness of automated "LLM-as-a-judge" pipelines. We identify three domain-specific cognitive failures: spurious correlations from superficial metadata, contradictory knowledge from conflicting sources, and constrained generalization to emerging threats. We validate these mechanisms via causal interventions and show that targeted defenses reduce failure rates significantly. Together, these results offer a concrete roadmap for building resilient, domain-aware CTI agents.


翻译:大语言模型正日益用于协助安全分析师应对激增的网络威胁,实现从漏洞评估到事件响应等任务的自动化。然而在实战化的网络威胁情报工作流中,可靠性差距依然显著。现有解释多归因于通用模型问题(如幻觉),但我们认为主要瓶颈在于威胁态势本身:网络威胁情报具有异构性、动态性和碎片化特征。在此条件下,证据呈现交织性、众源性和时序不稳定性,这些特性是标准基于大语言模型的研究鲜少捕捉的。本文通过实证研究系统揭示大语言模型在网络威胁情报推理中的脆弱性。我们提出一种人机协同分类框架,该框架能稳健标注网络威胁情报全生命周期的失效模式,避免自动化“大语言模型即评判”流程的脆弱性。我们识别出三类领域特定的认知失效:源于表层元数据的伪相关性、来自冲突源的矛盾知识,以及对新兴威胁的受限泛化能力。通过因果干预验证了这些机制,并证明针对性防御措施能显著降低失效率。这些研究成果共同为构建具有领域感知能力的弹性网络威胁情报智能体提供了具体路线图。

0
下载
关闭预览

相关内容

探索大型语言模型在网络安全中的作用:一项系统综述
专知会员服务
20+阅读 · 2025年4月27日
面向网络空间认知战的大语言模型:技术与挑战
专知会员服务
50+阅读 · 2025年1月3日
大语言模型评估技术研究进展
专知会员服务
48+阅读 · 2024年7月9日
大型语言模型网络安全综述
专知会员服务
67+阅读 · 2024年5月12日
大语言模型安全现状与挑战
专知会员服务
87+阅读 · 2024年1月14日
一文速览大语言模型提示最新进展
专知会员服务
80+阅读 · 2023年12月24日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
41+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
41+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
RedSage: A Cybersecurity Generalist LLM
Arxiv
0+阅读 · 1月29日
VIP会员
相关VIP内容
探索大型语言模型在网络安全中的作用:一项系统综述
专知会员服务
20+阅读 · 2025年4月27日
面向网络空间认知战的大语言模型:技术与挑战
专知会员服务
50+阅读 · 2025年1月3日
大语言模型评估技术研究进展
专知会员服务
48+阅读 · 2024年7月9日
大型语言模型网络安全综述
专知会员服务
67+阅读 · 2024年5月12日
大语言模型安全现状与挑战
专知会员服务
87+阅读 · 2024年1月14日
一文速览大语言模型提示最新进展
专知会员服务
80+阅读 · 2023年12月24日
相关资讯
相关基金
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
41+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
41+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员