Modern software package registries like PyPI have become critical infrastructure for software development, but are increasingly exploited by threat actors distributing malicious packages with sophisticated multi-stage attack chains. While Large Language Models (LLMs) offer promising capabilities for automated code analysis, their application to security-critical malware detection faces fundamental challenges, including hallucination and context confusion, which can lead to missed detections or false alarms. We present CHASE (Collaborative Hierarchical Agents for Security Exploration), a high-reliability multi-agent architecture that addresses these limitations through a Plan-and-Execute coordination model, specialized Worker Agents focused on specific analysis aspects, and integration with deterministic security tools for critical operations. Our key insight is that reliability in LLM-based security analysis emerges not from improving individual model capabilities but from architecting systems that compensate for LLM weaknesses while leveraging their semantic understanding strengths. Evaluation on a dataset of 3,000 packages (500 malicious, 2,500 benign) demonstrates that CHASE achieves 98.4% recall with only 0.08% false positive rate, while maintaining a practical median analysis time of 4.5 minutes per package, making it suitable for operational deployment in automated package screening. Furthermore, we conducted a survey with cybersecurity professionals to evaluate the generated analysis reports, identifying their key strengths and areas for improvement. This work provides a blueprint for building reliable AI-powered security tools that can scale with the growing complexity of modern software supply chains. Our project page is available at https://t0d4.github.io/CHASE-AIware25/


翻译:PyPI等现代软件包注册中心已成为软件开发的关键基础设施,但正日益被威胁行为者利用,通过复杂的多阶段攻击链分发恶意软件包。尽管大语言模型为自动化代码分析提供了前景广阔的能力,但其在安全关键型恶意软件检测中的应用面临根本性挑战,包括幻觉和上下文混淆,这可能导致漏检或误报。我们提出CHASE(面向安全探索的协同分层智能体),这是一种高可靠性的多智能体架构,通过"规划-执行"协调模型、专注于特定分析维度的专用工作智能体,以及与确定性安全工具在关键操作环节的集成,有效应对上述局限。我们的核心洞见是:基于大语言模型的安全分析可靠性并非源于提升单个模型能力,而是通过架构设计补偿大语言模型的弱点,同时发挥其语义理解优势。在包含3000个软件包(500个恶意,2500个良性)的数据集上的评估表明,CHASE实现了98.4%的召回率且误报率仅为0.08%,同时保持每个软件包4.5分钟的中位分析时间,适用于自动化软件包筛查的实际部署。此外,我们通过网络安全专家调研评估了生成的分析报告,明确了其核心优势与改进方向。这项工作为构建可靠的人工智能驱动安全工具提供了蓝图,能够适应现代软件供应链日益增长的复杂性。项目页面详见https://t0d4.github.io/CHASE-AIware25/

0
下载
关闭预览

相关内容

软件(中国大陆及香港用语,台湾作软体,英文:Software)是一系列按照特定顺序组织的计算机数据和指令的集合。一般来讲软件被划分为编程语言、系统软件、应用软件和介于这两者之间的中间件。软件就是程序加文档的集合体。
【KDD2024】针对图提示学习的跨上下文后门攻击
专知会员服务
21+阅读 · 2024年6月15日
《使用静态污点分析检测恶意代码》CMU最新30页slides
专知会员服务
21+阅读 · 2023年10月11日
Python图像处理,366页pdf,Image Operators Image Processing in Python
Kaggle知识点:伪标签Pseudo Label
AINLP
40+阅读 · 2020年8月9日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员