We present MultiVer, a zero-shot multi-agent system for vulnerability detection that achieves state-of-the-art recall without fine-tuning. A four-agent ensemble (security, correctness, performance, style) with union voting achieves 82.7% recall on PyVul, exceeding fine-tuned GPT-3.5 (81.3%) by 1.4 percentage points -- the first zeroshot system to surpass fine-tuned performance on this benchmark. On SecurityEval, the same architecture achieves 91.7% detection rate, matching specialized systems. The recall improvement comes at a precision cost: 48.8% precision versus 63.9% for fine-tuned baselines, yielding 61.4% F1. Ablation experiments isolate component contributions: the multi-agent ensemble adds 17 percentage points recall over single-agent security analysis. These results demonstrate that for security applications where false negatives are costlier than false positives, zero-shot multi-agent ensembles can match and exceed fine-tuned models on the metric that matters most.


翻译:本文提出MultiVer,一种用于漏洞检测的零样本多智能体系统,无需微调即可实现最先进的召回率。通过采用四智能体集成(安全、正确性、性能、风格)并结合联合投票机制,该系统在PyVul数据集上达到82.7%的召回率,超过微调后的GPT-3.5模型(81.3%)1.4个百分点——这是首个在该基准测试中超越微调模型性能的零样本系统。在SecurityEval数据集上,相同架构实现了91.7%的检测率,与专用系统性能相当。召回率的提升以精确度为代价:系统精确度为48.8%,而微调基线为63.9%,最终F1分数为61.4%。消融实验明确了各组件贡献:多智能体集成相比单智能体安全分析带来17个百分点的召回率提升。这些结果表明,在漏报代价高于误报的安全应用场景中,零样本多智能体集成能够在最关键的性能指标上达到甚至超越微调模型。

0
下载
关闭预览

相关内容

《多智能体大语言模型系统的可靠决策研究》
专知会员服务
38+阅读 · 2月2日
面向大模型多智能体系统的多维评估方法
专知会员服务
34+阅读 · 2025年4月15日
先进人工智能的多智能体风险
专知会员服务
26+阅读 · 2025年2月22日
【NUS博士论文】面向交互的多智能体行为预测,156页pdf
专知会员服务
32+阅读 · 2024年11月17日
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
多智能体强化学习(MARL)近年研究概览
PaperWeekly
38+阅读 · 2020年3月15日
读书报告 | Deep Learning for Extreme Multi-label Text Classification
科技创新与创业
48+阅读 · 2018年1月10日
论文笔记:多任务相关粒子滤波跟踪器
统计学习与视觉计算组
10+阅读 · 2017年7月7日
侦测欺诈交易(异常点检测)
GBASE数据工程部数据团队
20+阅读 · 2017年5月10日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
Arxiv
0+阅读 · 2月13日
VIP会员
最新内容
《作战研究是实现战场人工智能潜力的关键》
专知会员服务
12+阅读 · 今天6:08
《军事训练与行动期间新鲜膳食营养保障》380页
专知会员服务
2+阅读 · 今天5:40
伊朗战争时间线:关键节点与袭击事件
专知会员服务
6+阅读 · 今天5:34
《面向海军应用的无人机网络安全仿真环境》
专知会员服务
11+阅读 · 4月7日
无人机与僵局:俄乌战争难以突破
专知会员服务
5+阅读 · 4月7日
相关VIP内容
《多智能体大语言模型系统的可靠决策研究》
专知会员服务
38+阅读 · 2月2日
面向大模型多智能体系统的多维评估方法
专知会员服务
34+阅读 · 2025年4月15日
先进人工智能的多智能体风险
专知会员服务
26+阅读 · 2025年2月22日
【NUS博士论文】面向交互的多智能体行为预测,156页pdf
专知会员服务
32+阅读 · 2024年11月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员