Safety evaluation of large language models (LLMs) increasingly relies on LLM-as-a-Judge frameworks, but the high cost of frontier models limits scalability. We propose a cost-efficient multi-agent judging framework that employs Small Language Models (SLMs) through structured debates among critic, defender, and judge agents. To rigorously assess safety judgments, we construct HAJailBench, a large-scale human-annotated jailbreak benchmark comprising 12,000 adversarial interactions across diverse attack methods and target models. The dataset provides fine-grained, expert-labeled ground truth for evaluating both safety robustness and judge reliability. Our SLM-based framework achieves agreement comparable to GPT-4o judges on HAJailBench while substantially reducing inference cost. Ablation results show that three rounds of debate yield the optimal balance between accuracy and efficiency. These findings demonstrate that structured, value-aligned debate enables SLMs to capture semantic nuances of jailbreak attacks and that HAJailBench offers a reliable foundation for scalable LLM safety evaluation.


翻译:大语言模型(LLM)的安全性评估日益依赖LLM即法官框架,但前沿模型的高昂成本限制了其可扩展性。我们提出了一种成本高效的多智能体评判框架,通过批评者、辩护者和法官智能体之间的结构化辩论,利用小语言模型(SLM)进行安全评估。为严格评估安全判断,我们构建了HAJailBench——一个大规模人工标注的越狱基准数据集,包含涵盖多种攻击方法和目标模型的12,000次对抗性交互。该数据集提供了细粒度、专家标注的真实标签,用于评估安全鲁棒性和法官可靠性。我们基于SLM的框架在HAJailBench上实现了与GPT-4o法官相当的判断一致性,同时显著降低了推理成本。消融实验表明,三轮辩论能在准确性与效率之间达到最优平衡。这些发现证明:结构化、价值对齐的辩论能使SLM捕捉越狱攻击的语义细微差别,而HAJailBench为可扩展的LLM安全评估提供了可靠基础。

0
下载
关闭预览

相关内容

大语言模型智能体的评估与基准:综述
专知会员服务
50+阅读 · 2025年7月31日
158页!天大等最新《大型语言模型安全:全面综述》
专知会员服务
50+阅读 · 2024年12月24日
《多模态大语言模型评估综述》
专知会员服务
41+阅读 · 2024年8月29日
大型语言模型网络安全综述
专知会员服务
68+阅读 · 2024年5月12日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
36+阅读 · 2008年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 今天15:00
21世纪的无人机战争
专知会员服务
2+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
2+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
36+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员