Safety evaluation of large language models (LLMs) increasingly relies on LLM-as-a-judge pipelines, but strong judges can still be expensive to use at scale. We study whether structured multi-agent debate can improve judge reliability while keeping backbone size and cost modest. To do so, we introduce HAJailBench, a human-annotated jailbreak benchmark with 11,100 labeled interactions spanning diverse attack methods and target models, and we pair it with a Multi-Agent Judge framework in which critic, defender, and judge agents debate under a shared safety rubric. On HAJailBench, the framework improves over matched small-model prompt baselines and prior multi-agent judges, while remaining more economical than GPT-4o under the evaluated pricing snapshot. Ablation results further show that a small number of debate rounds is sufficient to capture most of the gain. Together, these results support structured, value-aligned debate as a practical design for scalable LLM safety evaluation.


翻译:大语言模型(LLM)的安全性评估日益依赖于LLM即评判员(LLM-as-a-judge)的评估流程,但即使采用性能强大的评判模型,在大规模应用时仍可能面临高昂成本。本研究探讨结构化多智能体辩论是否能在保持骨干模型规模与成本可控的同时,提升评判的可靠性。为此,我们提出了HAJailBench——一个包含11,100条标注交互数据的人工标注越狱基准数据集,涵盖多样化的攻击方法与目标模型;并配套构建了多智能体评判框架,其中批评者、辩护者与评判员智能体在统一的安全准则下展开辩论。在HAJailBench上的实验表明,该框架优于匹配的小模型提示基线及先前的多智能体评判方法,同时在所评估的定价快照下仍比GPT-4o更具经济性。消融实验结果进一步表明,仅需少量辩论轮次即可获得大部分性能增益。综合而言,这些结果支持结构化、价值对齐的辩论机制可作为可扩展LLM安全性评估的实用设计方案。

0
下载
关闭预览

相关内容

大语言模型智能体的评估与基准:综述
专知会员服务
50+阅读 · 2025年7月31日
【斯坦福博士论文】大语言模型的AI辅助评估
专知会员服务
31+阅读 · 2025年3月30日
大型语言模型网络安全综述
专知会员服务
68+阅读 · 2024年5月12日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
36+阅读 · 2008年12月31日
VIP会员
最新内容
【综述】 机器人学习中的世界模型:全面综述
伊朗的导弹-无人机行动及其对美国威慑的影响
【综述】 基于大语言模型的对话用户模拟综述
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
36+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员