As large language models (LLMs) become integral to safety-critical applications, ensuring their robustness against adversarial prompts is paramount. However, existing red teaming datasets suffer from inconsistent risk categorizations, limited domain coverage, and outdated evaluations, hindering systematic vulnerability assessments. To address these challenges, we introduce RedBench, a universal dataset aggregating 37 benchmark datasets from leading conferences and repositories, comprising 29,362 samples across attack and refusal prompts. RedBench employs a standardized taxonomy with 22 risk categories and 19 domains, enabling consistent and comprehensive evaluations of LLM vulnerabilities. We provide a detailed analysis of existing datasets, establish baselines for modern LLMs, and open-source the dataset and evaluation code. Our contributions facilitate robust comparisons, foster future research, and promote the development of secure and reliable LLMs for real-world deployment. Code: https://github.com/knoveleng/redeval


翻译:随着大型语言模型(LLM)在安全关键型应用中的日益普及,确保其对抗对抗性提示的鲁棒性变得至关重要。然而,现有的红队测试数据集存在风险分类不一致、领域覆盖有限以及评估方法过时等问题,阻碍了系统性的漏洞评估。为解决这些挑战,我们提出了RedBench,这是一个通用数据集,它整合了来自顶级学术会议和公开仓库的37个基准数据集,包含攻击性提示和拒绝性提示共计29,362个样本。RedBench采用标准化的分类体系,涵盖22个风险类别和19个领域,能够对LLM漏洞进行一致且全面的评估。我们对现有数据集进行了详细分析,为现代LLM建立了性能基线,并开源了数据集和评估代码。我们的贡献有助于实现鲁棒的模型比较,推动未来研究,并促进开发适用于现实世界部署的安全可靠的大型语言模型。代码:https://github.com/knoveleng/redeval

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
【CVPR2024】SHiNe:用于开放词汇目标检测的语义层次枢纽
专知会员服务
14+阅读 · 2024年5月18日
【NeurIPS2022】SparCL:边缘稀疏持续学习
专知会员服务
24+阅读 · 2022年9月22日
【NeurIPS2019】图变换网络:Graph Transformer Network
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员