A general-purpose language model that answers a harmful question returns text; a coding model that complies with a malicious request can return a working weapon -- a keylogger, a ransomware stub, an exploit that runs as written. This asymmetry in the severity of a single act of compliance implies coding-specialized models should clear a higher refusal bar than general-purpose chat models, not a lower one, yet the field cannot presently tell whether they do. Refusal benchmarks for malicious code are fragmented: they mix requests for executable software (ready-to-run weapons) with requests for harmful security knowledge (information a human must still operationalise) and report refusal rates over non-comparable corpora, so no single statistic measures the property that actually matters. This paper introduces an expanded consensus-labeled prompt bank that distinguishes between these two request types and provides a construct-stable substrate for cross-corpus coding-model compliance measurement. Eight corpora (ASTRA, CySecBench, AdvBench/harmful_behaviors, JailbreakBench, MalwareBench, RedCode, RMCBench, Scam2Prompt) are consolidated and classified under a five-judge consensus protocol (6,675 prompts x 5 judges = 33,375 calls). The panel reaches Fleiss' kappa = 0.767 [95% CI 0.755, 0.777] ("substantial"); 95.0% of prompts draw at least four agreeing judges, 76.9% are unanimous, and the panel reproduces the earlier four-corpus release at Cohen's kappa = 0.952 on the 3,133 shared prompts. The released bank comprises 4,748 consensus-CODE prompts (executable malicious code requests) and 1,923 consensus-KNOWLEDGE prompts (harmful security knowledge requests). The bank is the validated instrument the field has lacked: a reliability-quantified basis for testing whether coding models meet the stricter refusal standard their executable output demands.


翻译:通用语言模型在回答有害问题时会返回文本内容;而编码模型如果遵从恶意请求,则可能直接返回可运行的武器——例如键盘记录器、勒索软件代码片段,或能够直接执行的漏洞利用程序。这种单一遵从行为在严重性上的不对称性,意味着编码专用模型应当比通用聊天模型设定更高的拒绝标准,而非更低的标准。然而,当前学界尚无法判断编码模型是否达到了这一要求。针对恶意代码的拒绝基准测试目前存在碎片化问题:这类测试将可执行软件(即可以直接运行的武器)的请求与有害安全知识(仍需人工操作实施的信息)的请求混杂在一起,并且基于不可比的语料库报告拒绝率,因此没有单一统计量能够真正衡量实际关键的性能指标。本文提出一种经过扩展的共识标注提示库,能够区分上述两种请求类型,并提供一个结构稳定的基础,用于跨语料库的编码模型遵从度测量。研究将八个语料库(ASTRA、CySecBench、AdvBench/harmful_behaviors、JailbreakBench、MalwareBench、RedCode、RMCBench、Scam2Prompt)合并,并采用五位评审者共识协议进行分类(6,675个提示 × 5位评审者 = 33,375次判定)。该评审组的Fleiss kappa系数达到0.767 [95% CI 0.755, 0.777]("高度一致");95.0%的提示获得至少四位评审者同意,76.9%的提示达成全票一致;在针对先前发布的四个语料库中共享的3,133个提示进行复现时,该评审组的Cohen's kappa系数达到0.952。最终发布的提示库包含4,748个共识-CODE提示(可执行恶意代码请求)和1,923个共识-KNOWLEDGE提示(有害安全知识请求)。该提示库成为该领域此前缺失的经验证工具:一个具有可靠性量化指标的基础设施,可用于测试编码模型是否满足其可执行输出所要求的更严格拒绝标准。

0
下载
关闭预览

相关内容

代码(Code)是专知网的一个重要知识资料文档板块,旨在整理收录论文源代码、复现代码,经典工程代码等,便于用户查阅下载使用。
《军事大语言模型的拒绝率测量与消除》
专知会员服务
14+阅读 · 3月13日
《使用静态污点分析检测恶意代码》CMU最新30页slides
专知会员服务
22+阅读 · 2023年10月11日
深度学习赋能的恶意代码攻防研究进展
专知会员服务
30+阅读 · 2021年4月11日
【智能金融】机器学习在反欺诈中应用
产业智能官
35+阅读 · 2019年3月15日
深度学习文本分类方法综述(代码)
中国人工智能学会
28+阅读 · 2018年6月16日
【干货】深入理解自编码器(附代码实现)
【干货】一文读懂什么是变分自编码器
专知
12+阅读 · 2018年2月11日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员