Prior work has demonstrated that functionally correct yet vulnerable outputs arise systematically in threat-oriented settings, where adversarial or implicit channels are used to induce security failures in code agents and automated patching workflows. This note introduces a complementary but distinct framing: False Security Confidence (FSC), which studies the same surface phenomenon from a measurement-first perspective in ordinary, non-attack-framed generation tasks. Our interest is not in whether attacks can produce such outputs, but in how frequently and in what forms they appear absent explicit attack pressure, and whether conventional functional evaluation reliably detects them. We formalize FSC rate as the prevalence of security failure within the set of functionally correct outputs, distinguish it from prior joint functional-security metrics such as SAFE and outcome-driven evaluation frameworks such as CWEval, define a three-ecosystem task view for studying how FSC manifests across general-purpose programming, deployment-context tasks, and security-explicit programming, and identify FSC-hard as a practically important refinement layer in which static analyzers miss vulnerabilities that remain dynamically triggerable. This technical report is intentionally scoped as a framework statement rather than a full empirical paper: its purpose is to establish terminology, measurement boundaries, and study design commitments for subsequent large-scale evaluation.


翻译:先前研究已表明,在威胁导向场景中,功能正确但存在漏洞的输出会系统性产生——这些场景利用对抗性或隐式通道诱导代码代理及自动化补丁工作流出现安全故障。本报告提出一种互补但不同的框架:虚假安全信心(False Security Confidence, FSC),它从普通非攻击框架生成任务的测量优先视角出发,研究同一表面现象。我们的关注点并非攻击能否产生此类输出,而是在缺乏明确攻击压力时,这些输出出现的频率与形式,以及常规功能评估能否可靠检测它们。我们将FSC率形式化为功能正确输出集中安全故障的普遍程度,区别于SAFE等先前联合功能安全指标及CWEval等结果驱动评估框架;定义了三生态系统任务视图,用于研究FSC在通用编程、部署上下文任务及安全显式编程中的表现;并将FSC-hard识别为实践中重要的精化层——在此层面,静态分析工具遗漏了可动态触发的漏洞。本技术报告有意限定为框架陈述而非完整实验论文:其目的在于为后续大规模评估确立术语、测量边界及研究设计承诺。

0
下载
关闭预览

相关内容

大型语言模型系统中提示缺陷的分类学
专知会员服务
8+阅读 · 2025年9月19日
《大语言模型中的对齐伪造》最新137页
专知会员服务
11+阅读 · 2025年1月27日
生成式人工智能大型语言模型的安全性:概述
专知会员服务
35+阅读 · 2024年7月30日
大语言模型中的提示隐私保护
专知会员服务
24+阅读 · 2024年7月24日
【CIKM2024】使用大型视觉语言模型的多模态虚假信息检测
大型语言模型网络安全综述
专知会员服务
68+阅读 · 2024年5月12日
揭秘AI识别虚假新闻背后的原理
DeepTech深科技
10+阅读 · 2018年8月5日
网络安全态势感知浅析
计算机与网络安全
18+阅读 · 2017年10月13日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
“史诗怒火”行动中的无人机与反无人机作战
专知会员服务
10+阅读 · 5月25日
Claw AI Lab:从自动写论文到交互式AI研究实验室
专知会员服务
7+阅读 · 5月24日
美以伊冲突中的无人机反防空作战
专知会员服务
9+阅读 · 5月23日
安杜里尔与Meta研发军用智能眼镜的内幕
专知会员服务
7+阅读 · 5月22日
超越步调威胁:整合人工智能以加速指挥决策
专知会员服务
15+阅读 · 5月22日
Nature三连发AI自主科学发现论文
专知会员服务
9+阅读 · 5月21日
相关VIP内容
相关资讯
揭秘AI识别虚假新闻背后的原理
DeepTech深科技
10+阅读 · 2018年8月5日
网络安全态势感知浅析
计算机与网络安全
18+阅读 · 2017年10月13日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员