Software vulnerability detection can be formulated as a binary classification problem that determines whether a given code snippet contains security defects. Existing multimodal methods typically fuse Natural Code Sequence (NCS) representations extracted by pretrained models with Code Property Graph (CPG) representations extracted by graph neural networks, under the implicit assumption that introducing an additional modality necessarily yields information gain. Through empirical analysis, we demonstrate the limitations of this assumption: pretrained models already encode substantial structural information implicitly, leading to strong overlap between the two modalities; moreover, graph encoders are generally less effective than pretrained language models in feature extraction. As a result, naive fusion not only struggles to obtain complementary signals but can also dilute effective discriminative cues due to noise propagation. To address these challenges, we propose a task-conditioned complementary fusion strategy that uses Fisher information to quantify task relevance, transforming cross-modal interaction from full-spectrum matching into selective fusion within a task-sensitive subspace. Our theoretical analysis shows that, under an isotropic perturbation assumption, this strategy significantly tightens the upper bound on the output error. Based on this insight, we design the TaCCS-DFA framework, which combines online low-rank Fisher subspace estimation with an adaptive gating mechanism to enable efficient task-oriented fusion. Experiments on the BigVul, Devign, and ReVeal benchmarks demonstrate that TaCCS-DFA delivers up to a 6.3-point gain in F1 score with only a 3.4% increase in inference latency, while maintaining low calibration error.


翻译:软件漏洞检测可形式化为一个二元分类问题,用于判断给定代码片段是否包含安全缺陷。现有的多模态方法通常将预训练模型提取的自然代码序列(NCS)表示与图神经网络提取的代码属性图(CPG)表示进行融合,其隐含假设是引入额外模态必然带来信息增益。通过实证分析,我们揭示了该假设的局限性:预训练模型已隐式编码大量结构信息,导致两种模态间存在显著重叠;此外,图编码器在特征提取方面通常弱于预训练语言模型。因此,简单融合不仅难以获得互补信号,还可能因噪声传播而削弱有效的判别性特征。为应对这些挑战,我们提出一种任务条件化互补融合策略,利用Fisher信息量化任务相关性,将跨模态交互从全谱匹配转变为任务敏感子空间内的选择性融合。理论分析表明,在各向同性扰动假设下,该策略能显著收紧输出误差的上界。基于此洞见,我们设计了TaCCS-DFA框架,结合在线低秩Fisher子空间估计与自适应门控机制,实现高效的任务导向融合。在BigVul、Devign和ReVeal基准上的实验表明,TaCCS-DFA在推理延迟仅增加3.4%的情况下,F1分数最高提升6.3个百分点,同时保持较低的校准误差。

0
下载
关闭预览

相关内容

多模态检索增强生成的综合综述
专知会员服务
43+阅读 · 2025年2月17日
《基于高斯混合流和入包的异常检测》2023最新57页论文
专知会员服务
28+阅读 · 2023年5月15日
软件多缺陷定位方法研究综述
专知会员服务
22+阅读 · 2022年1月25日
专知会员服务
10+阅读 · 2021年1月31日
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
Xsser 一款自动检测XSS漏洞工具
黑白之道
14+阅读 · 2019年8月26日
异常检测论文大列表:方法、应用、综述
专知
126+阅读 · 2019年7月15日
深度学习时代的目标检测算法
炼数成金订阅号
40+阅读 · 2018年3月19日
综述:深度学习时代的目标检测算法
极市平台
27+阅读 · 2018年3月17日
论文笔记:多任务相关粒子滤波跟踪器
统计学习与视觉计算组
10+阅读 · 2017年7月7日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员