As Large Language Models (LLMs) for code increasingly utilize massive, often non-permissively licensed datasets, evaluating data contamination through Membership Inference Attacks (MIAs) has become critical. We propose SERSEM (Selective Entropy-Weighted Scoring for Membership Inference), a novel white-box attack framework that suppresses uninformative syntactical boilerplate to amplify specific memorization signals. SERSEM utilizes a dual-signal methodology: first, a continuous character-level weight mask is derived through static Abstract Syntax Tree (AST) analysis, spellchecking-based multilingual logic detection, and offline linting. Second, these heuristic weights are used to pool internal transformer activations and calibrate token-level Z-scores from the output logits. Evaluated on a 25,000-sample balanced dataset, SERSEM achieves a global AUC-ROC of 0.7913 on the StarCoder2-3B model and 0.7867 on the StarCoder2-7B model, consistently outperforming the implemented probability-based baselines Loss, Min-K% Prob, and PAC. Our findings demonstrate that focusing on human-centric coding anomalies provides a significantly more robust indicator of verbatim memorization than sequence-level probability averages.


翻译:随着大型代码语言模型(LLM)日益依赖海量且常为非许可授权数据集,通过成员推理攻击(MIA)评估数据污染问题变得至关重要。本文提出SERSEM(面向成员推理的选择性熵加权评分),一种新颖的白盒攻击框架,通过抑制无信息价值的语法模板来放大特定记忆信号。SERSEM采用双信号方法:首先,通过静态抽象语法树(AST)分析、基于拼写检查的多语言逻辑检测和离线代码检查推导出连续字符级权重掩码;其次,利用这些启发式权重汇聚内部Transformer激活值,并校准输出对数概率的令牌级Z分数。在包含25,000个样本的平衡数据集上评估,SERSEM在StarCoder2-3B模型上达到0.7913的全局AUC-ROC,在StarCoder2-7B模型上达到0.7867,始终优于所实现的基于概率的基准方法Loss、Min-K% Prob和PAC。我们的研究结果表明,聚焦人类编码异常特征相比序列级概率平均值,能为逐字记忆提供显著更稳健的指示信号。

0
下载
关闭预览

相关内容

代码(Code)是专知网的一个重要知识资料文档板块,旨在整理收录论文源代码、复现代码,经典工程代码等,便于用户查阅下载使用。
关于大语言模型驱动的推荐系统智能体的综述
专知会员服务
29+阅读 · 2025年2月17日
大规模语言模型增强推荐系统:分类、趋势、应用与未来
专知会员服务
40+阅读 · 2024年12月22日
大语言模型在序列推荐中的应用
专知会员服务
19+阅读 · 2024年11月12日
深度学习在CTR预估中的应用 | CTR深度模型大盘点
PaperWeekly
15+阅读 · 2018年4月11日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
0+阅读 · 15分钟前
综述 | 世界动作模型:少做梦,多行动
专知会员服务
0+阅读 · 17分钟前
美以伊冲突:无人机与人工智能的运用
专知会员服务
1+阅读 · 29分钟前
《特种部队在透明战场中的生存力》最新报告
专知会员服务
1+阅读 · 49分钟前
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
关于大语言模型驱动的推荐系统智能体的综述
专知会员服务
29+阅读 · 2025年2月17日
大规模语言模型增强推荐系统:分类、趋势、应用与未来
专知会员服务
40+阅读 · 2024年12月22日
大语言模型在序列推荐中的应用
专知会员服务
19+阅读 · 2024年11月12日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员