Membership inference attacks (MIAs) are widely used to assess the privacy risks associated with machine learning models. However, when these attacks are applied to pre-trained large language models (LLMs), they encounter significant challenges, including mislabeled samples, distribution shifts, and discrepancies in model size between experimental and real-world settings. To address these limitations, we introduce tokenizers as a new attack vector for membership inference. Specifically, a tokenizer converts raw text into tokens for LLMs. Unlike full models, tokenizers can be efficiently trained from scratch, thereby avoiding the aforementioned challenges. In addition, the tokenizer's training data is typically representative of the data used to pre-train LLMs. Despite these advantages, the potential of tokenizers as an attack vector remains unexplored. To this end, we present the first study on membership leakage through tokenizers and explore five attack methods to infer dataset membership. Extensive experiments on millions of Internet samples reveal the vulnerabilities in the tokenizers of state-of-the-art LLMs. To mitigate this emerging risk, we further propose an adaptive defense. Our findings highlight tokenizers as an overlooked yet critical privacy threat, underscoring the urgent need for privacy-preserving mechanisms specifically designed for them.


翻译:成员推理攻击(MIAs)被广泛用于评估机器学习模型相关的隐私风险。然而,当这些攻击应用于预训练大语言模型(LLMs)时,它们面临着重大挑战,包括样本误标、分布偏移以及实验环境与真实场景之间的模型规模差异。为应对这些局限,我们引入分词器作为一种新的成员推理攻击向量。具体而言,分词器将原始文本转换为LLMs可处理的词元。与完整模型不同,分词器可以从头开始高效训练,从而避免了上述挑战。此外,分词器的训练数据通常能代表用于预训练LLMs的数据。尽管存在这些优势,分词器作为攻击向量的潜力仍未得到探索。为此,我们首次开展了关于通过分词器泄露成员信息的研究,并探索了五种推断数据集成员资格的攻击方法。基于数百万互联网样本的大规模实验揭示了当前最先进LLMs分词器中存在的脆弱性。为缓解这一新兴风险,我们进一步提出了一种自适应防御方法。我们的研究结果表明,分词器是一个被忽视但关键的隐私威胁,这强调了专门为其设计隐私保护机制的迫切需求。

0
下载
关闭预览

相关内容

将一个汉字序列切分成一个一个单独的词
大语言模型机器遗忘综述
专知会员服务
18+阅读 · 2025年11月2日
高效大语言模型推理服务综述
专知会员服务
18+阅读 · 2025年4月30日
通过逻辑推理赋能大语言模型:综述
专知会员服务
32+阅读 · 2025年2月24日
【新书】大规模语言模型的隐私与安全,
专知会员服务
29+阅读 · 2024年12月4日
大型语言模型高效推理综述
专知会员服务
64+阅读 · 2024年4月23日
【AAAI2024】大型语言模型是神经符号推理器
专知会员服务
37+阅读 · 2024年1月18日
通信网络中大型语言模型的后门攻击的综述
专知会员服务
30+阅读 · 2023年9月5日
「大型语言模型推理」综述
专知会员服务
95+阅读 · 2022年12月24日
专知会员服务
23+阅读 · 2021年8月22日
模型攻击:鲁棒性联邦学习研究的最新进展
机器之心
35+阅读 · 2020年6月3日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
0+阅读 · 1月16日
Arxiv
0+阅读 · 1月10日
VIP会员
最新内容
战争机器学习:数据生态系统构建(155页)
专知会员服务
5+阅读 · 今天8:10
内省扩散语言模型
专知会员服务
5+阅读 · 4月14日
国外反无人机系统与技术动态
专知会员服务
3+阅读 · 4月14日
大规模作战行动中的战术作战评估(研究论文)
未来的海战无人自主系统
专知会员服务
3+阅读 · 4月14日
美军多域作战现状分析:战略、概念还是幻想?
无人机与反无人机系统(书籍)
专知会员服务
19+阅读 · 4月14日
美陆军2026条令:安全与机动支援
专知会员服务
9+阅读 · 4月14日
相关VIP内容
大语言模型机器遗忘综述
专知会员服务
18+阅读 · 2025年11月2日
高效大语言模型推理服务综述
专知会员服务
18+阅读 · 2025年4月30日
通过逻辑推理赋能大语言模型:综述
专知会员服务
32+阅读 · 2025年2月24日
【新书】大规模语言模型的隐私与安全,
专知会员服务
29+阅读 · 2024年12月4日
大型语言模型高效推理综述
专知会员服务
64+阅读 · 2024年4月23日
【AAAI2024】大型语言模型是神经符号推理器
专知会员服务
37+阅读 · 2024年1月18日
通信网络中大型语言模型的后门攻击的综述
专知会员服务
30+阅读 · 2023年9月5日
「大型语言模型推理」综述
专知会员服务
95+阅读 · 2022年12月24日
专知会员服务
23+阅读 · 2021年8月22日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员