De-Anonymization at Scale via Tournament-Style Attribution - 专知论文

会员服务 ·

0

匿名化 · 排序 · 大语言模型 · 语言模型 · 关联 ·

De-Anonymization at Scale via Tournament-Style Attribution

翻译：基于锦标赛式归因的大规模去匿名化

Lirui Zhang,Huishuai Zhang

from arxiv, 14 pages

As LLMs rapidly advance and enter real-world use, their privacy implications are increasingly important. We study an authorship de-anonymization threat: using LLMs to link anonymous documents to their authors, potentially compromising settings such as double-blind peer review. We propose De-Anonymization at Scale (DAS), a large language model-based method for attributing authorship among tens of thousands of candidate texts. DAS uses a sequential progression strategy: it randomly partitions the candidate corpus into fixed-size groups, prompts an LLM to select the text most likely written by the same author as a query text, and iteratively re-queries the surviving candidates to produce a ranked top-k list. To make this practical at scale, DAS adds a dense-retrieval prefilter to shrink the search space and a majority-voting style aggregation over multiple independent runs to improve robustness and ranking precision. Experiments on anonymized review data show DAS can recover same-author texts from pools of tens of thousands with accuracy well above chance, demonstrating a realistic privacy risk for anonymous platforms. On standard authorship benchmarks (Enron emails and blog posts), DAS also improves both accuracy and scalability over prior approaches, highlighting a new LLM-enabled de-anonymization vulnerability.

翻译：随着大语言模型（LLM）的快速发展和实际应用，其隐私影响日益重要。我们研究了一种作者身份去匿名化威胁：利用LLM将匿名文档与其作者关联，可能危及双盲同行评审等场景。我们提出了大规模去匿名化（DAS），一种基于大语言模型的方法，可在数万份候选文本中进行作者归属。DAS采用顺序递进策略：将候选语料库随机划分为固定大小的组，提示LLM选择最可能由查询文本相同作者撰写的文本，并迭代地对幸存候选文本进行重新查询，以生成排序的top-k列表。为实现大规模实用化，DAS增加了密集检索预过滤器以缩小搜索空间，并通过多轮独立运行采用多数投票式聚合来提高鲁棒性和排序精度。在匿名评审数据上的实验表明，DAS能从数万份文本池中恢复同作者文本，准确率显著高于随机水平，证明了匿名平台面临的实际隐私风险。在标准作者归属基准测试（安然公司电子邮件和博客文章）中，DAS在准确性和可扩展性上也优于现有方法，凸显了LLM赋能的新型去匿名化漏洞。

0

相关内容

匿名化

大型语言模型中隐性与显性偏见的综合研究

大型语言模型中隐性与显性偏见的综合研究

专知会员服务

17+阅读 · 2025年11月25日

大型语言模型的规模效应局限

大型语言模型的规模效应局限

专知会员服务

14+阅读 · 2025年11月18日

【CMU博士论文】大型语言模型的隐性特性

【CMU博士论文】大型语言模型的隐性特性

专知会员服务

15+阅读 · 2025年10月18日

探索大型语言模型在网络安全中的作用：一项系统综述

探索大型语言模型在网络安全中的作用：一项系统综述

专知会员服务

21+阅读 · 2025年4月27日

【新书】大规模语言模型的隐私与安全，

【新书】大规模语言模型的隐私与安全，

专知会员服务

29+阅读 · 2024年12月4日

大规模语言模型的个性化：综述

大规模语言模型的个性化：综述

专知会员服务

43+阅读 · 2024年11月4日

大语言模型中的提示隐私保护

大语言模型中的提示隐私保护

专知会员服务

24+阅读 · 2024年7月24日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

大模型如何处理隐私？哈佛最新《大型语言模型中的隐私问题》综述

大模型如何处理隐私？哈佛最新《大型语言模型中的隐私问题》综述

专知会员服务

44+阅读 · 2023年12月15日

大型语言模型公平性

大型语言模型公平性

专知会员服务

41+阅读 · 2023年8月31日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

基于深度神经网络的关键词提取，Keywords extraction with DNN

基于深度神经网络的关键词提取，Keywords extraction with DNN

专知

10+阅读 · 2020年5月7日

【比赛冠军方案开源】真实场景下身份证复印件OCR信息抽取

【比赛冠军方案开源】真实场景下身份证复印件OCR信息抽取

专知

16+阅读 · 2020年1月9日

赛尔原创 | EMNLP 2019 基于上下文感知的变分自编码器建模事件背景知识进行If-Then类型常识推理

赛尔原创 | EMNLP 2019 基于上下文感知的变分自编码器建模事件背景知识进行If-Then类型常识推理

哈工大SCIR

17+阅读 · 2019年9月23日

DeepMind爆出无监督表示学习模型BigBiGAN，GAN之父点赞！

DeepMind爆出无监督表示学习模型BigBiGAN，GAN之父点赞！

新智元

13+阅读 · 2019年7月9日

放弃手工标记数据，斯坦福大学开发弱监督编程范式Snorkel

放弃手工标记数据，斯坦福大学开发弱监督编程范式Snorkel

新智元

14+阅读 · 2019年3月15日

经典论文复现 | 基于标注策略的实体和关系联合抽取

经典论文复现 | 基于标注策略的实体和关系联合抽取

PaperWeekly

13+阅读 · 2018年11月23日

面向大规模在线学习的社会化推荐模型与方法

面向大规模在线学习的社会化推荐模型与方法

MOOC

10+阅读 · 2018年6月8日

LSF-SCNN：一种基于CNN的短文本表达模型及相似度计算的全新优化模型

LSF-SCNN：一种基于CNN的短文本表达模型及相似度计算的全新优化模型

全球人工智能

21+阅读 · 2017年10月27日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

满足差分隐私的频繁模式挖掘研究

国家自然科学基金

2+阅读 · 2015年12月31日

即时通信中的隐蔽通信模型及方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

内容中心移动社交网络高效安全匿名通信机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

即时通讯匿名隐通道系统模型与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

可证明的网络和数据匿名性及隐私增强身份管理关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

中英文论文中的中国作者姓名消歧研究

国家自然科学基金

0+阅读 · 2014年12月31日

大规模在线社会网络社区发现及隐私保护研究

国家自然科学基金

1+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Large-scale online deanonymization with LLMs

Arxiv

0+阅读 · 2月18日

RAT-Bench: A Comprehensive Benchmark for Text Anonymization

Arxiv

0+阅读 · 2月13日

Stop Tracking Me! Proactive Defense Against Attribute Inference Attack in LLMs

Arxiv

0+阅读 · 2月12日

Differentially Private and Communication Efficient Large Language Model Split Inference via Stochastic Quantization and Soft Prompt

Arxiv

0+阅读 · 2月12日

Privacy Control in Conversational LLM Platforms: A Walkthrough Study

Arxiv

0+阅读 · 2月11日

Quantifying Risks in Multi-turn Conversation with Large Language Models

Arxiv

0+阅读 · 2月4日

DeFrame: Debiasing Large Language Models Against Framing Effects

Arxiv

0+阅读 · 2月4日

FIT: Defying Catastrophic Forgetting in Continual LLM Unlearning

Arxiv

0+阅读 · 1月29日

Seldom: An Anonymity Network with Selective Deanonymization

Arxiv

0+阅读 · 1月29日

Undesirable Memorization in Large Language Models: A Survey

Arxiv

0+阅读 · 1月19日

VIP会员

文章信息

相关主题

大语言模型

最新内容

《美国首席数字与人工智能办公室（CDAO）人工智能治理与采办流程效能评估》报告

《美国首席数字与人工智能办公室（CDAO）人工智能治理与采办流程效能评估》报告

专知会员服务

0+阅读 · 9分钟前

算法战加速推进：五角大楼项目、供应商生态体系与军事创新的战略重塑

算法战加速推进：五角大楼项目、供应商生态体系与军事创新的战略重塑

专知会员服务

0+阅读 · 22分钟前

探秘Palantir：驱动美情报的科技巨头

探秘Palantir：驱动美情报的科技巨头

专知会员服务

0+阅读 · 31分钟前

《从技术突破到战场应用：发挥原型开发效能的最佳实践》报告

《从技术突破到战场应用：发挥原型开发效能的最佳实践》报告

专知会员服务

1+阅读 · 36分钟前

《美国海军军事海运司令部 2026年手册》

《美国海军军事海运司令部 2026年手册》

专知会员服务

0+阅读 · 40分钟前

别再只盯着“杀手机器人”了：人工智能真正变革现代战争的三种方式

别再只盯着“杀手机器人”了：人工智能真正变革现代战争的三种方式

专知会员服务

0+阅读 · 今天2:36

《人工智能使能系统可靠性框架》

《人工智能使能系统可靠性框架》

专知会员服务

1+阅读 · 今天2:28

2026“人工智能+”行业发展蓝皮书（附下载）

2026“人工智能+”行业发展蓝皮书（附下载）

专知会员服务

10+阅读 · 4月26日

《强化学习数学基础》

《强化学习数学基础》

专知会员服务

7+阅读 · 4月26日

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

专知会员服务

7+阅读 · 4月26日

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

专知会员服务

5+阅读 · 4月26日

深入Maven智能系统：Palantir基于Claude打造的军事大脑

深入Maven智能系统：Palantir基于Claude打造的军事大脑

专知会员服务

12+阅读 · 4月26日

“Maven计划”的发展演变之“Maven智能系统”应用

“Maven计划”的发展演变之“Maven智能系统”应用

专知会员服务

10+阅读 · 4月26日

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

专知会员服务

7+阅读 · 4月26日

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

专知会员服务

7+阅读 · 4月26日

相关VIP内容

大型语言模型中隐性与显性偏见的综合研究

大型语言模型中隐性与显性偏见的综合研究

专知会员服务

17+阅读 · 2025年11月25日

大型语言模型的规模效应局限

大型语言模型的规模效应局限

专知会员服务

14+阅读 · 2025年11月18日

【CMU博士论文】大型语言模型的隐性特性

【CMU博士论文】大型语言模型的隐性特性

专知会员服务

15+阅读 · 2025年10月18日

探索大型语言模型在网络安全中的作用：一项系统综述

探索大型语言模型在网络安全中的作用：一项系统综述

专知会员服务

21+阅读 · 2025年4月27日

【新书】大规模语言模型的隐私与安全，

【新书】大规模语言模型的隐私与安全，

专知会员服务

29+阅读 · 2024年12月4日

大规模语言模型的个性化：综述

大规模语言模型的个性化：综述

专知会员服务

43+阅读 · 2024年11月4日

大语言模型中的提示隐私保护

大语言模型中的提示隐私保护

专知会员服务

24+阅读 · 2024年7月24日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

大模型如何处理隐私？哈佛最新《大型语言模型中的隐私问题》综述

大模型如何处理隐私？哈佛最新《大型语言模型中的隐私问题》综述

专知会员服务

44+阅读 · 2023年12月15日

大型语言模型公平性

大型语言模型公平性

专知会员服务

41+阅读 · 2023年8月31日

热门VIP内容

开通专知VIP会员享更多权益服务

探秘Palantir：驱动美情报的科技巨头

《美国海军军事海运司令部 2026年手册》

算法战加速推进：五角大楼项目、供应商生态体系与军事创新的战略重塑

《从技术突破到战场应用：发挥原型开发效能的最佳实践》报告

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

基于深度神经网络的关键词提取，Keywords extraction with DNN

基于深度神经网络的关键词提取，Keywords extraction with DNN

专知

10+阅读 · 2020年5月7日

【比赛冠军方案开源】真实场景下身份证复印件OCR信息抽取

【比赛冠军方案开源】真实场景下身份证复印件OCR信息抽取

专知

16+阅读 · 2020年1月9日

赛尔原创 | EMNLP 2019 基于上下文感知的变分自编码器建模事件背景知识进行If-Then类型常识推理

赛尔原创 | EMNLP 2019 基于上下文感知的变分自编码器建模事件背景知识进行If-Then类型常识推理

哈工大SCIR

17+阅读 · 2019年9月23日

DeepMind爆出无监督表示学习模型BigBiGAN，GAN之父点赞！

DeepMind爆出无监督表示学习模型BigBiGAN，GAN之父点赞！

新智元

13+阅读 · 2019年7月9日

放弃手工标记数据，斯坦福大学开发弱监督编程范式Snorkel

放弃手工标记数据，斯坦福大学开发弱监督编程范式Snorkel

新智元

14+阅读 · 2019年3月15日

经典论文复现 | 基于标注策略的实体和关系联合抽取

经典论文复现 | 基于标注策略的实体和关系联合抽取

PaperWeekly

13+阅读 · 2018年11月23日

面向大规模在线学习的社会化推荐模型与方法

面向大规模在线学习的社会化推荐模型与方法

MOOC

10+阅读 · 2018年6月8日

LSF-SCNN：一种基于CNN的短文本表达模型及相似度计算的全新优化模型

LSF-SCNN：一种基于CNN的短文本表达模型及相似度计算的全新优化模型

全球人工智能

21+阅读 · 2017年10月27日

相关论文

Large-scale online deanonymization with LLMs

Arxiv

0+阅读 · 2月18日

RAT-Bench: A Comprehensive Benchmark for Text Anonymization

Arxiv

0+阅读 · 2月13日

Stop Tracking Me! Proactive Defense Against Attribute Inference Attack in LLMs

Arxiv

0+阅读 · 2月12日

Differentially Private and Communication Efficient Large Language Model Split Inference via Stochastic Quantization and Soft Prompt

Arxiv

0+阅读 · 2月12日

Privacy Control in Conversational LLM Platforms: A Walkthrough Study

Arxiv

0+阅读 · 2月11日

Quantifying Risks in Multi-turn Conversation with Large Language Models

Arxiv

0+阅读 · 2月4日

DeFrame: Debiasing Large Language Models Against Framing Effects

Arxiv

0+阅读 · 2月4日

FIT: Defying Catastrophic Forgetting in Continual LLM Unlearning

Arxiv

0+阅读 · 1月29日

Seldom: An Anonymity Network with Selective Deanonymization

Arxiv

0+阅读 · 1月29日

Undesirable Memorization in Large Language Models: A Survey

Arxiv

0+阅读 · 1月19日

相关基金

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

满足差分隐私的频繁模式挖掘研究

国家自然科学基金

2+阅读 · 2015年12月31日

即时通信中的隐蔽通信模型及方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

内容中心移动社交网络高效安全匿名通信机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

即时通讯匿名隐通道系统模型与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

可证明的网络和数据匿名性及隐私增强身份管理关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

中英文论文中的中国作者姓名消歧研究

国家自然科学基金

0+阅读 · 2014年12月31日

大规模在线社会网络社区发现及隐私保护研究

国家自然科学基金

1+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员