Privacy and data sharing are often in tension. Many organizations use synthetic data to reduce privacy risk and still share useful data. For tabular data, auditing privacy remains hard. In many cases, even humans cannot easily tell if a table is real or synthetic. In this paper, we propose a method based on LLM discrimination. We ask an LLM to classify each table sample as REAL or SYNTHETIC. We test two settings: C1 with table only, and C2 with table plus distributional metadata. We use LLaMA as an open model and Gemini as a reference model. In our experiments, we run three synthesis models, CTGAN, TVAE, and Gaussian Copula, on two public datasets, UCI Adult and ACS Census. We collect 451 valid trials. Our results show clear differences between models. On Adult, LLaMA reaches DRS=0% in reported cells, while Gemini reaches DRS=100% for CTGAN and TVAE. On Census, LLaMA predicts SYNTHETIC for most samples, while Gemini stays high in C1 but drops for CTGAN and TVAE in C2. We also compare with a classifier two-sample test (C2ST) and record linkage as distributional baselines, and with a human pilot of 2 annotators and 240 trials. Our results show that LLM discrimination is a practical privacy audit signal when model choice, per provider reporting, and data encoding are handled with care. For reproducibility, code and experiment scripts are available at https://github.com/SlokomManel/LLM-as-a-Discriminator.


翻译:隐私与数据共享常处于矛盾之中。许多机构使用合成数据来降低隐私风险,同时仍能共享有用的数据。对于表格数据,隐私审计仍然困难。在许多情况下,即便是人类也难以轻易判断一个表格是真实的还是合成的。本文提出了一种基于LLM判别的方法。我们让LLM将每个表格样本分类为"真实"或"合成"。我们测试了两种设置:仅含表格的C1,以及表格加分布元数据的C2。我们使用LLaMA作为开源模型,Gemini作为参考模型。在实验中,我们在两个公开数据集(UCI Adult和ACS Census)上运行了三种合成模型:CTGAN、TVAE和Gaussian Copula。我们收集了451个有效试验。结果显示模型之间存在明显差异。在Adult数据集上,LLaMA在报告中单元格的DRS达到0%,而Gemini在CTGAN和TVAE上的DRS达到100%。在Census数据集上,LLaMA对大多数样本预测为"合成",而Gemini在C1中保持高值,但在C2中针对CTGAN和TVAE有所下降。我们还与分类器双样本检验(C2ST)和记录链接作为分布基线进行了比较,并与2名标注员和240次试验的人工初测进行了对比。结果表明,当模型选择、按提供商报告和数据编码被谨慎处理时,LLM判别是一种实用的隐私审计信号。为确保可复现性,代码和实验脚本可在https://github.com/SlokomManel/LLM-as-a-Discriminator获取。

0
下载
关闭预览

相关内容

【ACL2025教程】LLM时代的合成数据,228页slides
专知会员服务
31+阅读 · 2025年7月30日
【ICLR2024】能检测到LLM产生的错误信息吗?
专知会员服务
25+阅读 · 2024年1月23日
如何检测LLM内容?UCSB等最新首篇《LLM生成内容检测》综述
使用 Canal 实现数据异构
性能与架构
20+阅读 · 2019年3月4日
放弃 RNN/LSTM 吧,因为真的不好用!望周知~
人工智能头条
19+阅读 · 2018年4月24日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员