Synthetic data is increasingly used to support research without exposing sensitive user content. Social media data is one of the types of datasets that would hugely benefit from representative synthetic equivalents that can be used to bootstrap research and allow reproducibility through data sharing. However, recent studies show that (tabular) synthetic data is not inherently privacy-preserving. Much less is known, however, about the privacy risks of synthetically generated unstructured texts. This work evaluates the privacy of synthetic Instagram posts generated by three state-of-the-art large language models using two prompting strategies. We propose a methodology that quantifies privacy by framing re-identification as an authorship attribution attack. A RoBERTa-large classifier trained on real posts achieved 81\% accuracy in authorship attribution on real data, but only 16.5--29.7\% on synthetic posts, showing reduced, though non-negligible, risk. Fidelity was assessed via text traits, sentiment, topic overlap, and embedding similarity, confirming the expected trade-off: higher fidelity coincides with greater privacy leakage. This work provides a framework for evaluating privacy in synthetic text and demonstrates the privacy--fidelity tension in social media datasets.


翻译:合成数据日益广泛地应用于支持研究,同时避免暴露敏感用户内容。社交媒体数据是能够从具有代表性的合成等价物中极大获益的数据类型之一,这些合成数据可用于引导研究,并通过数据共享实现可复现性。然而,近期研究表明,(表格型)合成数据本身并不具备隐私保护性。而对于合成生成的非结构化文本所面临的隐私风险,目前所知甚少。本研究评估了由三种先进大语言模型使用两种提示策略生成的合成Instagram帖子的隐私性。我们提出一种方法,通过将重识别问题构建为作者归属攻击来量化隐私。一个在真实帖子上训练的RoBERTa-large分类器在真实数据上的作者归属准确率达到81%,但在合成帖子上仅为16.5%至29.7%,表明风险虽有所降低但仍不可忽视。保真度通过文本特征、情感、主题重叠度和嵌入相似性进行评估,证实了预期的权衡关系:更高的保真度伴随着更大的隐私泄露。本研究为评估合成文本的隐私性提供了一个框架,并揭示了社交媒体数据集中存在的隐私-保真度权衡关系。

0
下载
关闭预览

相关内容

《利用合成数据生成加强军事决策支持》
专知会员服务
42+阅读 · 2024年12月30日
【MIT博士论文】合成数据的视觉表示学习
专知会员服务
27+阅读 · 2024年8月25日
谷歌最新《大语言模型合成数据的最佳实践和经验教训》
数据价值释放与隐私保护计算应用研究报告,64页pdf
专知会员服务
42+阅读 · 2021年11月29日
基于深度学习的数据融合方法研究综述
专知
37+阅读 · 2020年12月10日
【专题】美国隐私立法进展的总体分析
蚂蚁金服评论
11+阅读 · 2019年4月25日
区块链隐私保护研究综述——祝烈煌详解
计算机研究与发展
23+阅读 · 2018年11月28日
综述——隐私保护集合交集计算技术研究
计算机研究与发展
22+阅读 · 2017年10月24日
关于数据挖掘,有几本书推荐给你......
图灵教育
16+阅读 · 2017年10月11日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员