Measuring Privacy vs. Fidelity in Synthetic Social Media Datasets - 专知论文

会员服务 ·

0

合成 · 社交 · 社交媒体 · 数据集 · 合成数据 ·

Measuring Privacy vs. Fidelity in Synthetic Social Media Datasets

翻译：衡量合成社交媒体数据集中的隐私与保真度

Henry Tari,Adriana Iamnitchi

Synthetic data is increasingly used to support research without exposing sensitive user content. Social media data is one of the types of datasets that would hugely benefit from representative synthetic equivalents that can be used to bootstrap research and allow reproducibility through data sharing. However, recent studies show that (tabular) synthetic data is not inherently privacy-preserving. Much less is known, however, about the privacy risks of synthetically generated unstructured texts. This work evaluates the privacy of synthetic Instagram posts generated by three state-of-the-art large language models using two prompting strategies. We propose a methodology that quantifies privacy by framing re-identification as an authorship attribution attack. A RoBERTa-large classifier trained on real posts achieved 81\% accuracy in authorship attribution on real data, but only 16.5--29.7\% on synthetic posts, showing reduced, though non-negligible, risk. Fidelity was assessed via text traits, sentiment, topic overlap, and embedding similarity, confirming the expected trade-off: higher fidelity coincides with greater privacy leakage. This work provides a framework for evaluating privacy in synthetic text and demonstrates the privacy--fidelity tension in social media datasets.

翻译：合成数据日益被用于支持研究而不暴露敏感用户内容。社交媒体数据是能够从具有代表性的合成等价物中极大获益的数据类型之一，这些合成数据可用于启动研究并通过数据共享实现可重复性。然而，近期研究表明，（表格型）合成数据并非天生具有隐私保护性。而对于合成生成的非结构化文本的隐私风险，目前所知甚少。本研究评估了由三种最先进的大型语言模型使用两种提示策略生成的合成Instagram帖子的隐私性。我们提出了一种方法，通过将重新识别问题构建为作者归属攻击来量化隐私。一个在真实帖子上训练的RoBERTa-large分类器在真实数据上的作者归属准确率达到81%，但在合成帖子上仅为16.5%至29.7%，表明风险虽有所降低但仍不可忽视。保真度通过文本特征、情感、主题重叠和嵌入相似性进行评估，证实了预期的权衡：更高的保真度伴随着更大的隐私泄露。本研究为评估合成文本的隐私性提供了一个框架，并展示了社交媒体数据集中存在的隐私-保真度权衡关系。

0

相关内容

《数据创新：桥接传统方法与大型语言模型以应对罕见高影响事件》最新报告

《数据创新：桥接传统方法与大型语言模型以应对罕见高影响事件》最新报告

专知会员服务

17+阅读 · 2月25日

《探索军事决策支持系统中合成数据的保真度》

《探索军事决策支持系统中合成数据的保真度》

专知会员服务

39+阅读 · 2025年2月28日

《利用合成数据生成加强军事决策支持》

《利用合成数据生成加强军事决策支持》

专知会员服务

42+阅读 · 2024年12月30日

【MIT博士论文】合成数据的视觉表示学习

【MIT博士论文】合成数据的视觉表示学习

专知会员服务

27+阅读 · 2024年8月25日

谷歌最新《大语言模型合成数据的最佳实践和经验教训》

谷歌最新《大语言模型合成数据的最佳实践和经验教训》

专知会员服务

66+阅读 · 2024年4月17日

【AI与军事】《有限数据下的深度学习：一种合成方法》最新53页技术报告

【AI与军事】《有限数据下的深度学习：一种合成方法》最新53页技术报告

专知会员服务

87+阅读 · 2022年7月5日

【腾讯等】可信赖图学习：可靠性、可解释性和隐私保护，A Survey of Trustworthy Graph Learning: Reliability, Explainability, and Privacy Protection

【腾讯等】可信赖图学习：可靠性、可解释性和隐私保护，A Survey of Trustworthy Graph Learning: Reliability, Explainability, and Privacy Protection

专知会员服务

20+阅读 · 2022年5月24日

数据价值释放与隐私保护计算应用研究报告，64页pdf

数据价值释放与隐私保护计算应用研究报告，64页pdf

专知会员服务

42+阅读 · 2021年11月29日

【论文推荐】保护隐私的协同过滤综述，Survey of Privacy-Preserving Collaborative Filtering

【论文推荐】保护隐私的协同过滤综述，Survey of Privacy-Preserving Collaborative Filtering

专知会员服务

36+阅读 · 2020年3月19日

【AAAI Tutorials 2019】联合学习：机器学习中的用户隐私，数据安全性和机密性（Federated Learning: User Privacy, Data Security and Confidentiality in Machine Learning）

【AAAI Tutorials 2019】联合学习：机器学习中的用户隐私，数据安全性和机密性（Federated Learning: User Privacy, Data Security and Confidentiality in Machine Learning）

专知会员服务

15+阅读 · 2019年11月18日

【经典书】图数据挖掘算法，安全性及应用，256页pdf

【经典书】图数据挖掘算法，安全性及应用，256页pdf

专知

17+阅读 · 2022年8月22日

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

专知

10+阅读 · 2022年2月10日

基于深度学习的数据融合方法研究综述

基于深度学习的数据融合方法研究综述

专知

37+阅读 · 2020年12月10日

联邦学习安全与隐私保护研究综述

联邦学习安全与隐私保护研究综述

专知

12+阅读 · 2020年8月7日

人脸相关文献代码集锦：人脸检测、人脸识别、人脸生成等

人脸相关文献代码集锦：人脸检测、人脸识别、人脸生成等

专知

15+阅读 · 2019年5月20日

【专题】美国隐私立法进展的总体分析

【专题】美国隐私立法进展的总体分析

蚂蚁金服评论

11+阅读 · 2019年4月25日

区块链隐私保护研究综述——祝烈煌详解

区块链隐私保护研究综述——祝烈煌详解

计算机研究与发展

23+阅读 · 2018年11月28日

隐私和机器学习：两个意想不到的盟友？一文了解差分隐私

隐私和机器学习：两个意想不到的盟友？一文了解差分隐私

专知

21+阅读 · 2018年5月14日

FaceForensics：一个用于人脸伪造检测的大型视频数据集

FaceForensics：一个用于人脸伪造检测的大型视频数据集

论智

18+阅读 · 2018年4月14日

综述——隐私保护集合交集计算技术研究

综述——隐私保护集合交集计算技术研究

计算机研究与发展

22+阅读 · 2017年10月24日

基于信号理论和众包的社交媒体平台安全性和可信度群体评估方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

移动互联网的用户隐私保护研究

国家自然科学基金

2+阅读 · 2017年12月31日

基于多存储介质的在线社交网络数据节能存储研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向时空特性的社交网络推演攻击与隐私保护关键技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

具有耦合性结构的多视图社交网络社区发现算法研究及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向社交大数据的热点事件预测

国家自然科学基金

11+阅读 · 2015年12月31日

基于差分隐私保护模型的交互式社交网络分析技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

网络用户隐私担忧与主动性泄露隐私信息之间的悖论：理论探索和基于社交网络的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向社会化媒体异构大数据的快速组合聚类研究

国家自然科学基金

1+阅读 · 2014年12月31日

Is Seeing Believing? Evaluating Human Sensitivity to Synthetic Video

Arxiv

0+阅读 · 3月17日

Synthetic data for ratemaking: imputation-based methods vs adversarial networks and autoencoders

Arxiv

0+阅读 · 3月8日

Measuring Privacy vs. Fidelity in Synthetic Social Media Datasets

Arxiv

0+阅读 · 3月4日

SMOTE and Mirrors: Exposing Privacy Leakage from Synthetic Minority Oversampling

Arxiv

0+阅读 · 3月2日

Two-Stage Data Synthesization: A Statistics-Driven Restricted Trade-off between Privacy and Prediction

Arxiv

0+阅读 · 2月9日

Differentially Private Linear Regression and Synthetic Data Generation with Statistical Guarantees

Arxiv

0+阅读 · 2月8日

Minimax optimal differentially private synthetic data for smooth queries

Arxiv

0+阅读 · 2月5日

Synthesizing Realistic Test Data without Breaking Privacy

Arxiv

0+阅读 · 2月5日

Should I use Synthetic Data for That? An Analysis of the Suitability of Synthetic Data for Data Sharing and Augmentation

Arxiv

0+阅读 · 2月3日

Rethinking Anonymity Claims in Synthetic Data Generation: A Model-Centric Privacy Attack Perspective

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

专知会员服务

2+阅读 · 今天14:31

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

专知会员服务

1+阅读 · 今天14:29

面向具身智能与机器人仿真的三维生成：综述

面向具身智能与机器人仿真的三维生成：综述

专知会员服务

1+阅读 · 今天14:22

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

专知会员服务

13+阅读 · 今天6:39

《人工智能在全球军事与武器工业中的应用、方法论与影响》

《人工智能在全球军事与武器工业中的应用、方法论与影响》

专知会员服务

6+阅读 · 今天6:36

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

专知会员服务

10+阅读 · 今天6:28

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

专知会员服务

7+阅读 · 今天0:51

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

6+阅读 · 4月29日

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

专知会员服务

7+阅读 · 4月29日

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

专知会员服务

6+阅读 · 4月29日

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

专知会员服务

6+阅读 · 4月29日

《化繁为简：军事模拟器配置的对话式方法》报告

《化繁为简：军事模拟器配置的对话式方法》报告

专知会员服务

11+阅读 · 4月29日

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

专知会员服务

12+阅读 · 4月29日

《新兴技术武器化及其对全球风险的影响》

《新兴技术武器化及其对全球风险的影响》

专知会员服务

8+阅读 · 4月29日

《帕兰泰尔平台介绍：信息分析平台》

《帕兰泰尔平台介绍：信息分析平台》

专知会员服务

21+阅读 · 4月29日

相关VIP内容

《数据创新：桥接传统方法与大型语言模型以应对罕见高影响事件》最新报告

《数据创新：桥接传统方法与大型语言模型以应对罕见高影响事件》最新报告

专知会员服务

17+阅读 · 2月25日

《探索军事决策支持系统中合成数据的保真度》

《探索军事决策支持系统中合成数据的保真度》

专知会员服务

39+阅读 · 2025年2月28日

《利用合成数据生成加强军事决策支持》

《利用合成数据生成加强军事决策支持》

专知会员服务

42+阅读 · 2024年12月30日

【MIT博士论文】合成数据的视觉表示学习

【MIT博士论文】合成数据的视觉表示学习

专知会员服务

27+阅读 · 2024年8月25日

谷歌最新《大语言模型合成数据的最佳实践和经验教训》

谷歌最新《大语言模型合成数据的最佳实践和经验教训》

专知会员服务

66+阅读 · 2024年4月17日

【AI与军事】《有限数据下的深度学习：一种合成方法》最新53页技术报告

【AI与军事】《有限数据下的深度学习：一种合成方法》最新53页技术报告

专知会员服务

87+阅读 · 2022年7月5日

【腾讯等】可信赖图学习：可靠性、可解释性和隐私保护，A Survey of Trustworthy Graph Learning: Reliability, Explainability, and Privacy Protection

【腾讯等】可信赖图学习：可靠性、可解释性和隐私保护，A Survey of Trustworthy Graph Learning: Reliability, Explainability, and Privacy Protection

专知会员服务

20+阅读 · 2022年5月24日

数据价值释放与隐私保护计算应用研究报告，64页pdf

数据价值释放与隐私保护计算应用研究报告，64页pdf

专知会员服务

42+阅读 · 2021年11月29日

【论文推荐】保护隐私的协同过滤综述，Survey of Privacy-Preserving Collaborative Filtering

【论文推荐】保护隐私的协同过滤综述，Survey of Privacy-Preserving Collaborative Filtering

专知会员服务

36+阅读 · 2020年3月19日

【AAAI Tutorials 2019】联合学习：机器学习中的用户隐私，数据安全性和机密性（Federated Learning: User Privacy, Data Security and Confidentiality in Machine Learning）

【AAAI Tutorials 2019】联合学习：机器学习中的用户隐私，数据安全性和机密性（Federated Learning: User Privacy, Data Security and Confidentiality in Machine Learning）

专知会员服务

15+阅读 · 2019年11月18日

热门VIP内容

开通专知VIP会员享更多权益服务

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

面向具身智能与机器人仿真的三维生成：综述

相关资讯

【经典书】图数据挖掘算法，安全性及应用，256页pdf

【经典书】图数据挖掘算法，安全性及应用，256页pdf

专知

17+阅读 · 2022年8月22日

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

专知

10+阅读 · 2022年2月10日

基于深度学习的数据融合方法研究综述

基于深度学习的数据融合方法研究综述

专知

37+阅读 · 2020年12月10日

联邦学习安全与隐私保护研究综述

联邦学习安全与隐私保护研究综述

专知

12+阅读 · 2020年8月7日

人脸相关文献代码集锦：人脸检测、人脸识别、人脸生成等

人脸相关文献代码集锦：人脸检测、人脸识别、人脸生成等

专知

15+阅读 · 2019年5月20日

【专题】美国隐私立法进展的总体分析

【专题】美国隐私立法进展的总体分析

蚂蚁金服评论

11+阅读 · 2019年4月25日

区块链隐私保护研究综述——祝烈煌详解

区块链隐私保护研究综述——祝烈煌详解

计算机研究与发展

23+阅读 · 2018年11月28日

隐私和机器学习：两个意想不到的盟友？一文了解差分隐私

隐私和机器学习：两个意想不到的盟友？一文了解差分隐私

专知

21+阅读 · 2018年5月14日

FaceForensics：一个用于人脸伪造检测的大型视频数据集

FaceForensics：一个用于人脸伪造检测的大型视频数据集

论智

18+阅读 · 2018年4月14日

综述——隐私保护集合交集计算技术研究

综述——隐私保护集合交集计算技术研究

计算机研究与发展

22+阅读 · 2017年10月24日

相关论文

Is Seeing Believing? Evaluating Human Sensitivity to Synthetic Video

Arxiv

0+阅读 · 3月17日

Synthetic data for ratemaking: imputation-based methods vs adversarial networks and autoencoders

Arxiv

0+阅读 · 3月8日

Measuring Privacy vs. Fidelity in Synthetic Social Media Datasets

Arxiv

0+阅读 · 3月4日

SMOTE and Mirrors: Exposing Privacy Leakage from Synthetic Minority Oversampling

Arxiv

0+阅读 · 3月2日

Two-Stage Data Synthesization: A Statistics-Driven Restricted Trade-off between Privacy and Prediction

Arxiv

0+阅读 · 2月9日

Differentially Private Linear Regression and Synthetic Data Generation with Statistical Guarantees

Arxiv

0+阅读 · 2月8日

Minimax optimal differentially private synthetic data for smooth queries

Arxiv

0+阅读 · 2月5日

Synthesizing Realistic Test Data without Breaking Privacy

Arxiv

0+阅读 · 2月5日

Should I use Synthetic Data for That? An Analysis of the Suitability of Synthetic Data for Data Sharing and Augmentation

Arxiv

0+阅读 · 2月3日

Rethinking Anonymity Claims in Synthetic Data Generation: A Model-Centric Privacy Attack Perspective

Arxiv

0+阅读 · 1月30日

相关基金

基于信号理论和众包的社交媒体平台安全性和可信度群体评估方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

移动互联网的用户隐私保护研究

国家自然科学基金

2+阅读 · 2017年12月31日

基于多存储介质的在线社交网络数据节能存储研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向时空特性的社交网络推演攻击与隐私保护关键技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

具有耦合性结构的多视图社交网络社区发现算法研究及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向社交大数据的热点事件预测

国家自然科学基金

11+阅读 · 2015年12月31日

基于差分隐私保护模型的交互式社交网络分析技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

网络用户隐私担忧与主动性泄露隐私信息之间的悖论：理论探索和基于社交网络的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向社会化媒体异构大数据的快速组合聚类研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员