Phantoms and Disclosures: a Causal Framework for Auditing Synthetic Data - 专知论文

会员服务 ·

0

合成 · 合成数据 · 数据审计 · 系统 · AI ·

Phantoms and Disclosures: a Causal Framework for Auditing Synthetic Data

翻译：幻象与披露：合成数据审计的因果框架

Kareem Amin,Rudrajit Das,Alessandro Epasto,Adel Javanmard,Dennis Kraft,Mónica Ribero,Sergei Vassilvitskii

from arxiv, 35 pages, 10 tables, 5 figures

The rapid adoption of generative AI and Large Language Models (LLMs) has spurred interest in synthetic data as a privacy-preserving alternative to sensitive real-world datasets. However, generating high-utility synthetic data often carries the risk of memorizing and regurgitating private information from the training corpus. In this work, we present a customizable empirical auditing framework designed to detect and explain such data disclosures. Our framework introduces a mechanism to distinguish between "true disclosures"-where the system directly reproduces a user's information-and "phantom disclosures''-where the system incidentally generates a user's data. By partitioning input data into training and holdout sets and applying rigorous statistical hypothesis testing, we determine if observed disclosures are consistent with strict privacy baselines, such as zero-learning or specific Differential Privacy (DP) bounds. Crucially, this approach requires no model access, no canary insertion, and no reference model training -only the synthetic output and a held-out control set. We demonstrate that this framework effectively functions as a membership inference attack, providing empirical lower bounds on privacy leakage that are tighter than prior data-based auditing methods. Our approach is model-agnostic, applies to any synthetic data generation mechanism, and requires orders of magnitude fewer computational resources than shadow-model or canary-based alternatives.

翻译：生成式AI和大语言模型（LLMs）的快速普及，促使合成数据作为敏感真实数据集的隐私保护替代方案受到关注。然而，生成高可用性的合成数据往往存在记忆并复述训练语料中隐私信息的风险。本研究提出一种可定制的实证审计框架，旨在检测并解释此类数据泄露。该框架引入了一种区分机制：将系统直接复现用户信息的"真实披露"与系统偶然生成用户数据的"幻象披露"进行甄别。通过将输入数据划分为训练集和保留集，并应用严格的统计假设检验，我们可判定观测到的披露是否符合零学习或特定差分隐私（DP）边界等严格隐私基线。关键的是，该方法无需访问模型、插入金丝雀数据或训练参考模型——仅需合成输出与保留控制集。实验证明，该框架可有效作为成员推理攻击工具，提供比先前基于数据的审计方法更紧致的隐私泄露经验下界。本方法具有模型无关性，适用于任何合成数据生成机制，且计算资源需求比影子模型或金丝雀替代方案低数个数量级。

0

相关内容

《数据创新：桥接传统方法与大型语言模型以应对罕见高影响事件》最新报告

《数据创新：桥接传统方法与大型语言模型以应对罕见高影响事件》最新报告

专知会员服务

18+阅读 · 2月25日

大型语言模型中隐性与显性偏见的综合研究

大型语言模型中隐性与显性偏见的综合研究

专知会员服务

17+阅读 · 2025年11月25日

【AAAI2026】FinRpt：面向证券研究报告生成的数据集、评测体系与基于大语言模型的多智能体框架

【AAAI2026】FinRpt：面向证券研究报告生成的数据集、评测体系与基于大语言模型的多智能体框架

专知会员服务

20+阅读 · 2025年11月11日

《缓解大语言模型（LLMs）幻觉：面向应用的检索增强生成（RAG）、推理与智能体系统综述》

《缓解大语言模型（LLMs）幻觉：面向应用的检索增强生成（RAG）、推理与智能体系统综述》

专知会员服务

24+阅读 · 2025年10月29日

【ACL2025教程】LLM时代的合成数据，228页slides

【ACL2025教程】LLM时代的合成数据，228页slides

专知会员服务

31+阅读 · 2025年7月30日

大规模语言模型生成的合成数据中的质量、多样性与复杂性效应综述

大规模语言模型生成的合成数据中的质量、多样性与复杂性效应综述

专知会员服务

32+阅读 · 2024年12月10日

《大语言模型的数据合成与增强综述》

《大语言模型的数据合成与增强综述》

专知会员服务

44+阅读 · 2024年10月19日

基于大语言模型（LLM）的合成数据生成、策展和评估的综述

基于大语言模型（LLM）的合成数据生成、策展和评估的综述

专知会员服务

63+阅读 · 2024年7月5日

大模型幻觉如何克服？哈工大等最新《大型语言模型中的幻觉现象》综述，详述原理、分类、挑战与未解之谜

大模型幻觉如何克服？哈工大等最新《大型语言模型中的幻觉现象》综述，详述原理、分类、挑战与未解之谜

专知会员服务

82+阅读 · 2023年11月12日

如何检测大模型“幻觉”？剑桥提出SelfCheckGPT: 针对生成型大型语言模型的零资源黑盒子幻觉检测

如何检测大模型“幻觉”？剑桥提出SelfCheckGPT: 针对生成型大型语言模型的零资源黑盒子幻觉检测

专知会员服务

44+阅读 · 2023年8月22日

推荐！《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

推荐！《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

专知

63+阅读 · 2022年9月8日

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

专知

10+阅读 · 2022年2月10日

智能合约的形式化验证方法研究综述

智能合约的形式化验证方法研究综述

专知

16+阅读 · 2021年5月8日

「因果推理」概述论文，13页pdf

「因果推理」概述论文，13页pdf

专知

16+阅读 · 2021年3月20日

AAAI2020最新「因果推理表示学习」122页ppt，Georgia、Buffalo、阿里巴巴与Virginia

AAAI2020最新「因果推理表示学习」122页ppt，Georgia、Buffalo、阿里巴巴与Virginia

专知

16+阅读 · 2020年2月12日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

FaceForensics：一个用于人脸伪造检测的大型视频数据集

FaceForensics：一个用于人脸伪造检测的大型视频数据集

论智

18+阅读 · 2018年4月14日

综述——隐私保护集合交集计算技术研究

综述——隐私保护集合交集计算技术研究

计算机研究与发展

22+阅读 · 2017年10月24日

知识提取的一种应用，从上市公司年报中抽取因果关系

知识提取的一种应用，从上市公司年报中抽取因果关系

文因互联

10+阅读 · 2017年7月7日

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

面向云大数据信息聚合推导与控制技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

面向DS证据理论的关联信息融合研究

国家自然科学基金

4+阅读 · 2015年12月31日

大数据环境下的证券市场操纵行为发现机理、模型与方法

国家自然科学基金

0+阅读 · 2015年12月31日

可证明的网络和数据匿名性及隐私增强身份管理关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

网络用户隐私担忧与主动性泄露隐私信息之间的悖论：理论探索和基于社交网络的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

流程监控与评估中多元数据整合研究

国家自然科学基金

1+阅读 · 2014年12月31日

An Energy-Driven Framework for Privacy-Aware Synthetic Data Generation

Arxiv

0+阅读 · 6月15日

Causal-Privacy Audit Workflow for Synthetic and Distilled Data in Dropout Support

Arxiv

0+阅读 · 6月14日

Trust but Verify: Mitigating Medical Hallucinations via Post-Hoc Adversarial Auditing and Multi-Agent Feedback Loops

Arxiv

0+阅读 · 6月12日

LLM-as-a-Discriminator: When Synthetic Tables Still Look Real

Arxiv

0+阅读 · 6月1日

Neuroforger: certified violation witnesses for smart contracts verification via LLMs

Arxiv

0+阅读 · 5月29日

LLMSurgeon: Diagnosing Data Mixture of Large Language Models

Arxiv

0+阅读 · 5月28日

A Scalable Entity-Based Framework for Auditing Bias in LLMs

Arxiv

0+阅读 · 5月11日

Large Language Models and Causal Inference in Collaboration: A Comprehensive Survey

Arxiv

12+阅读 · 2024年3月14日

Towards Efficient Generative Large Language Model Serving: A Survey from Algorithms to Systems

Arxiv

18+阅读 · 2023年12月23日

A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions

Arxiv

10+阅读 · 2023年11月9日

VIP会员

文章信息

相关主题

最新内容

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

10+阅读 · 8月2日

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

5+阅读 · 8月2日

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

8+阅读 · 8月2日

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

10+阅读 · 8月2日

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

5+阅读 · 8月2日

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

9+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

7+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

7+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

7+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

5+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

13+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

9+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

12+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

7+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

10+阅读 · 7月31日

相关VIP内容

《数据创新：桥接传统方法与大型语言模型以应对罕见高影响事件》最新报告

《数据创新：桥接传统方法与大型语言模型以应对罕见高影响事件》最新报告

专知会员服务

18+阅读 · 2月25日

大型语言模型中隐性与显性偏见的综合研究

大型语言模型中隐性与显性偏见的综合研究

专知会员服务

17+阅读 · 2025年11月25日

【AAAI2026】FinRpt：面向证券研究报告生成的数据集、评测体系与基于大语言模型的多智能体框架

【AAAI2026】FinRpt：面向证券研究报告生成的数据集、评测体系与基于大语言模型的多智能体框架

专知会员服务

20+阅读 · 2025年11月11日

《缓解大语言模型（LLMs）幻觉：面向应用的检索增强生成（RAG）、推理与智能体系统综述》

《缓解大语言模型（LLMs）幻觉：面向应用的检索增强生成（RAG）、推理与智能体系统综述》

专知会员服务

24+阅读 · 2025年10月29日

【ACL2025教程】LLM时代的合成数据，228页slides

【ACL2025教程】LLM时代的合成数据，228页slides

专知会员服务

31+阅读 · 2025年7月30日

大规模语言模型生成的合成数据中的质量、多样性与复杂性效应综述

大规模语言模型生成的合成数据中的质量、多样性与复杂性效应综述

专知会员服务

32+阅读 · 2024年12月10日

《大语言模型的数据合成与增强综述》

《大语言模型的数据合成与增强综述》

专知会员服务

44+阅读 · 2024年10月19日

基于大语言模型（LLM）的合成数据生成、策展和评估的综述

基于大语言模型（LLM）的合成数据生成、策展和评估的综述

专知会员服务

63+阅读 · 2024年7月5日

大模型幻觉如何克服？哈工大等最新《大型语言模型中的幻觉现象》综述，详述原理、分类、挑战与未解之谜

大模型幻觉如何克服？哈工大等最新《大型语言模型中的幻觉现象》综述，详述原理、分类、挑战与未解之谜

专知会员服务

82+阅读 · 2023年11月12日

如何检测大模型“幻觉”？剑桥提出SelfCheckGPT: 针对生成型大型语言模型的零资源黑盒子幻觉检测

如何检测大模型“幻觉”？剑桥提出SelfCheckGPT: 针对生成型大型语言模型的零资源黑盒子幻觉检测

专知会员服务

44+阅读 · 2023年8月22日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

推荐！《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

推荐！《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

专知

63+阅读 · 2022年9月8日

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

专知

10+阅读 · 2022年2月10日

智能合约的形式化验证方法研究综述

智能合约的形式化验证方法研究综述

专知

16+阅读 · 2021年5月8日

「因果推理」概述论文，13页pdf

「因果推理」概述论文，13页pdf

专知

16+阅读 · 2021年3月20日

AAAI2020最新「因果推理表示学习」122页ppt，Georgia、Buffalo、阿里巴巴与Virginia

AAAI2020最新「因果推理表示学习」122页ppt，Georgia、Buffalo、阿里巴巴与Virginia

专知

16+阅读 · 2020年2月12日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

FaceForensics：一个用于人脸伪造检测的大型视频数据集

FaceForensics：一个用于人脸伪造检测的大型视频数据集

论智

18+阅读 · 2018年4月14日

综述——隐私保护集合交集计算技术研究

综述——隐私保护集合交集计算技术研究

计算机研究与发展

22+阅读 · 2017年10月24日

知识提取的一种应用，从上市公司年报中抽取因果关系

知识提取的一种应用，从上市公司年报中抽取因果关系

文因互联

10+阅读 · 2017年7月7日

相关论文

An Energy-Driven Framework for Privacy-Aware Synthetic Data Generation

Arxiv

0+阅读 · 6月15日

Causal-Privacy Audit Workflow for Synthetic and Distilled Data in Dropout Support

Arxiv

0+阅读 · 6月14日

Trust but Verify: Mitigating Medical Hallucinations via Post-Hoc Adversarial Auditing and Multi-Agent Feedback Loops

Arxiv

0+阅读 · 6月12日

LLM-as-a-Discriminator: When Synthetic Tables Still Look Real

Arxiv

0+阅读 · 6月1日

Neuroforger: certified violation witnesses for smart contracts verification via LLMs

Arxiv

0+阅读 · 5月29日

LLMSurgeon: Diagnosing Data Mixture of Large Language Models

Arxiv

0+阅读 · 5月28日

A Scalable Entity-Based Framework for Auditing Bias in LLMs

Arxiv

0+阅读 · 5月11日

Large Language Models and Causal Inference in Collaboration: A Comprehensive Survey

Arxiv

12+阅读 · 2024年3月14日

Towards Efficient Generative Large Language Model Serving: A Survey from Algorithms to Systems

Arxiv

18+阅读 · 2023年12月23日

A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions

Arxiv

10+阅读 · 2023年11月9日

相关基金

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

面向云大数据信息聚合推导与控制技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

面向DS证据理论的关联信息融合研究

国家自然科学基金

4+阅读 · 2015年12月31日

大数据环境下的证券市场操纵行为发现机理、模型与方法

国家自然科学基金

0+阅读 · 2015年12月31日

可证明的网络和数据匿名性及隐私增强身份管理关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

网络用户隐私担忧与主动性泄露隐私信息之间的悖论：理论探索和基于社交网络的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

流程监控与评估中多元数据整合研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员