FHAIM: Fully Homomorphic AIM For Private Synthetic Data Generation - 专知论文

会员服务 ·

0

合成 · AIM · 数据生成 · 全同态 · 同态 ·

FHAIM: Fully Homomorphic AIM For Private Synthetic Data Generation

翻译：FHAIM：用于私有合成数据生成的全同态AIM框架

Mayank Kumar,Qian Lou,Paulo Barreto,Martine De Cock,Sikha Pentyala

Data is the lifeblood of AI, yet much of the most valuable data remains locked in silos due to privacy and regulations. As a result, AI remains heavily underutilized in many of the most important domains, including healthcare, education, and finance. Synthetic data generation (SDG), i.e. the generation of artificial data with a synthesizer trained on real data, offers an appealing solution to make data available while mitigating privacy concerns, however existing SDG-as-a-service workflow require data holders to trust providers with access to private data. We propose FHAIM, the first fully homomorphic encryption (FHE) framework for training a marginal-based synthetic data generator on encrypted tabular data. FHAIM adapts the widely used AIM algorithm to the FHE setting using novel FHE protocols, ensuring that the private data remains encrypted throughout and is released only with differential privacy guarantees. Our empirical analysis show that FHAIM preserves the performance of AIM while maintaining feasible runtimes.

翻译：数据是人工智能的生命线，然而大量最具价值的数据因隐私和法规限制仍被封闭在孤岛中。因此，人工智能在医疗、教育和金融等诸多关键领域的应用仍严重不足。合成数据生成（SDG）——即通过基于真实数据训练的合成器生成人工数据——为在缓解隐私顾虑的同时实现数据可用性提供了一种颇具吸引力的解决方案。然而，现有的SDG即服务工作流程要求数据持有者信任服务提供商能够访问其私有数据。我们提出FHAIM，这是首个基于全同态加密（FHE）的框架，用于在加密的表格数据上训练基于边际分布的合成数据生成器。FHAIM通过新颖的FHE协议将广泛使用的AIM算法适配至FHE环境，确保私有数据全程保持加密状态，且仅以差分隐私保证的形式发布。我们的实证分析表明，FHAIM在保持可行运行时间的同时，完整保留了AIM的性能。

0

相关内容

【CMU博士论文】异构数据导航：构建面向多样化数据类型、领域及复杂性的 AI 系统

【CMU博士论文】异构数据导航：构建面向多样化数据类型、领域及复杂性的 AI 系统

专知会员服务

20+阅读 · 2月12日

【新书】合成数据与生成式人工智能

【新书】合成数据与生成式人工智能

专知会员服务

48+阅读 · 2025年2月9日

《利用合成数据生成加强军事决策支持》

《利用合成数据生成加强军事决策支持》

专知会员服务

43+阅读 · 2024年12月30日

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

专知会员服务

49+阅读 · 2024年12月17日

【新书】利用先进的生成式 AI 技术（如 RAG），释放数据的潜力，推动创新并获取战略优势

【新书】利用先进的生成式 AI 技术（如 RAG），释放数据的潜力，推动创新并获取战略优势

专知会员服务

57+阅读 · 2024年10月4日

谷歌最新《大语言模型合成数据的最佳实践和经验教训》

谷歌最新《大语言模型合成数据的最佳实践和经验教训》

专知会员服务

66+阅读 · 2024年4月17日

最新《生成式数据增强的统一框架》综述，85页pdf

最新《生成式数据增强的统一框架》综述，85页pdf

专知会员服务

66+阅读 · 2023年10月8日

从AIGC到AIGS？南洋理工等最新《人工智能生成的图像作为数据源》综述，详述AI生成数据集方法

从AIGC到AIGS？南洋理工等最新《人工智能生成的图像作为数据源》综述，详述AI生成数据集方法

专知会员服务

69+阅读 · 2023年10月5日

什么是Data-Centric AI？Rice大学最新《以数据为中心的人工智能》研究综述，38页pdf全面阐述DCAI技术体系

什么是Data-Centric AI？Rice大学最新《以数据为中心的人工智能》研究综述，38页pdf全面阐述DCAI技术体系

专知会员服务

77+阅读 · 2023年3月21日

【ICLR 2022】MIT论文解读：谈到人工智能，我们可以抛弃数据集吗？基于ML创建合成数据，Generative Models As A Data Source For Multiview Representation Learning

【ICLR 2022】MIT论文解读：谈到人工智能，我们可以抛弃数据集吗？基于ML创建合成数据，Generative Models As A Data Source For Multiview Representation Learning

专知会员服务

42+阅读 · 2022年3月15日

推荐！【系统工程顶点报告】《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

推荐！【系统工程顶点报告】《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

专知

19+阅读 · 2022年10月23日

推荐！《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

推荐！《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

专知

63+阅读 · 2022年9月8日

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

专知

14+阅读 · 2022年5月31日

基于深度学习的数据融合方法研究综述

基于深度学习的数据融合方法研究综述

专知

37+阅读 · 2020年12月10日

完备的 AI 学习路线，最详细的资源整理！

完备的 AI 学习路线，最详细的资源整理！

新智元

18+阅读 · 2019年5月4日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

【数字孪生】数字孪生是制造业实现“智能+”的技术接口

【数字孪生】数字孪生是制造业实现“智能+”的技术接口

产业智能官

35+阅读 · 2019年4月30日

视频生成的前沿论文，看我们推荐的7篇就够了

视频生成的前沿论文，看我们推荐的7篇就够了

人工智能前沿讲习班

34+阅读 · 2018年12月30日

【工业大数据】工业大数据始于业务止于业务、车间物联网数据管理、面向产品全寿期的xBOM、构建制造型企业新型能力

【工业大数据】工业大数据始于业务止于业务、车间物联网数据管理、面向产品全寿期的xBOM、构建制造型企业新型能力

产业智能官

12+阅读 · 2018年10月22日

NLP中自动生产文摘（auto text summarization）

NLP中自动生产文摘（auto text summarization）

机器学习研究会

14+阅读 · 2017年10月10日

天元数学交流项目图像处理中的数学理论及方法研讨会

国家自然科学基金

9+阅读 · 2017年12月31日

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

基于空分复用的全光互联数据中心网络关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于粒计算的大数据特征融合理论与方法

国家自然科学基金

8+阅读 · 2015年12月31日

数据分析算法的融合与人才培养

国家自然科学基金

7+阅读 · 2015年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向社会化媒体异构大数据的快速组合聚类研究

国家自然科学基金

1+阅读 · 2014年12月31日

OrgForge: A Multi-Agent Simulation Framework for Verifiable Synthetic Corporate Corpora

Arxiv

0+阅读 · 3月16日

Harnessing Synthetic Data from Generative AI for Statistical Inference

Arxiv

0+阅读 · 3月5日

End to End Collaborative Synthetic Data Generation

Arxiv

0+阅读 · 2月11日

Nimbus: A Unified Embodied Synthetic Data Generation Framework

Arxiv

0+阅读 · 2月9日

Cyclic Adaptive Private Synthesis for Sharing Real-World Data in Education

Arxiv

0+阅读 · 2月9日

Differentially Private Linear Regression and Synthetic Data Generation with Statistical Guarantees

Arxiv

0+阅读 · 2月8日

End to End Collaborative Synthetic Data Generation

Arxiv

0+阅读 · 2月7日

SmartMeterFM: Unifying Smart Meter Data Generative Tasks Using Flow Matching Models

Arxiv

0+阅读 · 1月30日

Best Practices and Lessons Learned on Synthetic Data for Language Models

Arxiv

18+阅读 · 2024年4月11日

AI-Generated Images as Data Source: The Dawn of Synthetic Era

Arxiv

10+阅读 · 2023年10月3日

VIP会员

文章信息

相关主题

最新内容

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

3+阅读 · 49分钟前

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

0+阅读 · 58分钟前

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

2+阅读 · 今天15:06

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

4+阅读 · 今天14:55

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

9+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

7+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

9+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

6+阅读 · 7月18日

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

9+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

9+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

5+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

3+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

7+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

5+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

6+阅读 · 7月17日

相关VIP内容

【CMU博士论文】异构数据导航：构建面向多样化数据类型、领域及复杂性的 AI 系统

【CMU博士论文】异构数据导航：构建面向多样化数据类型、领域及复杂性的 AI 系统

专知会员服务

20+阅读 · 2月12日

【新书】合成数据与生成式人工智能

【新书】合成数据与生成式人工智能

专知会员服务

48+阅读 · 2025年2月9日

《利用合成数据生成加强军事决策支持》

《利用合成数据生成加强军事决策支持》

专知会员服务

43+阅读 · 2024年12月30日

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

专知会员服务

49+阅读 · 2024年12月17日

【新书】利用先进的生成式 AI 技术（如 RAG），释放数据的潜力，推动创新并获取战略优势

【新书】利用先进的生成式 AI 技术（如 RAG），释放数据的潜力，推动创新并获取战略优势

专知会员服务

57+阅读 · 2024年10月4日

谷歌最新《大语言模型合成数据的最佳实践和经验教训》

谷歌最新《大语言模型合成数据的最佳实践和经验教训》

专知会员服务

66+阅读 · 2024年4月17日

最新《生成式数据增强的统一框架》综述，85页pdf

最新《生成式数据增强的统一框架》综述，85页pdf

专知会员服务

66+阅读 · 2023年10月8日

从AIGC到AIGS？南洋理工等最新《人工智能生成的图像作为数据源》综述，详述AI生成数据集方法

从AIGC到AIGS？南洋理工等最新《人工智能生成的图像作为数据源》综述，详述AI生成数据集方法

专知会员服务

69+阅读 · 2023年10月5日

什么是Data-Centric AI？Rice大学最新《以数据为中心的人工智能》研究综述，38页pdf全面阐述DCAI技术体系

什么是Data-Centric AI？Rice大学最新《以数据为中心的人工智能》研究综述，38页pdf全面阐述DCAI技术体系

专知会员服务

77+阅读 · 2023年3月21日

【ICLR 2022】MIT论文解读：谈到人工智能，我们可以抛弃数据集吗？基于ML创建合成数据，Generative Models As A Data Source For Multiview Representation Learning

【ICLR 2022】MIT论文解读：谈到人工智能，我们可以抛弃数据集吗？基于ML创建合成数据，Generative Models As A Data Source For Multiview Representation Learning

专知会员服务

42+阅读 · 2022年3月15日

热门VIP内容

开通专知VIP会员享更多权益服务

锻造未来士兵：外骨骼、基因工程与赛博格

《无人机蜂群通信技术研究》50页

深入Project Maven：为何人工智能在战场上依然失灵

《无人机系统（UAS）通信网状网络试验性部署》50页报告

相关资讯

推荐！【系统工程顶点报告】《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

推荐！【系统工程顶点报告】《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

专知

19+阅读 · 2022年10月23日

推荐！《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

推荐！《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

专知

63+阅读 · 2022年9月8日

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

专知

14+阅读 · 2022年5月31日

基于深度学习的数据融合方法研究综述

基于深度学习的数据融合方法研究综述

专知

37+阅读 · 2020年12月10日

完备的 AI 学习路线，最详细的资源整理！

完备的 AI 学习路线，最详细的资源整理！

新智元

18+阅读 · 2019年5月4日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

【数字孪生】数字孪生是制造业实现“智能+”的技术接口

【数字孪生】数字孪生是制造业实现“智能+”的技术接口

产业智能官

35+阅读 · 2019年4月30日

视频生成的前沿论文，看我们推荐的7篇就够了

视频生成的前沿论文，看我们推荐的7篇就够了

人工智能前沿讲习班

34+阅读 · 2018年12月30日

【工业大数据】工业大数据始于业务止于业务、车间物联网数据管理、面向产品全寿期的xBOM、构建制造型企业新型能力

【工业大数据】工业大数据始于业务止于业务、车间物联网数据管理、面向产品全寿期的xBOM、构建制造型企业新型能力

产业智能官

12+阅读 · 2018年10月22日

NLP中自动生产文摘（auto text summarization）

NLP中自动生产文摘（auto text summarization）

机器学习研究会

14+阅读 · 2017年10月10日

相关论文

OrgForge: A Multi-Agent Simulation Framework for Verifiable Synthetic Corporate Corpora

Arxiv

0+阅读 · 3月16日

Harnessing Synthetic Data from Generative AI for Statistical Inference

Arxiv

0+阅读 · 3月5日

End to End Collaborative Synthetic Data Generation

Arxiv

0+阅读 · 2月11日

Nimbus: A Unified Embodied Synthetic Data Generation Framework

Arxiv

0+阅读 · 2月9日

Cyclic Adaptive Private Synthesis for Sharing Real-World Data in Education

Arxiv

0+阅读 · 2月9日

Differentially Private Linear Regression and Synthetic Data Generation with Statistical Guarantees

Arxiv

0+阅读 · 2月8日

End to End Collaborative Synthetic Data Generation

Arxiv

0+阅读 · 2月7日

SmartMeterFM: Unifying Smart Meter Data Generative Tasks Using Flow Matching Models

Arxiv

0+阅读 · 1月30日

Best Practices and Lessons Learned on Synthetic Data for Language Models

Arxiv

18+阅读 · 2024年4月11日

AI-Generated Images as Data Source: The Dawn of Synthetic Era

Arxiv

10+阅读 · 2023年10月3日

相关基金

天元数学交流项目图像处理中的数学理论及方法研讨会

国家自然科学基金

9+阅读 · 2017年12月31日

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

基于空分复用的全光互联数据中心网络关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于粒计算的大数据特征融合理论与方法

国家自然科学基金

8+阅读 · 2015年12月31日

数据分析算法的融合与人才培养

国家自然科学基金

7+阅读 · 2015年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向社会化媒体异构大数据的快速组合聚类研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员