Differentially Private Linear Regression and Synthetic Data Generation with Statistical Guarantees - 专知论文

会员服务 ·

0

Differentially Private Linear Regression and Synthetic Data Generation with Statistical Guarantees

翻译：差分隐私线性回归与具有统计保证的合成数据生成

Shurong Lin,Aleksandra Slavković,Deekshith Reddy Bhoomireddy

In the social sciences, small- to medium-scale datasets are common, and linear regression is canonical. In privacy-aware settings, much work has focused on differentially private (DP) linear regression, but mostly on point estimation with limited attention to uncertainty quantification. Meanwhile, synthetic data generation (SDG) is increasingly important for reproducibility studies, yet current DP linear regression methods do not readily support it. Mainstream DP-SDG approaches either are tailored to discrete or discretized data, making them less suitable for analyses involving continuous variables, or rely on deep learning models that require large datasets, limiting their use for the smaller-scale data typical in social science. We propose a method for linear regression with valid inference under Gaussian DP. It includes a bias-corrected estimator with asymptotic confidence intervals (CIs) and a general SDG procedure such that the corresponding regression on the synthetic data matches our DP linear regression procedure. Our approach is effective in small- to moderate-dimensional settings. Experiments show that our method (1) improves accuracy over existing methods for DP linear regression, (2) provides valid CIs, and (3) produces more reliable synthetic data for downstream statistical and machine learning tasks than current DP synthesizers.

翻译：在社会科学中，中小规模数据集很常见，而线性回归是经典方法。在隐私感知场景中，大量研究聚焦于差分隐私（DP）线性回归，但多数侧重于点估计，对不确定性量化关注有限。与此同时，合成数据生成（SDG）在可重复性研究中日益重要，然而现有的DP线性回归方法难以直接支持该任务。主流的DP-SDG方法要么针对离散或离散化数据设计，使其不适用于涉及连续变量的分析，要么依赖需要大规模数据集的深度学习模型，限制了其在社会科学典型的小规模数据中的应用。我们提出一种在高斯DP下实现有效推断的线性回归方法。该方法包含一个带渐近置信区间（CIs）的偏差校正估计器，以及一套通用SDG流程，使得基于合成数据的回归结果与我们的DP线性回归流程相匹配。我们的方法在中小维度场景下表现有效。实验表明，该方法（1）相较现有的DP线性回归方法提升了精度，（2）提供了有效的置信区间，且（3）相较于当前DP合成器，能为下游统计与机器学习任务生成更可靠的合成数据。

0

相关内容

差分隐私全指南：从理论基础到用户期望

差分隐私全指南：从理论基础到用户期望

专知会员服务

13+阅读 · 2025年9月8日

【新书】合成数据与生成式人工智能

【新书】合成数据与生成式人工智能

专知会员服务

48+阅读 · 2025年2月9日

《利用合成数据生成加强军事决策支持》

《利用合成数据生成加强军事决策支持》

专知会员服务

43+阅读 · 2024年12月30日

【普林斯顿博士论文】在差分隐私机器学习中有效地从数据中学习并生成数据，189页pdf

【普林斯顿博士论文】在差分隐私机器学习中有效地从数据中学习并生成数据，189页pdf

专知会员服务

20+阅读 · 2024年10月18日

【普林斯顿博士论文】在差分隐私机器学习中有效地从数据中学习和生成数据

【普林斯顿博士论文】在差分隐私机器学习中有效地从数据中学习和生成数据

专知会员服务

16+阅读 · 2024年10月7日

【斯坦福博士论文】有效的差分隐私深度学习，153页pdf

【斯坦福博士论文】有效的差分隐私深度学习，153页pdf

专知会员服务

19+阅读 · 2024年7月10日

【新书】差分隐私实战：使用OpenDP进行理论与实践介绍，389页pdf

【新书】差分隐私实战：使用OpenDP进行理论与实践介绍，389页pdf

专知会员服务

29+阅读 · 2024年5月29日

「机器学习中差分隐私」最新2022进展综述

「机器学习中差分隐私」最新2022进展综述

专知会员服务

53+阅读 · 2022年9月9日

【百度&北京大学】自然语言生成的保真性:分析、评价和优化方法的系统综述，Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods

【百度&北京大学】自然语言生成的保真性:分析、评价和优化方法的系统综述，Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods

专知会员服务

15+阅读 · 2022年3月11日

最新《分布式差分隐私》报告，65页ppt

专知会员服务

41+阅读 · 2020年12月1日

一文看懂线性回归（3个优缺点+8种方法评测）

一文看懂线性回归（3个优缺点+8种方法评测）

AINLP

19+阅读 · 2019年10月16日

一文读懂线性回归、岭回归和Lasso回归

一文读懂线性回归、岭回归和Lasso回归

CSDN

34+阅读 · 2019年10月13日

【机器学习】一文读懂线性回归、岭回归和Lasso回归

【机器学习】一文读懂线性回归、岭回归和Lasso回归

AINLP

20+阅读 · 2019年10月12日

数据分析师应该知道的16种回归方法：负二项回归

数据分析师应该知道的16种回归方法：负二项回归

数萃大数据

74+阅读 · 2018年9月16日

数据分析师应该知道的16种回归方法：泊松回归

数据分析师应该知道的16种回归方法：泊松回归

数萃大数据

35+阅读 · 2018年9月13日

数据分析师应该知道的16种回归技术：偏最小二乘回归

数据分析师应该知道的16种回归技术：偏最小二乘回归

数萃大数据

14+阅读 · 2018年8月29日

数据分析师应该知道的16种回归技术：分位数回归

数据分析师应该知道的16种回归技术：分位数回归

数萃大数据

29+阅读 · 2018年8月8日

隐私和机器学习：两个意想不到的盟友？一文了解差分隐私

隐私和机器学习：两个意想不到的盟友？一文了解差分隐私

专知

21+阅读 · 2018年5月14日

线性回归：简单线性回归详解

线性回归：简单线性回归详解

专知

12+阅读 · 2018年3月10日

综述——隐私保护集合交集计算技术研究

综述——隐私保护集合交集计算技术研究

计算机研究与发展

22+阅读 · 2017年10月24日

粗糙回归模型与算法研究

国家自然科学基金

8+阅读 · 2015年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

云计算环境下面向大数据的在线聚集并行优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

满足差分隐私的频繁模式挖掘研究

国家自然科学基金

2+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

基于差分隐私保护模型的交互式社交网络分析技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

相依回归模型与扩散过程的统计推断及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

A Comprehensive Guide to Differential Privacy: From Theory to User Expectations

Arxiv

0+阅读 · 4月23日

Differentially Private Estimation and Inference in High-Dimensional Regression with FDR Control

Arxiv

0+阅读 · 4月10日

Training-Free Private Synthesis with Validation: A New Frontier for Practical Educational Data Sharing

Arxiv

0+阅读 · 4月2日

Structure Selection for Fairness-Constrained Differentially Private Data Synthesis

Arxiv

0+阅读 · 3月25日

SoK: Practical Aspects of Releasing Differentially Private Graphs

Arxiv

0+阅读 · 3月19日

Structure Selection for Fairness-Constrained Differentially Private Data Synthesis

Arxiv

0+阅读 · 3月16日

Structure Selection for Fairness-Constrained Differentially Private Data Synthesis

Arxiv

0+阅读 · 3月12日

Measuring Privacy vs. Fidelity in Synthetic Social Media Datasets

Arxiv

0+阅读 · 3月5日

Differentially Private Truncation of Unbounded Data via Public Second Moments

Arxiv

0+阅读 · 2月25日

Logistic Regression Model for Differentially-Private Matrix Masked Data

Arxiv

0+阅读 · 2月23日

VIP会员

文章信息

相关主题

最新内容

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

1+阅读 · 今天11:43

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

1+阅读 · 今天11:41

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

4+阅读 · 今天6:30

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

4+阅读 · 今天6:18

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

5+阅读 · 今天6:08

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

5+阅读 · 今天5:54

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

5+阅读 · 今天5:22

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

6+阅读 · 今天5:15

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

6+阅读 · 今天3:42

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

5+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

6+阅读 · 6月24日

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

10+阅读 · 6月24日

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

9+阅读 · 6月24日

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

7+阅读 · 6月24日

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

9+阅读 · 6月24日

相关VIP内容

差分隐私全指南：从理论基础到用户期望

差分隐私全指南：从理论基础到用户期望

专知会员服务

13+阅读 · 2025年9月8日

【新书】合成数据与生成式人工智能

【新书】合成数据与生成式人工智能

专知会员服务

48+阅读 · 2025年2月9日

《利用合成数据生成加强军事决策支持》

《利用合成数据生成加强军事决策支持》

专知会员服务

43+阅读 · 2024年12月30日

【普林斯顿博士论文】在差分隐私机器学习中有效地从数据中学习并生成数据，189页pdf

【普林斯顿博士论文】在差分隐私机器学习中有效地从数据中学习并生成数据，189页pdf

专知会员服务

20+阅读 · 2024年10月18日

【普林斯顿博士论文】在差分隐私机器学习中有效地从数据中学习和生成数据

【普林斯顿博士论文】在差分隐私机器学习中有效地从数据中学习和生成数据

专知会员服务

16+阅读 · 2024年10月7日

【斯坦福博士论文】有效的差分隐私深度学习，153页pdf

【斯坦福博士论文】有效的差分隐私深度学习，153页pdf

专知会员服务

19+阅读 · 2024年7月10日

【新书】差分隐私实战：使用OpenDP进行理论与实践介绍，389页pdf

【新书】差分隐私实战：使用OpenDP进行理论与实践介绍，389页pdf

专知会员服务

29+阅读 · 2024年5月29日

「机器学习中差分隐私」最新2022进展综述

「机器学习中差分隐私」最新2022进展综述

专知会员服务

53+阅读 · 2022年9月9日

【百度&北京大学】自然语言生成的保真性:分析、评价和优化方法的系统综述，Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods

【百度&北京大学】自然语言生成的保真性:分析、评价和优化方法的系统综述，Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods

专知会员服务

15+阅读 · 2022年3月11日

最新《分布式差分隐私》报告，65页ppt

专知会员服务

41+阅读 · 2020年12月1日

热门VIP内容

开通专知VIP会员享更多权益服务

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

网状网络及其在军事领域的运用

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

相关资讯

一文看懂线性回归（3个优缺点+8种方法评测）

一文看懂线性回归（3个优缺点+8种方法评测）

AINLP

19+阅读 · 2019年10月16日

一文读懂线性回归、岭回归和Lasso回归

一文读懂线性回归、岭回归和Lasso回归

CSDN

34+阅读 · 2019年10月13日

【机器学习】一文读懂线性回归、岭回归和Lasso回归

【机器学习】一文读懂线性回归、岭回归和Lasso回归

AINLP

20+阅读 · 2019年10月12日

数据分析师应该知道的16种回归方法：负二项回归

数据分析师应该知道的16种回归方法：负二项回归

数萃大数据

74+阅读 · 2018年9月16日

数据分析师应该知道的16种回归方法：泊松回归

数据分析师应该知道的16种回归方法：泊松回归

数萃大数据

35+阅读 · 2018年9月13日

数据分析师应该知道的16种回归技术：偏最小二乘回归

数据分析师应该知道的16种回归技术：偏最小二乘回归

数萃大数据

14+阅读 · 2018年8月29日

数据分析师应该知道的16种回归技术：分位数回归

数据分析师应该知道的16种回归技术：分位数回归

数萃大数据

29+阅读 · 2018年8月8日

隐私和机器学习：两个意想不到的盟友？一文了解差分隐私

隐私和机器学习：两个意想不到的盟友？一文了解差分隐私

专知

21+阅读 · 2018年5月14日

线性回归：简单线性回归详解

线性回归：简单线性回归详解

专知

12+阅读 · 2018年3月10日

综述——隐私保护集合交集计算技术研究

综述——隐私保护集合交集计算技术研究

计算机研究与发展

22+阅读 · 2017年10月24日

相关论文

A Comprehensive Guide to Differential Privacy: From Theory to User Expectations

Arxiv

0+阅读 · 4月23日

Differentially Private Estimation and Inference in High-Dimensional Regression with FDR Control

Arxiv

0+阅读 · 4月10日

Training-Free Private Synthesis with Validation: A New Frontier for Practical Educational Data Sharing

Arxiv

0+阅读 · 4月2日

Structure Selection for Fairness-Constrained Differentially Private Data Synthesis

Arxiv

0+阅读 · 3月25日

SoK: Practical Aspects of Releasing Differentially Private Graphs

Arxiv

0+阅读 · 3月19日

Structure Selection for Fairness-Constrained Differentially Private Data Synthesis

Arxiv

0+阅读 · 3月16日

Structure Selection for Fairness-Constrained Differentially Private Data Synthesis

Arxiv

0+阅读 · 3月12日

Measuring Privacy vs. Fidelity in Synthetic Social Media Datasets

Arxiv

0+阅读 · 3月5日

Differentially Private Truncation of Unbounded Data via Public Second Moments

Arxiv

0+阅读 · 2月25日

Logistic Regression Model for Differentially-Private Matrix Masked Data

Arxiv

0+阅读 · 2月23日

相关基金

粗糙回归模型与算法研究

国家自然科学基金

8+阅读 · 2015年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

云计算环境下面向大数据的在线聚集并行优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

满足差分隐私的频繁模式挖掘研究

国家自然科学基金

2+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

基于差分隐私保护模型的交互式社交网络分析技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

相依回归模型与扩散过程的统计推断及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员