Semiparametric Efficient Data Integration Using the Dual-Frame Sampling Framework - 专知论文

会员服务 ·

0

概率 · 样本 · 识别 · 数据整合 · 参数高效 ·

Semiparametric Efficient Data Integration Using the Dual-Frame Sampling Framework

翻译：基于双框架抽样框架的半参数高效数据整合方法

Kosuke Morikawa,Jae Kwang Kim

Integrating probability and non-probability samples is increasingly important, yet unknown sampling mechanisms in non-probability sources complicate identification and efficient estimation. We develop semiparametric theory for dual-frame data integration and propose two complementary estimators. The first models the non-probability inclusion probability parametrically and attains the semiparametric efficiency bound. We introduce an identifiability condition based on strong monotonicity that identifies sampling-model parameters without instrumental variables, even under informative (non-ignorable) selection, using auxiliary information from the probability sample; it remains valid without record linkage between samples. The second estimator, motivated by a two-stage sampling approximation, avoids explicit modeling of the non-probability mechanism; though not fully efficient, it is efficient within a restricted augmentation class and is robust to misspecification. Simulations and an application to the Culture and Community in a Time of Crisis public simulation dataset show efficiency gains under correct specification and stable performance under misspecification and weak identification. Methods are implemented in the R package \texttt{dfSEDI}.

翻译：整合概率样本与非概率样本日益重要，然而非概率来源中未知的抽样机制使得识别与高效估计变得复杂。本文发展了双框架数据整合的半参数理论，并提出了两种互补的估计量。第一种方法通过参数化建模非概率包含概率，达到了半参数效率界。我们引入了一种基于强单调性的可识别性条件，该条件无需工具变量即可识别抽样模型参数，即使在信息性（不可忽略）选择下，也能利用概率样本的辅助信息实现；该条件在样本间无需记录链接的情况下依然有效。第二种估计量受两阶段抽样近似启发，避免了对非概率机制的显式建模；尽管未达到完全效率，但在受限的增广类内是高效的，并且对模型误设具有稳健性。模拟研究以及在"危机时期的文化与社区"公共仿真数据集上的应用表明，在正确设定模型时能获得效率提升，在模型误设与弱识别条件下仍保持稳定性能。相关方法已在R包\texttt{dfSEDI}中实现。

0

相关内容

本话题关于日常用语「概率」，用于讨论生活中的运气、机会，及赌博、彩票、游戏中的「技巧」。关于抽象数学概念「概率」的讨论，请转概率（数学）话题。

联邦学习中基础模型参数高效微调综述

联邦学习中基础模型参数高效微调综述

专知会员服务

17+阅读 · 2025年5月5日

【剑桥大学博士论文】使用机器学习的因果推断中的两个问题的半参数方法

【剑桥大学博士论文】使用机器学习的因果推断中的两个问题的半参数方法

专知会员服务

26+阅读 · 2024年5月25日

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

专知会员服务

70+阅读 · 2023年12月21日

干货书《数据融合：理论、方法和应用》289页

干货书《数据融合：理论、方法和应用》289页

专知会员服务

131+阅读 · 2023年4月2日

《异构观测数据中的联合因果推理》美国艾莫利大学、微软、约翰霍普金斯大学、哈佛大学、斯坦福大学等联合发表最新论文63页PDF

《异构观测数据中的联合因果推理》美国艾莫利大学、微软、约翰霍普金斯大学、哈佛大学、斯坦福大学等联合发表最新论文63页PDF

专知会员服务

29+阅读 · 2022年4月28日

【干货书】1270页pdf《概率图模型：原理与技术》MIT出版，用于构建和使用复杂系统概率模型的通用框架，使计算机能够使用可用信息做出决策。Probabilistic Graphical Models: Principles and Applications

【干货书】1270页pdf《概率图模型：原理与技术》MIT出版，用于构建和使用复杂系统概率模型的通用框架，使计算机能够使用可用信息做出决策。Probabilistic Graphical Models: Principles and Applications

专知会员服务

47+阅读 · 2022年4月11日

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

专知会员服务

27+阅读 · 2022年3月22日

【经典书】从数据中学习，第二版，LEARNING FROM DATA Concepts, Theory, and Methods

专知会员服务

49+阅读 · 2021年9月6日

基于深度学习的数据融合方法研究综述

基于深度学习的数据融合方法研究综述

专知会员服务

147+阅读 · 2020年12月10日

Google研究院提出FixMatch，简单粗暴却极其有效的半监督学习方法，附14页PDF下载

Google研究院提出FixMatch，简单粗暴却极其有效的半监督学习方法，附14页PDF下载

专知会员服务

54+阅读 · 2020年1月24日

基于深度学习的数据融合方法研究综述

基于深度学习的数据融合方法研究综述

专知

37+阅读 · 2020年12月10日

北航发布「深度学习人群计数」2020综述论文，220+基于CNN的密度估计和人群计数的方法大调研

北航发布「深度学习人群计数」2020综述论文，220+基于CNN的密度估计和人群计数的方法大调研

专知

10+阅读 · 2020年4月1日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

新智元

20+阅读 · 2019年7月11日

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

机器之心

11+阅读 · 2019年6月3日

【大数据】大数据参考架构和关键技术（综合）

【大数据】大数据参考架构和关键技术（综合）

产业智能官

14+阅读 · 2018年11月22日

半监督多任务学习：Semisupervised Multitask Learning

半监督多任务学习：Semisupervised Multitask Learning

我爱读PAMI

18+阅读 · 2018年4月29日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

IBM新论文|SamplePairing：针对图像处理领域的高效数据增强方式

IBM新论文|SamplePairing：针对图像处理领域的高效数据增强方式

极市平台

16+阅读 · 2018年1月20日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

高维半参数模型假设检验问题的研究

国家自然科学基金

1+阅读 · 2015年12月31日

多源基因表达数据横向整合的统计方法比较

国家自然科学基金

0+阅读 · 2015年12月31日

复杂数据下带有形状约束的半参数模型统计推断

国家自然科学基金

3+阅读 · 2014年12月31日

纵向数据的动态半参数建模及其统计推断

国家自然科学基金

0+阅读 · 2014年12月31日

一般误差分布下若干半参数模型的复合分位数方法

国家自然科学基金

0+阅读 · 2014年12月31日

排序集抽样下随机删失数据的非参数估计

国家自然科学基金

1+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

半参数面板数据交互固定效应模型的理论与应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

复杂数据下含指标项半参数模型结构的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

（半）代数系统的几何结构分析的高效算法及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

Efficient Semi-Supervised Adversarial Training via Latent Clustering-Based Data Reduction

Arxiv

0+阅读 · 2月17日

Nonparametric Identification and Inference for Counterfactual Distributions with Confounding

Arxiv

0+阅读 · 2月17日

Reducing Estimation Uncertainty Using Normalizing Flows and Stratification

Arxiv

0+阅读 · 2月12日

Repro Samples Method for a Performance Guaranteed Inference in General and Irregular Inference Problems

Arxiv

0+阅读 · 2月10日

Synthetic Oversampling: Theory and A Practical Approach Using LLMs to Address Data Imbalance

Arxiv

0+阅读 · 2月8日

RefineStat: Efficient Exploration for Probabilistic Program Synthesis

Arxiv

0+阅读 · 2月7日

Semiparametric Efficient Fusion of Individual Data and Summary Statistics

Arxiv

0+阅读 · 2月5日

OneFlowSBI: One Model, Many Queries for Simulation-Based Inference

Arxiv

0+阅读 · 1月30日

A Deterministic Information Bottleneck Method for Clustering Mixed-Type Data

Arxiv

0+阅读 · 1月29日

Semiparametric inference for inequality measures under nonignorable nonresponse using callback data

Arxiv

0+阅读 · 1月15日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

1+阅读 · 今天13:56

多模态代码智能综述：从视觉输入到可执行代码系统

多模态代码智能综述：从视觉输入到可执行代码系统

专知会员服务

1+阅读 · 今天13:54

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

3+阅读 · 今天8:18

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

专知会员服务

3+阅读 · 今天7:39

《通用大语言模型：无人机指挥与控制接口》最新40页

《通用大语言模型：无人机指挥与控制接口》最新40页

专知会员服务

9+阅读 · 今天7:33

《通过小型无人机系统将情报能力“作战化”》

《通过小型无人机系统将情报能力“作战化”》

专知会员服务

3+阅读 · 今天7:28

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

专知会员服务

6+阅读 · 今天7:14

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

专知会员服务

18+阅读 · 6月15日

消耗优势：美军的“精确规模化”概念

消耗优势：美军的“精确规模化”概念

专知会员服务

7+阅读 · 6月15日

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

专知会员服务

8+阅读 · 6月15日

《网络空间兵棋推演：挑战、局限性与混合路径》报告

《网络空间兵棋推演：挑战、局限性与混合路径》报告

专知会员服务

8+阅读 · 6月15日

《离线语言支持系统：面向空战战术决策》

《离线语言支持系统：面向空战战术决策》

专知会员服务

8+阅读 · 6月15日

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

专知会员服务

7+阅读 · 6月15日

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

专知会员服务

6+阅读 · 6月14日

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

专知会员服务

6+阅读 · 6月14日

相关VIP内容

联邦学习中基础模型参数高效微调综述

联邦学习中基础模型参数高效微调综述

专知会员服务

17+阅读 · 2025年5月5日

【剑桥大学博士论文】使用机器学习的因果推断中的两个问题的半参数方法

【剑桥大学博士论文】使用机器学习的因果推断中的两个问题的半参数方法

专知会员服务

26+阅读 · 2024年5月25日

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

专知会员服务

70+阅读 · 2023年12月21日

干货书《数据融合：理论、方法和应用》289页

干货书《数据融合：理论、方法和应用》289页

专知会员服务

131+阅读 · 2023年4月2日

《异构观测数据中的联合因果推理》美国艾莫利大学、微软、约翰霍普金斯大学、哈佛大学、斯坦福大学等联合发表最新论文63页PDF

《异构观测数据中的联合因果推理》美国艾莫利大学、微软、约翰霍普金斯大学、哈佛大学、斯坦福大学等联合发表最新论文63页PDF

专知会员服务

29+阅读 · 2022年4月28日

【干货书】1270页pdf《概率图模型：原理与技术》MIT出版，用于构建和使用复杂系统概率模型的通用框架，使计算机能够使用可用信息做出决策。Probabilistic Graphical Models: Principles and Applications

【干货书】1270页pdf《概率图模型：原理与技术》MIT出版，用于构建和使用复杂系统概率模型的通用框架，使计算机能够使用可用信息做出决策。Probabilistic Graphical Models: Principles and Applications

专知会员服务

47+阅读 · 2022年4月11日

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

专知会员服务

27+阅读 · 2022年3月22日

【经典书】从数据中学习，第二版，LEARNING FROM DATA Concepts, Theory, and Methods

专知会员服务

49+阅读 · 2021年9月6日

基于深度学习的数据融合方法研究综述

基于深度学习的数据融合方法研究综述

专知会员服务

147+阅读 · 2020年12月10日

Google研究院提出FixMatch，简单粗暴却极其有效的半监督学习方法，附14页PDF下载

Google研究院提出FixMatch，简单粗暴却极其有效的半监督学习方法，附14页PDF下载

专知会员服务

54+阅读 · 2020年1月24日

热门VIP内容

开通专知VIP会员享更多权益服务

多模态代码智能综述：从视觉输入到可执行代码系统

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

相关资讯

基于深度学习的数据融合方法研究综述

基于深度学习的数据融合方法研究综述

专知

37+阅读 · 2020年12月10日

北航发布「深度学习人群计数」2020综述论文，220+基于CNN的密度估计和人群计数的方法大调研

北航发布「深度学习人群计数」2020综述论文，220+基于CNN的密度估计和人群计数的方法大调研

专知

10+阅读 · 2020年4月1日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

新智元

20+阅读 · 2019年7月11日

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

机器之心

11+阅读 · 2019年6月3日

【大数据】大数据参考架构和关键技术（综合）

【大数据】大数据参考架构和关键技术（综合）

产业智能官

14+阅读 · 2018年11月22日

半监督多任务学习：Semisupervised Multitask Learning

半监督多任务学习：Semisupervised Multitask Learning

我爱读PAMI

18+阅读 · 2018年4月29日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

IBM新论文|SamplePairing：针对图像处理领域的高效数据增强方式

IBM新论文|SamplePairing：针对图像处理领域的高效数据增强方式

极市平台

16+阅读 · 2018年1月20日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

相关论文

Efficient Semi-Supervised Adversarial Training via Latent Clustering-Based Data Reduction

Arxiv

0+阅读 · 2月17日

Nonparametric Identification and Inference for Counterfactual Distributions with Confounding

Arxiv

0+阅读 · 2月17日

Reducing Estimation Uncertainty Using Normalizing Flows and Stratification

Arxiv

0+阅读 · 2月12日

Repro Samples Method for a Performance Guaranteed Inference in General and Irregular Inference Problems

Arxiv

0+阅读 · 2月10日

Synthetic Oversampling: Theory and A Practical Approach Using LLMs to Address Data Imbalance

Arxiv

0+阅读 · 2月8日

RefineStat: Efficient Exploration for Probabilistic Program Synthesis

Arxiv

0+阅读 · 2月7日

Semiparametric Efficient Fusion of Individual Data and Summary Statistics

Arxiv

0+阅读 · 2月5日

OneFlowSBI: One Model, Many Queries for Simulation-Based Inference

Arxiv

0+阅读 · 1月30日

A Deterministic Information Bottleneck Method for Clustering Mixed-Type Data

Arxiv

0+阅读 · 1月29日

Semiparametric inference for inequality measures under nonignorable nonresponse using callback data

Arxiv

0+阅读 · 1月15日

相关基金

高维半参数模型假设检验问题的研究

国家自然科学基金

1+阅读 · 2015年12月31日

多源基因表达数据横向整合的统计方法比较

国家自然科学基金

0+阅读 · 2015年12月31日

复杂数据下带有形状约束的半参数模型统计推断

国家自然科学基金

3+阅读 · 2014年12月31日

纵向数据的动态半参数建模及其统计推断

国家自然科学基金

0+阅读 · 2014年12月31日

一般误差分布下若干半参数模型的复合分位数方法

国家自然科学基金

0+阅读 · 2014年12月31日

排序集抽样下随机删失数据的非参数估计

国家自然科学基金

1+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

半参数面板数据交互固定效应模型的理论与应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

复杂数据下含指标项半参数模型结构的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

（半）代数系统的几何结构分析的高效算法及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员