We propose a fast and efficient strategy, called the representative approach, for big data analysis with generalized linear models, especially for distributed data with localization requirements or limited network bandwidth. With a given partition of massive dataset, this approach constructs a representative data point for each data block and fits the target model using the representative dataset. In terms of time complexity, it is as fast as the subsampling approaches in the literature. As for efficiency, its accuracy in estimating parameters given a homogeneous partition is comparable with the divide-and-conquer method. Supported by comprehensive simulation studies and theoretical justifications, we conclude that mean representatives (MR) work fine for linear models or generalized linear models with a flat inverse link function and moderate coefficients of continuous predictors. For general cases, we recommend the proposed score-matching representatives (SMR), which may improve the accuracy of estimators significantly by matching the score function values. As an illustrative application to the Airline on-time performance data, we show that the MR and SMR estimates are as good as the full data estimate when available.


翻译:我们提出了一个快速而有效的战略,称为代表性方法,用于使用通用线性模型进行大数据分析,特别是具有本地化要求或有限网络带宽的分布式数据;通过对大型数据集进行特定分割,这种方法为每个数据区块建立一个有代表性的数据点,并适合使用代表性数据集的目标模型;在时间复杂性方面,它与文献中的子抽样方法一样快;在效率方面,在估计单一分区的参数时,其精确度与分数和分数方法相当;在全面模拟研究和理论依据的支持下,我们的结论是,代表对线性模型或具有平面反链接功能和连续预测的中度系数的通用线性模型工作良好;在一般情况下,我们建议拟议的得分比对数代表(SMR),这可以通过与分数函数值相匹配,大大提高估计的准确性;作为对空线实时性能数据的示例应用,我们表明MR和SMR估计数在可用时与全部数据估计相同。

0
下载
关闭预览

相关内容

【大规模数据系统,552页ppt】Large-scale Data Systems
专知会员服务
61+阅读 · 2019年12月21日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
164+阅读 · 2019年10月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
已删除
将门创投
4+阅读 · 2017年7月7日
Arxiv
7+阅读 · 2018年3月21日
Arxiv
3+阅读 · 2018年2月24日
VIP会员
最新内容
人工智能赋能无人机:俄乌战争(万字长文)
专知会员服务
5+阅读 · 今天6:56
国外海军作战管理系统与作战训练系统
专知会员服务
2+阅读 · 今天4:16
美军条令《海军陆战队规划流程(2026版)》
专知会员服务
10+阅读 · 今天3:36
《压缩式分布式交互仿真标准》120页
专知会员服务
4+阅读 · 今天3:21
《电子战数据交换模型研究报告》
专知会员服务
6+阅读 · 今天3:13
《基于Transformer的异常舰船导航识别与跟踪》80页
《低数据领域军事目标检测模型研究》
专知会员服务
6+阅读 · 今天2:37
【CMU博士论文】物理世界的视觉感知与深度理解
专知会员服务
10+阅读 · 4月22日
相关资讯
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
已删除
将门创投
4+阅读 · 2017年7月7日
Top
微信扫码咨询专知VIP会员