Complex and larger networks are becoming increasingly prevalent in scientific applications in various domains. Although a number of models and methods exist for such networks, cross-validation on networks remains challenging due to the unique structure of network data. In this paper, we propose a general cross-validation procedure called NETCROP (NETwork CRoss-Validation using Overlapping Partitions). The key idea is to divide the original network into multiple subnetworks with a shared overlap part, producing training sets consisting of the subnetworks and a test set with the node pairs between the subnetworks. This train-test split provides the basis for a network cross-validation procedure that can be applied on a wide range of model selection and parameter tuning problems for networks. The method is computationally efficient for large networks as it uses smaller subnetworks for the training step. We provide methodological details and theoretical guarantees for several model selection and parameter tuning tasks using NETCROP. Numerical results demonstrate that NETCROP performs accurate cross-validation on a diverse set of network model selection and parameter tuning problems. The results also indicate that NETCROP is computationally much faster while being often more accurate than the existing methods for network cross-validation.


翻译:随着科学应用的发展,复杂且规模庞大的网络在各领域日益普遍。尽管已有多种针对此类网络的模型与方法,但由于网络数据具有独特的结构,网络数据的交叉验证仍面临挑战。本文提出了一种通用的交叉验证方法,称为NETCROP(基于重叠划分的网络交叉验证)。其核心思想是将原始网络划分为多个具有共享重叠部分的子网络,从而构建由子网络组成的训练集,以及由子网络间节点对构成的测试集。这种训练-测试划分方式为网络交叉验证提供了基础,可广泛应用于网络的模型选择与参数调优问题。该方法对大规模网络具有计算高效性,因其在训练阶段使用规模较小的子网络。我们针对使用NETCROP进行多种模型选择与参数调优任务提供了方法细节与理论保证。数值实验表明,NETCROP在多种网络模型选择与参数调优问题上均能实现精确的交叉验证。结果同时显示,与现有网络交叉验证方法相比,NETCROP在计算速度上显著更快,且通常具有更高的准确性。

0
下载
关闭预览

相关内容

交叉验证,有时也称为旋转估计或样本外测试,是用于评估统计结果如何的各种类似模型验证技术中的任何一种分析将概括为一个独立的数据集。它主要用于设置,其目的是预测,和一个想要估计如何准确地一个预测模型在实践中执行。在预测问题中,通常会给模型一个已知数据的数据集,在该数据集上进行训练(训练数据集)以及未知数据(或首次看到的数据)的数据集(根据该数据集测试模型)(称为验证数据集或测试集)。交叉验证的目标是测试模型预测未用于估计数据的新数据的能力,以发现诸如过度拟合或选择偏倚之类的问题,并提供有关如何进行建模的见解。该模型将推广到一个独立的数据集(例如,未知数据集,例如来自实际问题的数据集)。 一轮交叉验证涉及分割一个样品的数据到互补的子集,在一个子集执行所述分析(称为训练集),以及验证在另一子集中的分析(称为验证集合或测试集)。为了减少可变性,在大多数方法中,使用不同的分区执行多轮交叉验证,并将验证结果组合(例如取平均值)在各轮中,以估计模型的预测性能。 总而言之,交叉验证结合了预测中适用性的度量(平均),以得出模型预测性能的更准确估计。
专知会员服务
56+阅读 · 2020年12月28日
异质信息网络分析与应用综述,软件学报-北京邮电大学
网络表示学习概述
机器学习与推荐算法
19+阅读 · 2020年3月27日
图神经网络最近这么火,不妨看看我们精选的这七篇
人工智能前沿讲习班
37+阅读 · 2018年12月10日
网络表示学习介绍
人工智能前沿讲习班
18+阅读 · 2018年11月26日
CNN五大经典模型:LeNet,AlexNet,GoogleNet,VGG,DRL
黑龙江大学自然语言处理实验室
14+阅读 · 2018年9月7日
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
21+阅读 · 2018年7月26日
NetworkMiner - 网络取证分析工具
黑白之道
16+阅读 · 2018年6月29日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月13日
Arxiv
0+阅读 · 3月12日
VIP会员
最新内容
《新兴技术武器化及其对全球风险的影响》
专知会员服务
7+阅读 · 4月29日
《帕兰泰尔平台介绍:信息分析平台》
专知会员服务
18+阅读 · 4月29日
智能体化世界建模:基础、能力、规律及展望
专知会员服务
11+阅读 · 4月28日
相关VIP内容
专知会员服务
56+阅读 · 2020年12月28日
异质信息网络分析与应用综述,软件学报-北京邮电大学
相关资讯
网络表示学习概述
机器学习与推荐算法
19+阅读 · 2020年3月27日
图神经网络最近这么火,不妨看看我们精选的这七篇
人工智能前沿讲习班
37+阅读 · 2018年12月10日
网络表示学习介绍
人工智能前沿讲习班
18+阅读 · 2018年11月26日
CNN五大经典模型:LeNet,AlexNet,GoogleNet,VGG,DRL
黑龙江大学自然语言处理实验室
14+阅读 · 2018年9月7日
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
21+阅读 · 2018年7月26日
NetworkMiner - 网络取证分析工具
黑白之道
16+阅读 · 2018年6月29日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员