We introduce a powerful scan statistic and the corresponding test for detecting the presence and pinpointing the location of a change point within the distribution of a data sequence with the data elements residing in a separable metric space $(Ω, d)$. These change points mark abrupt shifts in the distribution of the data sequence as characterized using distance profiles, where the distance profile of an element $ω\in Ω$ is the distribution of distances from $ω$ as dictated by the data. This approach is tuning parameter free, fully non-parametric and universally applicable to diverse data types, including distributional and network data, as long as distances between the data objects are available. We obtain an explicit characterization of the asymptotic distribution of the test statistic under the null hypothesis of no change points, rigorous guarantees on the consistency of the test in the presence of change points under fixed and local alternatives and near-optimal convergence of the estimated change point location, all under practicable settings. To compare with state-of-the-art methods we conduct simulations covering multivariate data, bivariate distributional data and sequences of graph Laplacians, and illustrate our method on real data sequences of the U.S. electricity generation compositions and Bluetooth proximity networks.


翻译:本文提出了一种强大的扫描统计量及其相应检验方法,用于检测数据序列分布中变点的存在并精确定位其位置,其中数据元素存在于可分离度量空间$(Ω, d)$中。这些变点标志着数据序列分布的突变,该特征通过距离剖面进行刻画——元素$ω\in Ω$的距离剖面即由数据决定的、从$ω$出发的距离分布。该方法无需调节参数,完全非参数化,且普遍适用于各类数据类型(包括分布数据和网络数据),只要数据对象间的距离可计算即可。我们在无变点的原假设下获得了检验统计量渐近分布的显式刻画,在固定备择与局部备择下证明了存在变点时检验的一致性,并得到了估计变点位置的近乎最优收敛速度,所有结论均在可实际应用的设定下成立。为与前沿方法进行比较,我们开展了涵盖多元数据、二元分布数据及图拉普拉斯矩阵序列的模拟实验,并在美国发电结构组成与蓝牙邻近网络的实际数据序列上展示了本方法的有效性。

0
下载
关闭预览

相关内容

数学上,序列是被排成一列的对象(或事件);这样每个元素不是在其他元素之前,就是在其他元素之后。这里,元素之间的顺序非常重要。
【博士论文】用于概率程序与生成模型的变分推断
专知会员服务
17+阅读 · 2025年10月27日
【CMU博士论文】分布偏移下的不确定性量化,226页pdf
专知会员服务
31+阅读 · 2023年9月30日
【AAAI2022】基于图神经网络的统一离群点异常检测方法
专知会员服务
28+阅读 · 2022年2月12日
图节点嵌入(Node Embeddings)概述,9页pdf
专知
15+阅读 · 2020年8月22日
PointNet系列论文解读
人工智能前沿讲习班
17+阅读 · 2019年5月3日
Seq2seq强化,Pointer Network简介
机器学习算法与Python学习
15+阅读 · 2018年12月8日
数据分析师应该知道的16种回归技术:分位数回归
数萃大数据
29+阅读 · 2018年8月8日
论文浅尝 | 变分知识图谱推理:在KG中引入变分推理框架
基于几何特征的激光雷达地面点云分割
泡泡机器人SLAM
15+阅读 · 2018年4月1日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月19日
Arxiv
0+阅读 · 2月5日
VIP会员
相关资讯
图节点嵌入(Node Embeddings)概述,9页pdf
专知
15+阅读 · 2020年8月22日
PointNet系列论文解读
人工智能前沿讲习班
17+阅读 · 2019年5月3日
Seq2seq强化,Pointer Network简介
机器学习算法与Python学习
15+阅读 · 2018年12月8日
数据分析师应该知道的16种回归技术:分位数回归
数萃大数据
29+阅读 · 2018年8月8日
论文浅尝 | 变分知识图谱推理:在KG中引入变分推理框架
基于几何特征的激光雷达地面点云分割
泡泡机器人SLAM
15+阅读 · 2018年4月1日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员