Kernel change-point detection (KCPD) has become a widely used tool for identifying structural changes in complex data. While existing theory establishes consistency under independence assumptions, real-world sequential data such as text exhibits strong dependencies. We establish new guarantees for KCPD under $m$-dependent data: specifically, we prove consistency in the number of detected change points and weak consistency in their locations under mild additional assumptions. We perform an LLM-based simulation that generates synthetic $m$-dependent text to validate the asymptotics. To complement these results, we present the first comprehensive empirical study of KCPD for text segmentation with modern embeddings. Across diverse text datasets, KCPD with text embeddings outperforms baselines in standard text segmentation metrics. We demonstrate through a case study on Taylor Swift's tweets that KCPD not only provides strong theoretical and simulated reliability but also practical effectiveness for text segmentation tasks.


翻译:核变点检测已成为识别复杂数据结构变化的常用工具。现有理论在独立性假设下建立了检测的一致性,但现实序列数据(如文本)存在强依赖性。本文针对m-依赖数据建立了新的理论保证:在温和的附加假设下,我们证明了检测变点数量的一致性及其位置的弱一致性。我们通过基于大语言模型的仿真生成合成m-依赖文本来验证渐近性质。为补充理论结果,我们首次使用现代嵌入技术对文本分割任务中的核变点检测进行了全面实证研究。在多样化文本数据集上,采用文本嵌入的核变点检测在标准文本分割指标上均优于基线方法。通过对泰勒·斯威夫特推文的案例研究,我们证明核变点检测不仅具有可靠的理论与仿真基础,在实际文本分割任务中也展现出显著的应用效能。

0
下载
关闭预览

相关内容

【CMU博士论文】分布偏移下的不确定性量化,226页pdf
专知会员服务
31+阅读 · 2023年9月30日
基于图注意力机制和Transformer的异常检测
专知会员服务
62+阅读 · 2022年5月16日
【AAAI2022】基于图神经网络的统一离群点异常检测方法
专知会员服务
28+阅读 · 2022年2月12日
专知会员服务
17+阅读 · 2021年9月8日
【纽约大学Sean】神经文本退化:一致性和学习,93页ppt
专知会员服务
16+阅读 · 2020年10月18日
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
从锚点到关键点,最新的目标检测方法发展趋势
计算机视觉life
17+阅读 · 2019年8月20日
论文盘点:CVPR 2019 - 文本检测专题
PaperWeekly
14+阅读 · 2019年5月31日
详解GAN的谱归一化(Spectral Normalization)
PaperWeekly
11+阅读 · 2019年2月13日
论文浅尝 | 变分知识图谱推理:在KG中引入变分推理框架
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
侦测欺诈交易(异常点检测)
GBASE数据工程部数据团队
20+阅读 · 2017年5月10日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
55+阅读 · 2011年12月31日
VIP会员
相关资讯
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
从锚点到关键点,最新的目标检测方法发展趋势
计算机视觉life
17+阅读 · 2019年8月20日
论文盘点:CVPR 2019 - 文本检测专题
PaperWeekly
14+阅读 · 2019年5月31日
详解GAN的谱归一化(Spectral Normalization)
PaperWeekly
11+阅读 · 2019年2月13日
论文浅尝 | 变分知识图谱推理:在KG中引入变分推理框架
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
侦测欺诈交易(异常点检测)
GBASE数据工程部数据团队
20+阅读 · 2017年5月10日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
55+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员