Linear text segmentation is a long-standing problem in natural language processing (NLP), focused on dividing continuous text into coherent and semantically meaningful units. Despite its importance, the task remains challenging due to the complexity of defining topic boundaries, the variability in discourse structure, and the need to balance local coherence with global context. These difficulties hinder downstream applications such as summarization, information retrieval, and question answering. In this work, we introduce SegNSP, framing linear text segmentation as a next sentence prediction (NSP) task. Although NSP has largely been abandoned in modern pre-training, its explicit modeling of sentence-to-sentence continuity makes it a natural fit for detecting topic boundaries. We propose a label-agnostic NSP approach, which predicts whether the next sentence continues the current topic without requiring explicit topic labels, and enhance it with a segmentation-aware loss combined with harder negative sampling to better capture discourse continuity. Unlike recent proposals that leverage NSP alongside auxiliary topic classification, our approach avoids task-specific supervision. We evaluate our model against established baselines on two datasets, CitiLink-Minutes, for which we establish the first segmentation benchmark, and WikiSection. On CitiLink-Minutes, SegNSP achieves a B-$F_1$ of 0.79, closely aligning with human-annotated topic transitions, while on WikiSection it attains a B-F$_1$ of 0.65, outperforming the strongest reproducible baseline, TopSeg, by 0.17 absolute points. These results demonstrate competitive and robust performance, highlighting the effectiveness of modeling sentence-to-sentence continuity for improving segmentation quality and supporting downstream NLP applications.


翻译:线性文本分割是自然语言处理(NLP)中长期存在的问题,其重点在于将连续文本划分为连贯且具有语义意义的单元。尽管该任务至关重要,但由于定义主题边界的复杂性、篇章结构的多样性以及平衡局部连贯性与全局上下文的需求,它仍然具有挑战性。这些困难阻碍了下游应用的发展,如摘要生成、信息检索和问答系统。在本研究中,我们提出了SegNSP,将线性文本分割任务重新定义为下句预测任务。尽管NSP在现代预训练中已基本被弃用,但其对句间连续性的显式建模使其天然适用于检测主题边界。我们提出了一种标签无关的NSP方法,该方法预测下一句是否延续当前主题,而无需显式的主题标签,并通过结合分割感知损失与更难的负采样来增强模型,以更好地捕捉篇章连续性。与近期提出的将NSP与辅助主题分类结合的方法不同,我们的方法避免了任务特定的监督。我们在两个数据集上评估了我们的模型:CitiLink-Minutes(我们为其建立了首个分割基准)和WikiSection。在CitiLink-Minutes上,SegNSP实现了0.79的B-$F_1$分数,与人工标注的主题转换高度一致;在WikiSection上,其B-F$_1$分数达到0.65,比最强的可复现基线TopSeg高出0.17个绝对百分点。这些结果展示了竞争性强且稳健的性能,凸显了建模句间连续性对于提升分割质量和支持下游NLP应用的有效性。

0
下载
关闭预览

相关内容

领域特定文本分类中的预训练语言模型新进展:系统综述
专知会员服务
14+阅读 · 2025年10月24日
【ECCV2024】边缘感知Transformer的场景文本分割
专知会员服务
15+阅读 · 2024年7月25日
CVPR 2022 | 用于语义分割任务的跨图像关系型知识蒸馏
专知会员服务
23+阅读 · 2022年5月15日
临床自然语言处理中的嵌入综述,SECNLP: A survey of embeddings
NLP基础任务:文本分类近年发展汇总,68页超详细解析
专知会员服务
74+阅读 · 2019年10月19日
干货|当深度学习遇见自动文本摘要,seq2seq+attention
机器学习算法与Python学习
10+阅读 · 2018年5月28日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
NLP自然语言处理(二)——基础文本分析
乐享数据DataScientists
12+阅读 · 2017年2月7日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月14日
VIP会员
相关资讯
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员