Linear text segmentation is a long-standing problem in natural language processing (NLP), focused on dividing continuous text into coherent and semantically meaningful units. Despite its importance, the task remains challenging due to the complexity of defining topic boundaries, the variability in discourse structure, and the need to balance local coherence with global context. These difficulties hinder downstream applications such as summarization, information retrieval, and question answering. In this work, we introduce SegNSP, framing linear text segmentation as a next sentence prediction (NSP) task. Although NSP has largely been abandoned in modern pre-training, its explicit modeling of sentence-to-sentence continuity makes it a natural fit for detecting topic boundaries. We propose a label-agnostic NSP approach, which predicts whether the next sentence continues the current topic without requiring explicit topic labels, and enhance it with a segmentation-aware loss combined with harder negative sampling to better capture discourse continuity. Unlike recent proposals that leverage NSP alongside auxiliary topic classification, our approach avoids task-specific supervision. We evaluate our model against established baselines on two datasets, CitiLink-Minutes, for which we establish the first segmentation benchmark, and WikiSection. On CitiLink-Minutes, SegNSP achieves a B-$F_1$ of 0.79, closely aligning with human-annotated topic transitions, while on WikiSection it attains a B-F$_1$ of 0.65, outperforming the strongest reproducible baseline, TopSeg, by 0.17 absolute points. These results demonstrate competitive and robust performance, highlighting the effectiveness of modeling sentence-to-sentence continuity for improving segmentation quality and supporting downstream NLP applications.


翻译:线性文本分割是自然语言处理(NLP)中长期存在的问题,其重点在于将连续文本划分为连贯且具有语义意义的单元。尽管该任务至关重要,但由于定义主题边界的复杂性、篇章结构的多样性以及平衡局部连贯性与全局上下文的需求,它仍然具有挑战性。这些困难阻碍了下游应用的发展,如摘要生成、信息检索和问答系统。在本研究中,我们提出了SegNSP,将线性文本分割任务重新定义为下句预测任务。尽管NSP在现代预训练中已基本被弃用,但其对句间连续性的显式建模使其天然适用于检测主题边界。我们提出了一种标签无关的NSP方法,该方法预测下一句是否延续当前主题,而无需显式的主题标签,并通过结合分割感知损失与更难的负采样来增强模型,以更好地捕捉篇章连续性。与近期提出的将NSP与辅助主题分类结合的方法不同,我们的方法避免了任务特定的监督。我们在两个数据集上评估了我们的模型:CitiLink-Minutes(我们为其建立了首个分割基准)和WikiSection。在CitiLink-Minutes上,SegNSP实现了0.79的B-$F_1$分数,与人工标注的主题转换高度一致;在WikiSection上,其B-F$_1$分数达到0.65,比最强的可复现基线TopSeg高出0.17个绝对百分点。这些结果展示了竞争性强且稳健的性能,凸显了建模句间连续性对于提升分割质量和支持下游NLP应用的有效性。

0
下载
关闭预览

相关内容

【AAAI2024】LAMM: 多模态提示学习的标签对齐
专知会员服务
41+阅读 · 2023年12月14日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员