Automatic speech transcripts are often delivered as unstructured word streams that impede readability and repurposing. We recast paragraph segmentation as the missing structuring step and fill three gaps at the intersection of speech processing and text segmentation. First, we establish TEDPara (human-annotated TED talks) and YTSegPara (YouTube videos with synthetic labels) as the first benchmarks for the paragraph segmentation task. The benchmarks focus on the underexplored speech domain, where paragraph segmentation has traditionally not been part of post-processing, while also contributing to the wider text segmentation field, which still lacks robust and naturalistic benchmarks. Second, we propose a constrained-decoding formulation that lets large language models insert paragraph breaks while preserving the original transcript, enabling faithful, sentence-aligned evaluation. Third, we show that a compact model (MiniSeg) attains state-of-the-art accuracy and, when extended hierarchically, jointly predicts chapters and paragraphs with minimal computational cost. Together, our resources and methods establish paragraph segmentation as a standardized, practical task in speech processing.


翻译:自动语音转录文本通常以无结构词流形式呈现,这阻碍了可读性与二次利用。我们将段落切分重新定义为缺失的结构化步骤,并在语音处理与文本切分的交叉领域填补了三项空白。首先,我们建立了TEDPara(人工标注的TED演讲)与YTSegPara(含合成标签的YouTube视频)作为段落切分任务的首批基准数据集。这些基准聚焦于尚未充分探索的语音领域——该领域的后处理流程传统上未包含段落切分,同时也为更广泛的文本切分领域作出贡献,该领域目前仍缺乏稳健且贴近现实的基准。其次,我们提出一种约束解码方案,使大语言模型能在保持原始转录文本完整性的同时插入段落分隔符,从而实现忠实于原文且句子对齐的评估。第三,我们证明紧凑模型(MiniSeg)能达到最先进的准确率,且通过层级扩展能以最小计算成本联合预测章节与段落。综合而言,我们的资源与方法将段落切分确立为语音处理中标准化、实用化的任务。

0
下载
关闭预览

相关内容

《语音大语言模型》最新进展综述
专知会员服务
57+阅读 · 2024年10月8日
【CVPR2022】语言作为查询的参考视频目标分割框架
专知会员服务
10+阅读 · 2022年4月27日
微软《神经语音合成》综述论文,63页pdf530篇文献
专知会员服务
30+阅读 · 2021年7月3日
用Attention玩转CV,一文总览自注意力语义分割进展
读扩散?写扩散?推拉架构一文搞定!
架构师之路
17+阅读 · 2019年2月1日
干货|复旦中文文本分类过程(文末附语料库)
全球人工智能
21+阅读 · 2018年4月19日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关VIP内容
《语音大语言模型》最新进展综述
专知会员服务
57+阅读 · 2024年10月8日
【CVPR2022】语言作为查询的参考视频目标分割框架
专知会员服务
10+阅读 · 2022年4月27日
微软《神经语音合成》综述论文,63页pdf530篇文献
专知会员服务
30+阅读 · 2021年7月3日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员