Segmenting speech transcripts into thematic sections benefits both downstream processing and users who depend on written text for accessibility. We introduce a novel approach to hierarchical topic segmentation in transcripts, generating multi-level tables of contents that capture both topic and subtopic boundaries. We compare zero-shot prompting and LoRA fine-tuning on large language models, while also exploring the integration of high-level speech pause features. Evaluations on English meeting recordings and multilingual lecture transcripts (Portuguese, German) show significant improvements over established topic segmentation baselines. Additionally, we adapt a common evaluation measure for multi-level segmentation, taking into account all hierarchical levels within one metric.


翻译:将语音转录文本按主题分割既有利于下游处理,也能提升依赖书面文本获取信息的可访问性用户体验。本文提出一种新颖的转录文本层级主题分割方法,通过生成多级目录同时捕获主题与子主题边界。我们比较了大型语言模型的零样本提示与LoRA微调策略,并探索了高层级语音停顿特征的融合机制。在英文会议录音及多语言讲座转录文本(葡萄牙语、德语)上的评估表明,该方法相较现有主题分割基线模型有显著提升。此外,我们针对多层级分割任务改进了一种通用评估指标,使其能通过单一度量综合考量所有层级结构。

0
下载
关闭预览

相关内容

文本分类算法及其应用场景研究
专知会员服务
19+阅读 · 2024年7月31日
基于深度学习的中文文本分类综述
专知会员服务
25+阅读 · 2024年5月9日
基于图卷积神经网络的文本分类方法研究综述
专知会员服务
40+阅读 · 2022年8月26日
基于改进卷积神经网络的短文本分类模型
专知会员服务
26+阅读 · 2020年7月22日
面试题:文本摘要中的NLP技术
七月在线实验室
15+阅读 · 2019年5月13日
手把手 | 基于TextRank算法的文本摘要(附Python代码)
大数据文摘
11+阅读 · 2018年12月27日
深度学习文本分类方法综述(代码)
中国人工智能学会
28+阅读 · 2018年6月16日
深度学习在文本分类中的应用
AI研习社
13+阅读 · 2018年1月7日
Tensorflow 文本分类-Python深度学习
Python程序员
12+阅读 · 2017年11月22日
开源|基于tensorflow使用CNN-RNN进行中文文本分类!
全球人工智能
11+阅读 · 2017年11月12日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关VIP内容
文本分类算法及其应用场景研究
专知会员服务
19+阅读 · 2024年7月31日
基于深度学习的中文文本分类综述
专知会员服务
25+阅读 · 2024年5月9日
基于图卷积神经网络的文本分类方法研究综述
专知会员服务
40+阅读 · 2022年8月26日
基于改进卷积神经网络的短文本分类模型
专知会员服务
26+阅读 · 2020年7月22日
相关资讯
面试题:文本摘要中的NLP技术
七月在线实验室
15+阅读 · 2019年5月13日
手把手 | 基于TextRank算法的文本摘要(附Python代码)
大数据文摘
11+阅读 · 2018年12月27日
深度学习文本分类方法综述(代码)
中国人工智能学会
28+阅读 · 2018年6月16日
深度学习在文本分类中的应用
AI研习社
13+阅读 · 2018年1月7日
Tensorflow 文本分类-Python深度学习
Python程序员
12+阅读 · 2017年11月22日
开源|基于tensorflow使用CNN-RNN进行中文文本分类!
全球人工智能
11+阅读 · 2017年11月12日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员