面向多层级转录文本分割：基于LoRA微调的目录生成方法 (Towards Multi-Level Transcript Segmentation: LoRA Fine-Tuning for Table-of-Contents Generation) - 专知论文

会员服务 ·

0

分割 · 转录 · 多层级 · 主题分割 · LoRA ·

Towards Multi-Level Transcript Segmentation: LoRA Fine-Tuning for Table-of-Contents Generation

翻译：面向多层级转录文本分割：基于LoRA微调的目录生成方法

Steffen Freisinger,Philipp Seeberger,Thomas Ranzenberger,Tobias Bocklet,Korbinian Riedhammer

from arxiv, Published in Proceedings of Interspeech 2025. Please cite the proceedings version (DOI: 10.21437/Interspeech.2025-2792)

Segmenting speech transcripts into thematic sections benefits both downstream processing and users who depend on written text for accessibility. We introduce a novel approach to hierarchical topic segmentation in transcripts, generating multi-level tables of contents that capture both topic and subtopic boundaries. We compare zero-shot prompting and LoRA fine-tuning on large language models, while also exploring the integration of high-level speech pause features. Evaluations on English meeting recordings and multilingual lecture transcripts (Portuguese, German) show significant improvements over established topic segmentation baselines. Additionally, we adapt a common evaluation measure for multi-level segmentation, taking into account all hierarchical levels within one metric.

翻译：将语音转录文本按主题分割既有利于下游处理，也能提升依赖书面文本获取信息的可访问性用户体验。本文提出一种新颖的转录文本层级主题分割方法，通过生成多级目录同时捕获主题与子主题边界。我们比较了大型语言模型的零样本提示与LoRA微调策略，并探索了高层级语音停顿特征的融合机制。在英文会议录音及多语言讲座转录文本（葡萄牙语、德语）上的评估表明，该方法相较现有主题分割基线模型有显著提升。此外，我们针对多层级分割任务改进了一种通用评估指标，使其能通过单一度量综合考量所有层级结构。

0

相关内容

文本分类算法及其应用场景研究

文本分类算法及其应用场景研究

专知会员服务

19+阅读 · 2024年7月31日

基于深度学习的中文文本分类综述

基于深度学习的中文文本分类综述

专知会员服务

25+阅读 · 2024年5月9日

基于图卷积神经网络的文本分类方法研究综述

基于图卷积神经网络的文本分类方法研究综述

专知会员服务

40+阅读 · 2022年8月26日

【2022新书】文本生成的深度学习方法，201页pdf，Deep Learning Approaches to Text Production

【2022新书】文本生成的深度学习方法，201页pdf，Deep Learning Approaches to Text Production

专知会员服务

39+阅读 · 2022年5月28日

【CVPR 2022】基于Tracklet查询和建议的高效视频实例分割，Efficient Video Instance Segmentation via Tracklet Query and Proposal

【CVPR 2022】基于Tracklet查询和建议的高效视频实例分割，Efficient Video Instance Segmentation via Tracklet Query and Proposal

专知会员服务

16+阅读 · 2022年3月3日

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

专知会员服务

28+阅读 · 2022年3月3日

基于改进卷积神经网络的短文本分类模型

基于改进卷积神经网络的短文本分类模型

专知会员服务

26+阅读 · 2020年7月22日

【ACL2020-亚马逊】Transformers多分辨率和多模态语音识别，Multiresolution and Multimodal Speech Recognition with Transformers

【ACL2020-亚马逊】Transformers多分辨率和多模态语音识别，Multiresolution and Multimodal Speech Recognition with Transformers

专知会员服务

15+阅读 · 2020年5月5日

【Snapchat-谷歌-微软】最新《深度学习文本分类》2020综述论文大全，150+DL分类模型，42页pdf215篇参考文献

【Snapchat-谷歌-微软】最新《深度学习文本分类》2020综述论文大全，150+DL分类模型，42页pdf215篇参考文献

专知会员服务

84+阅读 · 2020年4月9日

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

专知会员服务

19+阅读 · 2020年2月26日

面试题：文本摘要中的NLP技术

面试题：文本摘要中的NLP技术

七月在线实验室

15+阅读 · 2019年5月13日

手把手 | 基于TextRank算法的文本摘要（附Python代码）

手把手 | 基于TextRank算法的文本摘要（附Python代码）

大数据文摘

11+阅读 · 2018年12月27日

【GitHub项目推荐】文本分类最好的几个深度学习方法 TensorFlow 实践

【GitHub项目推荐】文本分类最好的几个深度学习方法 TensorFlow 实践

专知

39+阅读 · 2018年11月27日

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

深度学习与NLP

25+阅读 · 2018年7月18日

深度学习文本分类方法综述（代码）

深度学习文本分类方法综述（代码）

中国人工智能学会

28+阅读 · 2018年6月16日

入门 | 一文了解什么是语义分割及常用的语义分割方法有哪些

入门 | 一文了解什么是语义分割及常用的语义分割方法有哪些

机器之心

10+阅读 · 2018年6月4日

专栏 | 如何做好文本关键词提取？从三种算法说起

专栏 | 如何做好文本关键词提取？从三种算法说起

机器之心

14+阅读 · 2018年3月4日

深度学习在文本分类中的应用

深度学习在文本分类中的应用

AI研习社

13+阅读 · 2018年1月7日

Tensorflow 文本分类-Python深度学习

Tensorflow 文本分类-Python深度学习

Python程序员

12+阅读 · 2017年11月22日

开源｜基于tensorflow使用CNN-RNN进行中文文本分类！

开源｜基于tensorflow使用CNN-RNN进行中文文本分类！

全球人工智能

11+阅读 · 2017年11月12日

基于多源语义表示学习的社交媒体文本属性情感分类研究

国家自然科学基金

4+阅读 · 2017年12月31日

图文混合跨媒体知识单元的模糊分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于聚合的社会化短文本信息处理与细粒度倾向性分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

基于部件结构的图像协同分割方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于形状信息和结果反馈的多图谱图像分割方法

国家自然科学基金

0+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

Optimizing Multi-Hop Document Retrieval Through Intermediate Representations

Arxiv

0+阅读 · 1月29日

GORAG: Graph-based Online Retrieval Augmented Generation for Dynamic Few-shot Social Media Text Classification

Arxiv

0+阅读 · 1月29日

Hierarchical Text Classification with LLM-Refined Taxonomies

Arxiv

0+阅读 · 1月26日

MV-SAM: Multi-view Promptable Segmentation using Pointmap Guidance

Arxiv

0+阅读 · 1月25日

Language-guided Medical Image Segmentation with Target-informed Multi-level Contrastive Alignments

Arxiv

0+阅读 · 1月22日

Codebook-Injected Dialogue Segmentation for Multi-Utterance Constructs Annotation: LLM-Assisted and Gold-Label-Free Evaluation

Arxiv

0+阅读 · 1月22日

Leveraging Lora Fine-Tuning and Knowledge Bases for Construction Identification

Arxiv

0+阅读 · 1月19日

Hearing More with Less: Multi-Modal Retrieval-and-Selection Augmented Conversational LLM-Based ASR

Arxiv

0+阅读 · 1月16日

How to Analyse Interviews: A Documentary Method of Interpretation

Arxiv

0+阅读 · 1月12日

MTSQL-R1: Towards Long-Horizon Multi-Turn Text-to-SQL via Agentic Training

Arxiv

0+阅读 · 2025年12月31日

VIP会员

文章信息

相关主题

相关VIP内容

文本分类算法及其应用场景研究

文本分类算法及其应用场景研究

专知会员服务

19+阅读 · 2024年7月31日

基于深度学习的中文文本分类综述

基于深度学习的中文文本分类综述

专知会员服务

25+阅读 · 2024年5月9日

基于图卷积神经网络的文本分类方法研究综述

基于图卷积神经网络的文本分类方法研究综述

专知会员服务

40+阅读 · 2022年8月26日

【2022新书】文本生成的深度学习方法，201页pdf，Deep Learning Approaches to Text Production

【2022新书】文本生成的深度学习方法，201页pdf，Deep Learning Approaches to Text Production

专知会员服务

39+阅读 · 2022年5月28日

【CVPR 2022】基于Tracklet查询和建议的高效视频实例分割，Efficient Video Instance Segmentation via Tracklet Query and Proposal

【CVPR 2022】基于Tracklet查询和建议的高效视频实例分割，Efficient Video Instance Segmentation via Tracklet Query and Proposal

专知会员服务

16+阅读 · 2022年3月3日

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

专知会员服务

28+阅读 · 2022年3月3日

基于改进卷积神经网络的短文本分类模型

基于改进卷积神经网络的短文本分类模型

专知会员服务

26+阅读 · 2020年7月22日

【ACL2020-亚马逊】Transformers多分辨率和多模态语音识别，Multiresolution and Multimodal Speech Recognition with Transformers

【ACL2020-亚马逊】Transformers多分辨率和多模态语音识别，Multiresolution and Multimodal Speech Recognition with Transformers

专知会员服务

15+阅读 · 2020年5月5日

【Snapchat-谷歌-微软】最新《深度学习文本分类》2020综述论文大全，150+DL分类模型，42页pdf215篇参考文献

【Snapchat-谷歌-微软】最新《深度学习文本分类》2020综述论文大全，150+DL分类模型，42页pdf215篇参考文献

专知会员服务

84+阅读 · 2020年4月9日

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

专知会员服务

19+阅读 · 2020年2月26日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人机与战争：被忽视的环境影响及无人机保护潜力》

俄罗斯规划未来无人机驱动军队

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

《人工智能、武器与影响力：前沿模型在模拟核危机中展现复杂推理》2026最新46页报告

相关资讯

面试题：文本摘要中的NLP技术

面试题：文本摘要中的NLP技术

七月在线实验室

15+阅读 · 2019年5月13日

手把手 | 基于TextRank算法的文本摘要（附Python代码）

手把手 | 基于TextRank算法的文本摘要（附Python代码）

大数据文摘

11+阅读 · 2018年12月27日

【GitHub项目推荐】文本分类最好的几个深度学习方法 TensorFlow 实践

【GitHub项目推荐】文本分类最好的几个深度学习方法 TensorFlow 实践

专知

39+阅读 · 2018年11月27日

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

深度学习与NLP

25+阅读 · 2018年7月18日

深度学习文本分类方法综述（代码）

深度学习文本分类方法综述（代码）

中国人工智能学会

28+阅读 · 2018年6月16日

入门 | 一文了解什么是语义分割及常用的语义分割方法有哪些

入门 | 一文了解什么是语义分割及常用的语义分割方法有哪些

机器之心

10+阅读 · 2018年6月4日

专栏 | 如何做好文本关键词提取？从三种算法说起

专栏 | 如何做好文本关键词提取？从三种算法说起

机器之心

14+阅读 · 2018年3月4日

深度学习在文本分类中的应用

深度学习在文本分类中的应用

AI研习社

13+阅读 · 2018年1月7日

Tensorflow 文本分类-Python深度学习

Tensorflow 文本分类-Python深度学习

Python程序员

12+阅读 · 2017年11月22日

开源｜基于tensorflow使用CNN-RNN进行中文文本分类！

开源｜基于tensorflow使用CNN-RNN进行中文文本分类！

全球人工智能

11+阅读 · 2017年11月12日

相关论文

Optimizing Multi-Hop Document Retrieval Through Intermediate Representations

Arxiv

0+阅读 · 1月29日

GORAG: Graph-based Online Retrieval Augmented Generation for Dynamic Few-shot Social Media Text Classification

Arxiv

0+阅读 · 1月29日

Hierarchical Text Classification with LLM-Refined Taxonomies

Arxiv

0+阅读 · 1月26日

MV-SAM: Multi-view Promptable Segmentation using Pointmap Guidance

Arxiv

0+阅读 · 1月25日

Language-guided Medical Image Segmentation with Target-informed Multi-level Contrastive Alignments

Arxiv

0+阅读 · 1月22日

Codebook-Injected Dialogue Segmentation for Multi-Utterance Constructs Annotation: LLM-Assisted and Gold-Label-Free Evaluation

Arxiv

0+阅读 · 1月22日

Leveraging Lora Fine-Tuning and Knowledge Bases for Construction Identification

Arxiv

0+阅读 · 1月19日

Hearing More with Less: Multi-Modal Retrieval-and-Selection Augmented Conversational LLM-Based ASR

Arxiv

0+阅读 · 1月16日

How to Analyse Interviews: A Documentary Method of Interpretation

Arxiv

0+阅读 · 1月12日

MTSQL-R1: Towards Long-Horizon Multi-Turn Text-to-SQL via Agentic Training

Arxiv

0+阅读 · 2025年12月31日

相关基金

基于多源语义表示学习的社交媒体文本属性情感分类研究

国家自然科学基金

4+阅读 · 2017年12月31日

图文混合跨媒体知识单元的模糊分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于聚合的社会化短文本信息处理与细粒度倾向性分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

基于部件结构的图像协同分割方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于形状信息和结果反馈的多图谱图像分割方法

国家自然科学基金

0+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员