Tight Boundary Prediction in Speaker Diarization Using Causal-Anticausal Consistency

Multi-talker conversational automatic speech recognition data are often used to train speaker diarization models. Because such data prioritize semantic continuity, pauses and boundary margins are included within speech segments, resulting in loose annotations. Models trained on such data tend to internalize mechanisms that reproduce this looseness, although tight speech intervals are sometimes preferable for downstream applications. In this paper, we address the novel task of enabling models to produce tight predictions using loose labels. Our method generates tighter pseudo labels using causal and anticausal models, which are inherently incapable of learning loosening behavior. We further propose a co-training scheme that iteratively tightens labels and updates both models for more progressive refinement. Experimental results show that the proposed method recovers about 70 % of the tightening effect achieved by ideal tight-label training and improves downstream performance.

翻译：多说话人对话场景下的自动语音识别数据常被用于训练说话人日志化模型。因这类数据优先考虑语义连续性，语音片段中会包含停顿和边界余量，导致标注较为松散。尽管下游应用有时更偏好紧致语音区间，但基于此类数据训练的模型往往内化机制以复现这种松散性。本文针对一个新颖任务——在仅使用松散标签的情况下使模型生成紧致预测——展开研究。我们通过因果模型与反因果模型生成更紧致的伪标签，这两类模型本质上无法学习到散漫行为。我们进一步提出协同训练方案，迭代式收紧标签并同时更新两类模型以实现渐进式优化。实验表明，该方法可恢复理想紧致标签训练所实现收紧效果的约70%，并提升下游任务性能。

相关内容

MoDELS

关注 45

ACM/IEEE第23届模型驱动工程语言和系统国际会议，是模型驱动软件和系统工程的首要会议系列，由ACM-SIGSOFT和IEEE-TCSE支持组织。自1998年以来，模型涵盖了建模的各个方面，从语言和方法到工具和应用程序。模特的参加者来自不同的背景，包括研究人员、学者、工程师和工业专业人士。MODELS 2019是一个论坛，参与者可以围绕建模和模型驱动的软件和系统交流前沿研究成果和创新实践经验。今年的版本将为建模社区提供进一步推进建模基础的机会，并在网络物理系统、嵌入式系统、社会技术系统、云计算、大数据、机器学习、安全、开源等新兴领域提出建模的创新应用以及可持续性。官网链接：http://www.modelsconference.org/

【ICML2025】用于提升生成式口语语言模型自然度的变分框架

专知会员服务

7+阅读 · 2025年6月18日

大语言模型的因果性

专知会员服务

40+阅读 · 2024年10月22日

【博士论文】语言模型与人类偏好对齐，148页pdf

专知会员服务

32+阅读 · 2024年4月21日

情报分析《微调多语言模型以剪切自动事件数据》2023最新73页论文

专知会员服务

47+阅读 · 2023年8月27日