Speaker attribution from speech transcripts is the task of identifying a speaker from the transcript of their speech based on patterns in their language use. This task is especially useful when the audio is unavailable (e.g. deleted) or unreliable (e.g. anonymized speech). Prior work in this area has primarily focused on the feasibility of attributing speakers using transcripts produced by human annotators. However, in real-world settings, one often only has more errorful transcripts produced by automatic speech recognition (ASR) systems. In this paper, we conduct what is, to our knowledge, the first comprehensive study of the impact of automatic transcription on speaker attribution performance. In particular, we study the extent to which speaker attribution performance degrades in the face of transcription errors, as well as how properties of the ASR system impact attribution. We find that attribution is surprisingly resilient to word-level transcription errors and that the objective of recovering the true transcript is minimally correlated with attribution performance. Overall, our findings suggest that speaker attribution on more errorful transcripts produced by ASR is as good, if not better, than attribution based on human-transcribed data, possibly because ASR transcription errors can capture speaker-specific features revealing of speaker identity.


翻译:说话人归因(基于语音转录文本)是指通过分析个体语言使用模式,从其语音转录文本中识别说话者的任务。该任务在音频不可用(如已删除)或不可靠(如匿名化语音)时尤为有用。该领域的先前研究主要集中于利用人工标注者生成的转录文本进行说话人归因的可行性。然而,在实际应用场景中,研究者通常只能获得由自动语音识别系统生成的、错误率更高的转录文本。本文开展了据我们所知首个关于自动转录对说话人归因性能影响的全面研究。具体而言,我们探究了转录错误导致说话人归因性能下降的程度,以及ASR系统特性如何影响归因效果。研究发现,归因任务对词汇级转录错误表现出惊人的鲁棒性,且恢复真实转录文本的目标与归因性能之间的相关性极低。总体而言,我们的研究结果表明:基于ASR生成的高错误率转录文本进行说话人归因的效果,即使不优于基于人工转录数据的归因,至少也与之相当。这可能是因为ASR转录错误能够捕获揭示说话人身份的特异性特征。

0
下载
关闭预览

相关内容

音退化问题:基于输入操控的鲁棒语音转换综述
专知会员服务
7+阅读 · 2025年12月20日
端到端语音到语音翻译的优化方法综述
专知会员服务
7+阅读 · 2025年6月10日
【博士论文】《自然语言处理中的因果推理》
专知会员服务
22+阅读 · 2025年4月25日
《大型语言模型归因》综述
专知会员服务
75+阅读 · 2023年11月8日
机器音译研究综述
专知会员服务
17+阅读 · 2022年10月16日
语音情绪识别|声源增强|基频可视化
深度学习每日摘要
15+阅读 · 2019年5月5日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
语音识别之--韩语语音识别
微信AI
16+阅读 · 2017年8月2日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关VIP内容
相关资讯
语音情绪识别|声源增强|基频可视化
深度学习每日摘要
15+阅读 · 2019年5月5日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
语音识别之--韩语语音识别
微信AI
16+阅读 · 2017年8月2日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员