题目: Self-supervised learning for audio-visual speaker diarization

摘要:

主讲人二值化是一种寻找特定主讲人语音片段的技术,在视频会议、人机交互系统等以人为中心的应用中得到了广泛的应用。在这篇论文中,我们提出一种自监督的音视频同步学习方法来解决说话人的二值化问题,而不需要大量的标注工作。我们通过引入两个新的损失函数:动态三重损失和多项式损失来改进前面的方法。我们在一个真实的人机交互系统上进行了测试,结果表明我们的最佳模型获得了显著的+8%的f1分数,并降低了二值化的错误率。最后,我们介绍了一种新的大规模的音视频语料库,以填补汉语音视频数据集的空白。

成为VIP会员查看完整内容
26

相关内容

主要依靠内在的驱动力来学习,就是自主学习
近期声学领域前沿论文(No. 3)
深度学习每日摘要
24+阅读 · 2019年3月31日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
笔记 | Deep active learning for named entity recognition
黑龙江大学自然语言处理实验室
24+阅读 · 2018年5月27日
微软发布Visual Studio Tools for AI
AI前线
4+阅读 · 2017年11月20日
Arxiv
6+阅读 · 2019年7月29日
VIP会员
最新内容
美军MAVEN项目全面解析:算法战架构
专知会员服务
14+阅读 · 今天8:36
从俄乌战场看“马赛克战”(万字长文)
专知会员服务
8+阅读 · 今天8:19
最新“指挥控制”领域出版物合集(16份)
专知会员服务
15+阅读 · 4月12日
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
20+阅读 · 4月12日
远程空中优势:新一代超视距导弹的兴起
专知会员服务
4+阅读 · 4月12日
大语言模型溯因推理的统一分类学与综述
专知会员服务
6+阅读 · 4月12日
相关VIP内容
相关资讯
微信扫码咨询专知VIP会员