我们的目标是利用自监督学习将视频转换成一组离散的视听对象。为此,我们介绍了一个模型,它使用注意力来定位和分组声源,以及光流来随时间聚合信息。我们通过使用我们的模型学习的视听对象嵌入四个下游的面向语音的任务(a)多说话人的声源分离,(b)定位和跟踪说话人,(c)纠正不正确的视听数据,和(d)主动说话人检测的有效性。利用我们的表示法,这些任务完全可以通过训练未标记的视频来解决,而不需要物体检测器的帮助。我们还通过将我们的方法应用于非人类演讲者,包括卡通和木偶,来展示我们方法的普遍性。我们的模型显著优于其他自监督方法,并获得与使用监督人脸检测方法竞争的性能。

Self-Supervised Learning of Audio-Visual Objects from Video

https://arxiv.org/abs/2008.04237

成为VIP会员查看完整内容
20

相关内容

自监督学习(self-supervised learning)可以被看作是机器学习的一种“理想状态”,模型直接从无标签数据中自行学习,无需标注数据。
【视频】几何数据嵌入表示学习,74页ppt
专知会员服务
35+阅读 · 2020年7月24日
【牛津大学&DeepMind】自监督学习教程,141页ppt
专知会员服务
182+阅读 · 2020年5月29日
少标签数据学习,54页ppt
专知会员服务
205+阅读 · 2020年5月22日
【CVPR2020-Facebook AI】前置不变表示的自监督学习
专知会员服务
47+阅读 · 2020年4月19日
AAAI 2020 | 北大:图卷积中的多阶段自监督学习算法
AI科技评论
8+阅读 · 2020年1月12日
【泡泡点云时空】基于分割方法的物体六维姿态估计
泡泡机器人SLAM
18+阅读 · 2019年9月15日
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
22+阅读 · 2019年8月30日
通过视频着色进行自监督跟踪
谷歌开发者
3+阅读 · 2018年7月11日
Arxiv
21+阅读 · 2019年3月25日
Arxiv
5+阅读 · 2018年4月30日
Arxiv
7+阅读 · 2018年3月19日
VIP会员
最新内容
美军MAVEN项目全面解析:算法战架构
专知会员服务
8+阅读 · 今天8:36
从俄乌战场看“马赛克战”(万字长文)
专知会员服务
6+阅读 · 今天8:19
最新“指挥控制”领域出版物合集(16份)
专知会员服务
13+阅读 · 4月12日
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
19+阅读 · 4月12日
远程空中优势:新一代超视距导弹的兴起
专知会员服务
4+阅读 · 4月12日
大语言模型溯因推理的统一分类学与综述
专知会员服务
5+阅读 · 4月12日
微信扫码咨询专知VIP会员