Recently reported state-of-the-art results in visual speech recognition (VSR) often rely on increasingly large amounts of video data, while the publicly available transcribed video datasets are limited in size. In this paper, for the first time, we study the potential of leveraging synthetic visual data for VSR. Our method, termed SynthVSR, substantially improves the performance of VSR systems with synthetic lip movements. The key idea behind SynthVSR is to leverage a speech-driven lip animation model that generates lip movements conditioned on the input speech. The speech-driven lip animation model is trained on an unlabeled audio-visual dataset and could be further optimized towards a pre-trained VSR model when labeled videos are available. As plenty of transcribed acoustic data and face images are available, we are able to generate large-scale synthetic data using the proposed lip animation model for semi-supervised VSR training. We evaluate the performance of our approach on the largest public VSR benchmark - Lip Reading Sentences 3 (LRS3). SynthVSR achieves a WER of 43.3% with only 30 hours of real labeled data, outperforming off-the-shelf approaches using thousands of hours of video. The WER is further reduced to 27.9% when using all 438 hours of labeled data from LRS3, which is on par with the state-of-the-art self-supervised AV-HuBERT method. Furthermore, when combined with large-scale pseudo-labeled audio-visual data SynthVSR yields a new state-of-the-art VSR WER of 16.9% using publicly available data only, surpassing the recent state-of-the-art approaches trained with 29 times more non-public machine-transcribed video data (90,000 hours). Finally, we perform extensive ablation studies to understand the effect of each component in our proposed method.


翻译:最近报道的视觉语音识别(VSR)前沿成果往往依赖于日益庞大的视频数据量,而公开的转录视频数据集规模有限。本文首次探索了利用合成视觉数据提升VSR性能的潜力。我们提出的方法SynthVSR通过合成唇部运动显著提升了VSR系统的表现。其核心思想是采用语音驱动的唇部动画模型,该模型可根据输入语音生成对应的唇部运动。该模型在未标注的视听数据集上训练,并可在有标注视频时针对预训练的VSR模型进一步优化。由于大量带转录的语音数据和面部图像已经存在,我们能够利用所提出的唇部动画模型生成大规模合成数据,用于半监督VSR训练。我们在最大规模的公开VSR基准——唇读语句3(LRS3)上评估了该方法。SynthVSR仅使用30小时真实标注数据即可达到43.3%的词错误率(WER),优于需要数千小时视频的传统方法。当使用LRS3全部438小时标注数据时,WER进一步降至27.9%,与前沿的自监督AV-HuBERT方法持平。此外,结合大规模伪标注视听数据后,SynthVSR仅利用公开数据便取得了16.9%的WER新纪录,超越了近期需要29倍非公开机器转录视频数据(90,000小时)训练的前沿方法。最后,我们进行了广泛的消融研究以理解各组成部分的效果。

0
下载
关闭预览

相关内容

【AAAI2023】SEPT:迈向可扩展和高效的视觉预训练
专知会员服务
12+阅读 · 2022年12月14日
【CVPR2022】端到端实时矢量边缘提取(E2EC)
专知会员服务
16+阅读 · 2022年4月14日
专知会员服务
36+阅读 · 2021年7月7日
【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练
专知会员服务
15+阅读 · 2020年10月27日
论文浅尝 | 弱监督下极简的视觉语言预训练模型
开放知识图谱
1+阅读 · 2022年9月26日
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
22+阅读 · 2019年8月30日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月23日
Arxiv
0+阅读 · 2023年5月19日
Arxiv
29+阅读 · 2022年3月28日
SlowFast Networks for Video Recognition
Arxiv
19+阅读 · 2018年12月10日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
2+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
4+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
3+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员