This paper deals with Audio-Visual Speech Recognition (AVSR) under multimodal input corruption situations where audio inputs and visual inputs are both corrupted, which is not well addressed in previous research directions. Previous studies have focused on how to complement the corrupted audio inputs with the clean visual inputs with the assumption of the availability of clean visual inputs. However, in real life, clean visual inputs are not always accessible and can even be corrupted by occluded lip regions or noises. Thus, we firstly analyze that the previous AVSR models are not indeed robust to the corruption of multimodal input streams, the audio and the visual inputs, compared to uni-modal models. Then, we design multimodal input corruption modeling to develop robust AVSR models. Lastly, we propose a novel AVSR framework, namely Audio-Visual Reliability Scoring module (AV-RelScore), that is robust to the corrupted multimodal inputs. The AV-RelScore can determine which input modal stream is reliable or not for the prediction and also can exploit the more reliable streams in prediction. The effectiveness of the proposed method is evaluated with comprehensive experiments on popular benchmark databases, LRS2 and LRS3. We also show that the reliability scores obtained by AV-RelScore well reflect the degree of corruption and make the proposed model focus on the reliable multimodal representations.


翻译:本文针对音频与视觉输入同时受损的多模态输入损坏场景下的音视频语音识别(AVSR)问题展开研究,该问题在先前研究方向中未得到充分探讨。已有研究聚焦于利用清晰视觉输入补充受损音频输入,且假设能够获取清晰的视觉输入。然而在现实场景中,清晰视觉输入并非随时可得,甚至可能因嘴唇区域遮挡或噪声干扰而受损。为此,我们首先分析发现,相较于单模态模型,现有AVSR模型对多模态输入流(音频与视觉输入)的损坏确实缺乏鲁棒性。进而我们设计多模态输入损坏建模方法以开发鲁棒AVSR模型。最后提出新型AVSR框架——音视频可靠性评分模块(AV-RelScore),该框架对受损多模态输入具有鲁棒性。AV-RelScore能判断各输入模态流对预测的可靠性,并可在预测中利用更可靠的模态流。通过在主流基准数据集LRS2和LRS3上的综合实验验证了所提方法的有效性。研究还表明,AV-RelScore获得的可靠性评分能有效反映损坏程度,并使模型聚焦于可靠的多模态表征。

0
下载
关闭预览

相关内容

【CVPR2023】GeoLayoutLM:视觉信息提取的几何预训练
专知会员服务
32+阅读 · 2023年4月25日
近期必读的七篇NeurIPS 2020【对比学习】相关论文和代码
专知会员服务
66+阅读 · 2020年10月20日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
最新10篇对比学习推荐前沿工作
机器学习与推荐算法
2+阅读 · 2022年9月14日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
【泡泡汇总】最强 SLAM Datasets 合辑
泡泡机器人SLAM
17+阅读 · 2019年5月27日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
20+阅读 · 2020年6月8日
Arxiv
21+阅读 · 2019年8月21日
Exploring Visual Relationship for Image Captioning
Arxiv
15+阅读 · 2018年9月19日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
【CVPR2023】GeoLayoutLM:视觉信息提取的几何预训练
专知会员服务
32+阅读 · 2023年4月25日
近期必读的七篇NeurIPS 2020【对比学习】相关论文和代码
专知会员服务
66+阅读 · 2020年10月20日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员