Aiming to improve the Automatic Speech Recognition (ASR) outputs with a post-processing step, ASR error correction (EC) techniques have been widely developed due to their efficiency in using parallel text data. Previous works mainly focus on using text or/ and speech data, which hinders the performance gain when not only text and speech information, but other modalities, such as visual information are critical for EC. The challenges are mainly two folds: one is that previous work fails to emphasize visual information, thus rare exploration has been studied. The other is that the community lacks a high-quality benchmark where visual information matters for the EC models. Therefore, this paper provides 1) simple yet effective methods, namely gated fusion and image captions as prompts to incorporate visual information to help EC; 2) large-scale benchmark datasets, namely Visual-ASR-EC, where each item in the training data consists of visual, speech, and text information, and the test data are carefully selected by human annotators to ensure that even humans could make mistakes when visual information is missing. Experimental results show that using captions as prompts could effectively use the visual information and surpass state-of-the-art methods by upto 1.2% in Word Error Rate(WER), which also indicates that visual information is critical in our proposed Visual-ASR-EC dataset


翻译:旨在通过后处理步骤改进自动语音识别(ASR)输出,ASR错误纠正(EC)技术因其在利用并行文本数据方面的高效性而得到广泛应用。以往研究主要集中于使用文本和/或语音数据,这导致当不仅文本和语音信息,而且其他模态(如视觉信息)对EC至关重要时,性能提升受到阻碍。挑战主要来自两方面:一是以往工作未能强调视觉信息,因此相关探索较为稀少;二是学术界缺乏一个高质量基准,在该基准中视觉信息对EC模型具有重要作用。因此,本文提供:1)简单有效的方法,即门控融合和图像描述作为提示,以整合视觉信息辅助EC;2)大规模基准数据集Visual-ASR-EC,其中训练数据的每个条目包含视觉、语音和文本信息,测试数据则由人工标注员精心挑选,以确保即使人类在缺乏视觉信息时也可能犯错。实验结果表明,将图像描述作为提示能够有效利用视觉信息,并在词错误率(WER)上超过最先进方法高达1.2%,这也表明视觉信息在我们提出的Visual-ASR-EC数据集中至关重要。

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
专知会员服务
16+阅读 · 2021年5月21日
【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL
专知会员服务
26+阅读 · 2021年1月29日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
计算机 | EMNLP 2019等国际会议信息6条
Call4Papers
18+阅读 · 2019年4月26日
【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集
泡泡机器人SLAM
11+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
Arxiv
29+阅读 · 2022年3月28日
VIP会员
最新内容
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
0+阅读 · 21分钟前
在人工智能加速决策环境中拓展OODA循环
专知会员服务
0+阅读 · 31分钟前
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
0+阅读 · 46分钟前
综述 | 世界动作模型:少做梦,多行动
专知会员服务
4+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
7+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
相关VIP内容
专知会员服务
16+阅读 · 2021年5月21日
【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL
专知会员服务
26+阅读 · 2021年1月29日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
Top
微信扫码咨询专知VIP会员