Silent speech interfaces (SSI) aim to reconstruct the speech signal from a recording of the articulatory movement, such as an ultrasound video of the tongue. Currently, deep neural networks are the most successful technology for this task. The efficient solution requires methods that do not simply process single images, but are able to extract the tongue movement information from a sequence of video frames. One option for this is to apply recurrent neural structures such as the long short-term memory network (LSTM) in combination with 2D convolutional neural networks (CNNs). Here, we experiment with another approach that extends the CNN to perform 3D convolution, where the extra dimension corresponds to time. In particular, we apply the spatial and temporal convolutions in a decomposed form, which proved very successful recently in video action recognition. We find experimentally that our 3D network outperforms the CNN+LSTM model, indicating that 3D CNNs may be a feasible alternative to CNN+LSTM networks in SSI systems.


翻译:静音界面(SSI)旨在从脉动记录中重建语音信号,例如舌头超声波视频。 目前,深神经网络是最成功的技术。 高效的解决方案需要的方法不仅仅是处理单个图像,而是能够从视频框序列中提取舌头移动信息。 其中一个选项是应用诸如长期短期内存网络(LSTM)等经常性神经结构,与2D脉动神经网络(CNNs)相结合。 在这里,我们尝试另一种方法,将CNN扩展至3D演动,其额外维度与时间相对应。 特别是,我们以分解的形式应用空间和时间演动,最近在视频动作识别中证明非常成功。 我们通过实验发现,我们的3D网络超越CNN+LSTM模型,表明3DCNN可能是S系统CNN+LSTM网络的一个可行的替代方案。

0
下载
关闭预览

相关内容

Networking:IFIP International Conferences on Networking。 Explanation:国际网络会议。 Publisher:IFIP。 SIT: http://dblp.uni-trier.de/db/conf/networking/index.html
【ECCV2020-Oral-谷歌】对抗生成语法的人体活动预测
专知会员服务
5+阅读 · 2020年8月12日
已删除
inpluslab
8+阅读 · 2019年10月29日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
可解释的CNN
CreateAMind
18+阅读 · 2017年10月5日
Arxiv
6+阅读 · 2019年4月8日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
7+阅读 · 2018年1月10日
Arxiv
4+阅读 · 2017年11月13日
VIP会员
最新内容
人工智能赋能无人机:俄乌战争(万字长文)
专知会员服务
4+阅读 · 今天6:56
国外海军作战管理系统与作战训练系统
专知会员服务
2+阅读 · 今天4:16
美军条令《海军陆战队规划流程(2026版)》
专知会员服务
9+阅读 · 今天3:36
《压缩式分布式交互仿真标准》120页
专知会员服务
4+阅读 · 今天3:21
《电子战数据交换模型研究报告》
专知会员服务
6+阅读 · 今天3:13
《基于Transformer的异常舰船导航识别与跟踪》80页
《低数据领域军事目标检测模型研究》
专知会员服务
6+阅读 · 今天2:37
【CMU博士论文】物理世界的视觉感知与深度理解
专知会员服务
10+阅读 · 4月22日
伊朗战争停火期间美军关键弹药状况分析
专知会员服务
8+阅读 · 4月22日
电子战革命:塑造战场的十年突破(2015–2025)
相关VIP内容
【ECCV2020-Oral-谷歌】对抗生成语法的人体活动预测
专知会员服务
5+阅读 · 2020年8月12日
相关资讯
已删除
inpluslab
8+阅读 · 2019年10月29日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
可解释的CNN
CreateAMind
18+阅读 · 2017年10月5日
Top
微信扫码咨询专知VIP会员