We present an iVector based Acoustic Scene Classification (ASC) system suited for real life settings where active foreground speech can be present. In the proposed system, each recording is represented by a fixed-length iVector that models the recording's important properties. A regularized Gaussian backend classifier with class-specific covariance models is used to extract the relevant acoustic scene information from these iVectors. To alleviate the large performance degradation when a foreground speaker dominates the captured signal, we investigate the use of the iVector framework on Mel-Frequency Cepstral Coefficients (MFCCs) that are derived from an estimate of the noise power spectral density. This noise-floor can be extracted in a statistical manner for single channel recordings. We show that the use of noise-floor features is complementary to multi-condition training in which foreground speech is added to training signal to reduce the mismatch between training and testing conditions. Experimental results on the DCASE 2016 Task 1 dataset show that the noise-floor based features and multi-condition training realize significant classification accuracy gains of up to more than 25 percentage points (absolute) in the most adverse conditions. These promising results can further facilitate the integration of ASC in resource-constrained devices such as hearables.


翻译:我们提出了一个基于 iVictor 的基于声频场景分类( ASC) 系统, 这个系统适合真实生活环境, 可以显示活跃的表面言语。 在提议的系统中, 每一个记录都由固定长度的iVector 代表, 以该记录的重要属性为模型。 一个常规化的高斯后端分类器, 使用特定等级的共变式模型从这些iVectors中提取相关的声频场信息。 当一个前台演讲者控制着所捕捉的信号时, 为了缓解大规模性能退化, 我们调查了使用基于Mel- Frecity Cepstrateal Covalies(MFCCs)的iVictor框架的情况。 在对噪音光谱密度的估计中, 每种记录都代表了固定长度的iVictor 。 这个噪音底可以以统计方式提取单一频道的录音。 我们显示, 使用噪声底功能是辅助多种条件的培训, 将地面言词添加到培训信号以减少培训和测试条件之间的不匹配。 DCS 2016 任务 1 数据集的实验结果显示, 基于噪音底地段的特征和多质培训可以进一步实现最差分级化结果, 。

0
下载
关闭预览

相关内容

最新《自监督表示学习》报告,70页ppt
专知会员服务
86+阅读 · 2020年12月22日
专知会员服务
45+阅读 · 2020年12月18日
专知会员服务
44+阅读 · 2020年9月25日
专知会员服务
61+阅读 · 2020年3月19日
已删除
将门创投
3+阅读 · 2019年1月8日
Arxiv
14+阅读 · 2021年6月30日
Teacher-Student Training for Robust Tacotron-based TTS
VIP会员
最新内容
人工智能赋能无人机:俄乌战争(万字长文)
专知会员服务
4+阅读 · 今天6:56
国外海军作战管理系统与作战训练系统
专知会员服务
2+阅读 · 今天4:16
美军条令《海军陆战队规划流程(2026版)》
专知会员服务
9+阅读 · 今天3:36
《压缩式分布式交互仿真标准》120页
专知会员服务
4+阅读 · 今天3:21
《电子战数据交换模型研究报告》
专知会员服务
6+阅读 · 今天3:13
《基于Transformer的异常舰船导航识别与跟踪》80页
《低数据领域军事目标检测模型研究》
专知会员服务
6+阅读 · 今天2:37
【CMU博士论文】物理世界的视觉感知与深度理解
专知会员服务
10+阅读 · 4月22日
伊朗战争停火期间美军关键弹药状况分析
专知会员服务
8+阅读 · 4月22日
电子战革命:塑造战场的十年突破(2015–2025)
相关资讯
已删除
将门创投
3+阅读 · 2019年1月8日
Top
微信扫码咨询专知VIP会员