Environmental sound classification (ESC) has gained significant attention due to its diverse applications in smart city monitoring, fault detection, acoustic surveillance, and manufacturing quality control. To enhance CNN performance, feature stacking techniques have been explored to aggregate complementary acoustic descriptors into richer input representations. In this paper, we investigate CNN-based models employing various stacked feature combinations, including Log-Mel Spectrogram (LM), Spectral Contrast (SPC), Chroma (CH), Tonnetz (TZ), Mel-Frequency Cepstral Coefficients (MFCCs), and Gammatone Cepstral Coefficients (GTCC). Experiments are conducted on the widely used ESC-50 and UrbanSound8K datasets under different training regimes, including pretraining on ESC-50, fine-tuning on UrbanSound8K, and comparison with Audio Spectrogram Transformer (AST) models pretrained on large-scale corpora such as AudioSet. This experimental design enables an analysis of how feature-stacked CNNs compare with transformer-based models under varying levels of training data and pretraining diversity. The results indicate that feature-stacked CNNs offer a more computationally and data-efficient alternative when large-scale pretraining or extensive training data are unavailable, making them particularly well suited for resource-constrained and edge-level sound classification scenarios.


翻译:环境声音分类(ESC)因其在智慧城市监测、故障检测、声学监控和制造质量控制等领域的广泛应用而受到极大关注。为提升CNN性能,特征堆叠技术被用于将互补的声学描述子聚合为更丰富的输入表示。本文研究了采用多种堆叠特征组合的CNN模型,包括对数梅尔频谱(LM)、谱对比度(SPC)、色度特征(CH)、调性网格(TZ)、梅尔频率倒谱系数(MFCCs)和伽马通倒谱系数(GTCC)。实验在广泛使用的ESC-50和UrbanSound8K数据集上进行,采用不同训练策略,包括在ESC-50上的预训练、在UrbanSound8K上的微调,以及与基于大规模语料库(如AudioSet)预训练的音频频谱Transformer(AST)模型进行对比。该实验设计能够分析在不同训练数据规模和预训练多样性的条件下,基于特征堆叠的CNN与基于Transformer的模型之间的性能差异。结果表明,当大规模预训练或大量训练数据不可用时,特征堆叠CNN提供了计算和数据效率更高的替代方案,使其特别适用于资源受限和边缘端声音分类场景。

0
下载
关闭预览

相关内容

图像分类的深度卷积神经网络模型综述
专知会员服务
57+阅读 · 2021年10月29日
直白介绍卷积神经网络(CNN)
算法与数学之美
13+阅读 · 2019年1月23日
【干货】李沐等人:CNN图像分类Trick合集(附详细代码)
GAN生成式对抗网络
58+阅读 · 2018年12月11日
CNN与RNN中文文本分类-基于TensorFlow 实现
七月在线实验室
13+阅读 · 2018年10月30日
关于CNN图像分类的一份综合设计指南
云栖社区
11+阅读 · 2018年5月15日
从R-CNN到Mask R-CNN!
全球人工智能
17+阅读 · 2017年11月13日
开源|基于tensorflow使用CNN-RNN进行中文文本分类!
全球人工智能
11+阅读 · 2017年11月12日
CNN 模型压缩与加速算法综述
机器学习研究会
16+阅读 · 2017年8月25日
CNN、RNN在自动特征提取中的应用
乌镇智库
14+阅读 · 2017年8月4日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关VIP内容
相关资讯
直白介绍卷积神经网络(CNN)
算法与数学之美
13+阅读 · 2019年1月23日
【干货】李沐等人:CNN图像分类Trick合集(附详细代码)
GAN生成式对抗网络
58+阅读 · 2018年12月11日
CNN与RNN中文文本分类-基于TensorFlow 实现
七月在线实验室
13+阅读 · 2018年10月30日
关于CNN图像分类的一份综合设计指南
云栖社区
11+阅读 · 2018年5月15日
从R-CNN到Mask R-CNN!
全球人工智能
17+阅读 · 2017年11月13日
开源|基于tensorflow使用CNN-RNN进行中文文本分类!
全球人工智能
11+阅读 · 2017年11月12日
CNN 模型压缩与加速算法综述
机器学习研究会
16+阅读 · 2017年8月25日
CNN、RNN在自动特征提取中的应用
乌镇智库
14+阅读 · 2017年8月4日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员