Environmental sound classification (ESC) has gained significant attention due to its diverse applications in smart city monitoring, fault detection, acoustic surveillance, and manufacturing quality control. To enhance CNN performance, feature stacking techniques have been explored to aggregate complementary acoustic descriptors into richer input representations. In this paper, we investigate CNN-based models employing various stacked feature combinations, including Log-Mel Spectrogram (LM), Spectral Contrast (SPC), Chroma (CH), Tonnetz (TZ), Mel-Frequency Cepstral Coefficients (MFCCs), and Gammatone Cepstral Coefficients (GTCC). Experiments are conducted on the widely used ESC-50 and UrbanSound8K datasets under different training regimes, including pretraining on ESC-50, fine-tuning on UrbanSound8K, and comparison with Audio Spectrogram Transformer (AST) models pretrained on large-scale corpora such as AudioSet. This experimental design enables an analysis of how feature-stacked CNNs compare with transformer-based models under varying levels of training data and pretraining diversity. The results indicate that feature-stacked CNNs offer a more computationally and data-efficient alternative when large-scale pretraining or extensive training data are unavailable, making them particularly well suited for resource-constrained and edge-level sound classification scenarios.


翻译:环境声音分类(ESC)因其在智慧城市监控、故障检测、声学监测及制造质量控制等领域的广泛应用而受到极大关注。为提升CNN性能,特征堆叠技术被用于将互补的声学描述子聚合为更丰富的输入表示。本文研究了采用多种堆叠特征组合的CNN模型,包括对数梅尔谱图(LM)、谱对比度(SPC)、色度特征(CH)、调性网格(TZ)、梅尔频率倒谱系数(MFCCs)及伽马通倒谱系数(GTCC)。实验在广泛使用的ESC-50和UrbanSound8K数据集上进行,采用不同训练策略,包括在ESC-50上的预训练、在UrbanSound8K上的微调,以及与基于大规模语料库(如AudioSet)预训练的音频谱图Transformer(AST)模型的对比。该实验设计能够分析在不同训练数据规模和预训练多样性的条件下,特征堆叠CNN与基于Transformer模型的性能差异。结果表明,当大规模预训练或海量训练数据不可获取时,特征堆叠CNN提供了计算效率更高且数据需求更低的替代方案,使其特别适用于资源受限和边缘端声音分类场景。

0
下载
关闭预览

相关内容

图像分类的深度卷积神经网络模型综述
专知会员服务
57+阅读 · 2021年10月29日
直白介绍卷积神经网络(CNN)
算法与数学之美
13+阅读 · 2019年1月23日
【干货】李沐等人:CNN图像分类Trick合集(附详细代码)
GAN生成式对抗网络
58+阅读 · 2018年12月11日
CNN与RNN中文文本分类-基于TensorFlow 实现
七月在线实验室
13+阅读 · 2018年10月30日
关于CNN图像分类的一份综合设计指南
云栖社区
11+阅读 · 2018年5月15日
从R-CNN到Mask R-CNN!
全球人工智能
17+阅读 · 2017年11月13日
开源|基于tensorflow使用CNN-RNN进行中文文本分类!
全球人工智能
11+阅读 · 2017年11月12日
CNN 模型压缩与加速算法综述
机器学习研究会
16+阅读 · 2017年8月25日
CNN、RNN在自动特征提取中的应用
乌镇智库
14+阅读 · 2017年8月4日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Interpretable CNNs for Object Classification
Arxiv
20+阅读 · 2020年3月12日
VIP会员
最新内容
美军MAVEN项目全面解析:算法战架构
专知会员服务
8+阅读 · 今天8:36
从俄乌战场看“马赛克战”(万字长文)
专知会员服务
6+阅读 · 今天8:19
最新“指挥控制”领域出版物合集(16份)
专知会员服务
13+阅读 · 4月12日
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
19+阅读 · 4月12日
远程空中优势:新一代超视距导弹的兴起
专知会员服务
4+阅读 · 4月12日
大语言模型溯因推理的统一分类学与综述
专知会员服务
5+阅读 · 4月12日
相关VIP内容
图像分类的深度卷积神经网络模型综述
专知会员服务
57+阅读 · 2021年10月29日
相关资讯
直白介绍卷积神经网络(CNN)
算法与数学之美
13+阅读 · 2019年1月23日
【干货】李沐等人:CNN图像分类Trick合集(附详细代码)
GAN生成式对抗网络
58+阅读 · 2018年12月11日
CNN与RNN中文文本分类-基于TensorFlow 实现
七月在线实验室
13+阅读 · 2018年10月30日
关于CNN图像分类的一份综合设计指南
云栖社区
11+阅读 · 2018年5月15日
从R-CNN到Mask R-CNN!
全球人工智能
17+阅读 · 2017年11月13日
开源|基于tensorflow使用CNN-RNN进行中文文本分类!
全球人工智能
11+阅读 · 2017年11月12日
CNN 模型压缩与加速算法综述
机器学习研究会
16+阅读 · 2017年8月25日
CNN、RNN在自动特征提取中的应用
乌镇智库
14+阅读 · 2017年8月4日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员