Transformers have revolutionized the world of deep learning, specially in the field of natural language processing. Recently, the Audio Spectrogram Transformer (AST) was proposed for audio classification, leading to state of the art results in several datasets. However, in order for ASTs to outperform CNNs, pretraining with ImageNet is needed. In this paper, we study one component of the AST, the positional encoding, and propose several variants to improve the performance of ASTs trained from scratch, without ImageNet pretraining. Our best model, which incorporates conditional positional encodings, significantly improves performance on Audioset and ESC-50 compared to the original AST.


翻译:最近,音频分光变异器(AST)被推荐用于音频分类,导致若干数据集的最新结果。然而,为了使ASTS的功能超过CNN,需要用图像网络进行预先培训。在本文中,我们研究AST的一个组成部分,即定位编码,并提出若干变体来改进从零开始训练的AST的性能,而没有图像网络的预培训。我们的最佳模型包括有条件的定位编码,大大改进了音频和ESC-50的性能,与原AST相比。

0
下载
关闭预览

相关内容

专知会员服务
25+阅读 · 2021年8月22日
专知会员服务
46+阅读 · 2021年6月1日
【AAAI2021】用于多标签图像分类的深度语义词典学习
专知会员服务
15+阅读 · 2020年12月30日
Transformer文本分类代码
专知会员服务
118+阅读 · 2020年2月3日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
LibRec 精选:位置感知的长序列会话推荐
LibRec智能推荐
3+阅读 · 2019年5月17日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
计算机视觉的不同任务
专知
5+阅读 · 2018年8月27日
笔记 | Sentiment Analysis
黑龙江大学自然语言处理实验室
10+阅读 · 2018年5月6日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
0+阅读 · 2021年12月3日
Arxiv
11+阅读 · 2021年10月26日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
3+阅读 · 2018年2月24日
VIP会员
最新内容
无人机自主控制与人工智能:系统性综述
专知会员服务
5+阅读 · 今天7:25
巡飞弹与反无人机系统——现代战场的两大支柱
专知会员服务
2+阅读 · 今天6:54
《打造“黄金舰队”》57页报告
专知会员服务
1+阅读 · 今天6:52
《北约数字教官网络发展路径》128页报告
专知会员服务
1+阅读 · 今天6:33
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
6+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
7+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
《国防领域敏感性分析白皮书》
专知会员服务
9+阅读 · 6月25日
综述 | 从问答到任务完成:Agent系统与Harness设计
专知会员服务
10+阅读 · 6月24日
Agentic RL:框架、实践与长程智能体训练
专知会员服务
10+阅读 · 6月24日
相关资讯
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
LibRec 精选:位置感知的长序列会话推荐
LibRec智能推荐
3+阅读 · 2019年5月17日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
计算机视觉的不同任务
专知
5+阅读 · 2018年8月27日
笔记 | Sentiment Analysis
黑龙江大学自然语言处理实验室
10+阅读 · 2018年5月6日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
相关论文
Top
微信扫码咨询专知VIP会员