Transformer-based audio SSL (self-supervised learning) models often treat spectrograms as images, applying convolutional patchification with heavy temporal downsampling. This lowers the effective Nyquist frequency and introduces aliasing, while naïve low-pass filtering removes task-relevant high-frequency cues. In this study, we present Aliasing-aware Patch Embedding (AaPE), a drop-in patch stem that mitigates aliasing while preserving high-frequency information. AaPE augments standard patch tokens with features produced by a band-limited complex sinusoidal kernel using a two-sided exponential window that dynamically targets alias-prone bands. Frequency and decay parameters of the kernel are estimated from the input, enabling parallel, adaptive subband analysis whose outputs are fused with the standard patch tokens. AaPE integrates seamlessly into the masked teacher-student self-supervised learning. In addition, we combine a multi-mask strategy with a contrastive objective to enforce consistency across diverse mask patterns, stabilizing training. Pre-training on AudioSet followed by fine-tuning evaluation across diverse downstream benchmarks, which spanned categories, such as environmental sounds and other common audio domains. This approach yields state-of-the-art performance on a subset of tasks and competitive results across the remainder. Complementary linear probing evaluation mirrors this pattern, yielding clear gains on several benchmarks and strong performance elsewhere. The collective analysis of these results indicates that AaPE serves to mitigate the effects of aliasing without discarding of informative high-frequency content.


翻译:基于Transformer的音频自监督学习模型通常将频谱图视为图像,采用卷积块化处理并伴随大幅时间下采样。这会降低有效奈奎斯特频率并引入混叠,而简单的低通滤波则会移除任务相关的高频线索。本研究提出抗混叠感知块嵌入,作为一种即插即用的块嵌入主干,可在保留高频信息的同时抑制混叠效应。AaPE通过采用双边指数窗的带限复正弦核生成的特征增强标准块标记,动态针对易混叠频带。该核的频率与衰减参数由输入估计得出,实现并行自适应子带分析,其输出与标准块标记融合。AaPE可无缝集成于掩码师生自监督学习框架。此外,我们结合多掩码策略与对比学习目标,以增强不同掩码模式间的一致性,从而稳定训练过程。通过在AudioSet上进行预训练,并在涵盖环境音等常见音频领域的多样化下游基准任务中进行微调评估,该方法在部分任务上取得最先进性能,其余任务上亦具竞争力。补充的线性探测评估结果与此趋势一致,在多个基准上取得显著提升,其余任务表现稳健。综合分析表明,AaPE能有效缓解混叠效应,同时避免丢弃信息丰富的高频内容。

0
下载
关闭预览

相关内容

【CVPR2024】VideoMAC: 视频掩码自编码器与卷积神经网络
专知会员服务
17+阅读 · 2024年3月4日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员