Representation-Regularized Convolutional Audio Transformer for Audio Understanding - 专知论文

会员服务 ·

0

表示 · 正则化 · 卷积 · 粒度 · Transformer ·

Representation-Regularized Convolutional Audio Transformer for Audio Understanding

翻译：表示正则化的卷积音频Transformer用于音频理解

Bing Han,Chushu Zhou,Yifan Yang,Wei Wang,Chenda Li,Wangyou Zhang,Yanmin Qian

from arxiv, 12 pages, 3 figures

Bootstrap-based Self-Supervised Learning (SSL) has achieved remarkable progress in audio understanding. However, existing methods typically operate at a single level of granularity, limiting their ability to model the diverse temporal and spectral structures inherent in complex audio signals. Furthermore, bootstrapping representations from scratch is computationally expensive, often requiring extensive training to converge. In this work, we propose the Convolutional Audio Transformer (CAT), a unified framework designed to address these challenges. First, to capture hierarchical audio features, CAT incorporates a Multi-resolution Block that aggregates information across varying granularities. Second, to enhance training efficiency, we introduce a Representation Regularization objective. Drawing inspiration from generative modeling, this auxiliary task guides the student model by aligning its predictions with high-quality semantic representations from frozen, pre-trained external encoders. Experimental results demonstrate that CAT significantly outperforms baselines on audio understanding benchmarks. Notably, it achieves competitive performance on the AudioSet 20k dataset with 5 times faster convergence than existing methods. Codes and checkpoints will be released soon at https://github.com/realzhouchushu/CAT.

翻译：基于自举的自监督学习在音频理解领域取得了显著进展。然而，现有方法通常仅在单一粒度上操作，限制了其建模复杂音频信号中固有的多样化时频结构的能力。此外，从零开始自举表示在计算上代价高昂，通常需要大量训练才能收敛。在本工作中，我们提出了卷积音频Transformer，这是一个旨在解决这些挑战的统一框架。首先，为了捕捉层次化的音频特征，CAT包含一个多分辨率模块，用于聚合不同粒度的信息。其次，为了提高训练效率，我们引入了一个表示正则化目标。受生成式建模的启发，该辅助任务通过将学生模型的预测与来自冻结的、预训练的外部编码器的高质量语义表示对齐，来指导学生模型。实验结果表明，CAT在音频理解基准测试中显著优于基线方法。值得注意的是，它在AudioSet 20k数据集上取得了具有竞争力的性能，且收敛速度比现有方法快5倍。代码和检查点将很快发布于 https://github.com/realzhouchushu/CAT。

0

相关内容

【CVPR2024】GroupContrast：语义感知的自监督表示学习用于三维理解

【CVPR2024】GroupContrast：语义感知的自监督表示学习用于三维理解

专知会员服务

18+阅读 · 2024年3月15日

【EPFL博士论文】基于transformer的高效语音识别，162页pdf

【EPFL博士论文】基于transformer的高效语音识别，162页pdf

专知会员服务

45+阅读 · 2023年2月18日

【李宏毅老师】自监督表示学习语音处理，附89页ppt与视频

【李宏毅老师】自监督表示学习语音处理，附89页ppt与视频

专知会员服务

32+阅读 · 2022年9月9日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

Transformer综述又一弹！西电最新《Transformer视觉学习理解》综述ViT在图像视频中的研究进展与10大问题

Transformer综述又一弹！西电最新《Transformer视觉学习理解》综述ViT在图像视频中的研究进展与10大问题

专知会员服务

112+阅读 · 2022年4月24日

【CVPR2022】视频对比学习的概率表示，Probabilistic Representations for Video Contrastive Learning

【CVPR2022】视频对比学习的概率表示，Probabilistic Representations for Video Contrastive Learning

专知会员服务

16+阅读 · 2022年4月11日

Transformer如何用于视频？最新「视频Transformer」2022综述

Transformer如何用于视频？最新「视频Transformer」2022综述

专知会员服务

76+阅读 · 2022年1月20日

人大最新《基于Transformer 的视频语言预训练》综述论文

人大最新《基于Transformer 的视频语言预训练》综述论文

专知会员服务

48+阅读 · 2021年9月27日

SiT: 自监督视觉Transformer

专知会员服务

65+阅读 · 2021年4月11日

【Google无监督大规模视觉表示迁移】Large Scale Learning of General Visual Representations for Transfer

【Google无监督大规模视觉表示迁移】Large Scale Learning of General Visual Representations for Transfer

专知会员服务

12+阅读 · 2020年1月7日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

专知

20+阅读 · 2020年3月1日

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

专知

24+阅读 · 2020年1月12日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

使用 FastAI 和即时频率变换进行音频分类

使用 FastAI 和即时频率变换进行音频分类

AI研习社

11+阅读 · 2019年5月9日

使用RNN-Transducer进行语音识别建模【附PPT与视频资料】

使用RNN-Transducer进行语音识别建模【附PPT与视频资料】

人工智能前沿讲习班

74+阅读 · 2019年1月29日

语义分割和转置卷积

语义分割和转置卷积

AI研习社

11+阅读 · 2018年6月22日

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

专知

26+阅读 · 2018年1月21日

间接优化的高效Monte Carlo声传播研究

国家自然科学基金

0+阅读 · 2017年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于波内频率调制的音色模型研究以及在单通道音源分离中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

变步长和变正则化因子的子带自适应滤波算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

数字音频被动取证关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

带噪声 Radon 逆问题的点态估计

国家自然科学基金

0+阅读 · 2014年12月31日

基于五模材料的变换声学理论与实验研究

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

AudioChat: Unified Audio Storytelling, Editing, and Understanding with Transfusion Forcing

Arxiv

0+阅读 · 2月19日

BAT: Better Audio Transformer Guided by Convex Gated Probing

Arxiv

0+阅读 · 2月18日

Echo: Towards Advanced Audio Comprehension via Audio-Interleaved Reasoning

Arxiv

0+阅读 · 2月12日

AudioRouter: Data Efficient Audio Understanding via RL based Dual Reasoning

Arxiv

0+阅读 · 2月11日

DegDiT: Controllable Audio Generation with Dynamic Event Graph Guided Diffusion Transformer

Arxiv

0+阅读 · 2月9日

DisCa: Accelerating Video Diffusion Transformers with Distillation-Compatible Learnable Feature Caching

Arxiv

0+阅读 · 2月5日

SupCLAP: Controlling Optimization Trajectory Drift in Audio-Text Contrastive Learning with Support Vector Regularization

Arxiv

0+阅读 · 1月31日

DIFFA-2: A Practical Diffusion Large Language Model for General Audio Understanding

Arxiv

0+阅读 · 1月30日

Learning Linearity in Audio Consistency Autoencoders via Implicit Regularization

Arxiv

0+阅读 · 1月27日

SONAR: Self-Distilled Continual Pre-training for Domain Adaptive Audio Representation

Arxiv

0+阅读 · 1月23日

VIP会员

文章信息

相关主题

最新内容

2026“人工智能+”行业发展蓝皮书（附下载）

2026“人工智能+”行业发展蓝皮书（附下载）

专知会员服务

7+阅读 · 今天12:11

《强化学习数学基础》

《强化学习数学基础》

专知会员服务

4+阅读 · 今天12:07

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

专知会员服务

6+阅读 · 今天10:06

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

专知会员服务

3+阅读 · 今天9:11

深入Maven智能系统：Palantir基于Claude打造的军事大脑

深入Maven智能系统：Palantir基于Claude打造的军事大脑

专知会员服务

10+阅读 · 今天8:18

“Maven计划”的发展演变之“Maven智能系统”应用

“Maven计划”的发展演变之“Maven智能系统”应用

专知会员服务

9+阅读 · 今天8:03

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

专知会员服务

6+阅读 · 今天7:39

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

专知会员服务

5+阅读 · 今天6:58

加拿大国防部发布项目需求：用于高级态势决策的多模态人工智能

加拿大国防部发布项目需求：用于高级态势决策的多模态人工智能

专知会员服务

5+阅读 · 今天6:54

《无人机革命：来自俄乌战场的启示》（报告）

《无人机革命：来自俄乌战场的启示》（报告）

专知会员服务

9+阅读 · 今天6:48

《实现联合作战能力所需的技术》58页报告

《实现联合作战能力所需的技术》58页报告

专知会员服务

5+阅读 · 今天6:30

《算法化目标定位：人工智能在以色列加沙打击行动中的作用及其伦理影响》（中文版）

《算法化目标定位：人工智能在以色列加沙打击行动中的作用及其伦理影响》（中文版）

专知会员服务

7+阅读 · 今天6:22

以色列运用人工智能优化空袭警报系统

以色列运用人工智能优化空袭警报系统

专知会员服务

5+阅读 · 今天6:20

以色列在多条战线部署AI智能体

以色列在多条战线部署AI智能体

专知会员服务

7+阅读 · 今天6:12

《将形式化方法工具应用于电子战代码库（经验报告）》

《将形式化方法工具应用于电子战代码库（经验报告）》

专知会员服务

6+阅读 · 今天6:09

相关VIP内容

【CVPR2024】GroupContrast：语义感知的自监督表示学习用于三维理解

【CVPR2024】GroupContrast：语义感知的自监督表示学习用于三维理解

专知会员服务

18+阅读 · 2024年3月15日

【EPFL博士论文】基于transformer的高效语音识别，162页pdf

【EPFL博士论文】基于transformer的高效语音识别，162页pdf

专知会员服务

45+阅读 · 2023年2月18日

【李宏毅老师】自监督表示学习语音处理，附89页ppt与视频

【李宏毅老师】自监督表示学习语音处理，附89页ppt与视频

专知会员服务

32+阅读 · 2022年9月9日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

Transformer综述又一弹！西电最新《Transformer视觉学习理解》综述ViT在图像视频中的研究进展与10大问题

Transformer综述又一弹！西电最新《Transformer视觉学习理解》综述ViT在图像视频中的研究进展与10大问题

专知会员服务

112+阅读 · 2022年4月24日

【CVPR2022】视频对比学习的概率表示，Probabilistic Representations for Video Contrastive Learning

【CVPR2022】视频对比学习的概率表示，Probabilistic Representations for Video Contrastive Learning

专知会员服务

16+阅读 · 2022年4月11日

Transformer如何用于视频？最新「视频Transformer」2022综述

Transformer如何用于视频？最新「视频Transformer」2022综述

专知会员服务

76+阅读 · 2022年1月20日

人大最新《基于Transformer 的视频语言预训练》综述论文

人大最新《基于Transformer 的视频语言预训练》综述论文

专知会员服务

48+阅读 · 2021年9月27日

SiT: 自监督视觉Transformer

专知会员服务

65+阅读 · 2021年4月11日

【Google无监督大规模视觉表示迁移】Large Scale Learning of General Visual Representations for Transfer

【Google无监督大规模视觉表示迁移】Large Scale Learning of General Visual Representations for Transfer

专知会员服务

12+阅读 · 2020年1月7日

热门VIP内容

开通专知VIP会员享更多权益服务

《强化学习数学基础》

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

2026“人工智能+”行业发展蓝皮书（附下载）

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

相关资讯

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

专知

20+阅读 · 2020年3月1日

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

专知

24+阅读 · 2020年1月12日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

使用 FastAI 和即时频率变换进行音频分类

使用 FastAI 和即时频率变换进行音频分类

AI研习社

11+阅读 · 2019年5月9日

使用RNN-Transducer进行语音识别建模【附PPT与视频资料】

使用RNN-Transducer进行语音识别建模【附PPT与视频资料】

人工智能前沿讲习班

74+阅读 · 2019年1月29日

语义分割和转置卷积

语义分割和转置卷积

AI研习社

11+阅读 · 2018年6月22日

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

专知

26+阅读 · 2018年1月21日

相关论文

AudioChat: Unified Audio Storytelling, Editing, and Understanding with Transfusion Forcing

Arxiv

0+阅读 · 2月19日

BAT: Better Audio Transformer Guided by Convex Gated Probing

Arxiv

0+阅读 · 2月18日

Echo: Towards Advanced Audio Comprehension via Audio-Interleaved Reasoning

Arxiv

0+阅读 · 2月12日

AudioRouter: Data Efficient Audio Understanding via RL based Dual Reasoning

Arxiv

0+阅读 · 2月11日

DegDiT: Controllable Audio Generation with Dynamic Event Graph Guided Diffusion Transformer

Arxiv

0+阅读 · 2月9日

DisCa: Accelerating Video Diffusion Transformers with Distillation-Compatible Learnable Feature Caching

Arxiv

0+阅读 · 2月5日

SupCLAP: Controlling Optimization Trajectory Drift in Audio-Text Contrastive Learning with Support Vector Regularization

Arxiv

0+阅读 · 1月31日

DIFFA-2: A Practical Diffusion Large Language Model for General Audio Understanding

Arxiv

0+阅读 · 1月30日

Learning Linearity in Audio Consistency Autoencoders via Implicit Regularization

Arxiv

0+阅读 · 1月27日

SONAR: Self-Distilled Continual Pre-training for Domain Adaptive Audio Representation

Arxiv

0+阅读 · 1月23日

相关基金

间接优化的高效Monte Carlo声传播研究

国家自然科学基金

0+阅读 · 2017年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于波内频率调制的音色模型研究以及在单通道音源分离中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

变步长和变正则化因子的子带自适应滤波算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

数字音频被动取证关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

带噪声 Radon 逆问题的点态估计

国家自然科学基金

0+阅读 · 2014年12月31日

基于五模材料的变换声学理论与实验研究

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员