MAEB: Massive Audio Embedding Benchmark - 专知论文

会员服务 ·

0

基准 · 基准测试 · 嵌入 · 模态 · 文本推理 ·

MAEB: Massive Audio Embedding Benchmark

翻译：MAEB：大规模音频嵌入基准测试

Adnan El Assadi,Isaac Chung,Chenghao Xiao,Roman Solomatin,Animesh Jha,Rahul Chand,Silky Singh,Kaitlyn Wang,Ali Sartaz Khan,Marc Moussa Nasser,Sufen Fong,Pengfei He,Alan Xiao,Ayush Sunil Munot,Aditya Shrivastava,Artem Gazizov,Niklas Muennighoff,Kenneth Enevoldsen

We introduce the Massive Audio Embedding Benchmark (MAEB), a large-scale benchmark covering 30 tasks across speech, music, environmental sounds, and cross-modal audio-text reasoning in 100+ languages. We evaluate 50+ models and find that no single model dominates across all tasks: contrastive audio-text models excel at environmental sound classification (e.g., ESC50) but score near random on multilingual speech tasks (e.g., SIB-FLEURS), while speech-pretrained models show the opposite pattern. Clustering remains challenging for all models, with even the best-performing model achieving only modest results. We observe that models excelling on acoustic understanding often perform poorly on linguistic tasks, and vice versa. We also show that the performance of audio encoders on MAEB correlates highly with their performance when used in audio large language models. MAEB is derived from MAEB+, a collection of 98 tasks. MAEB is designed to maintain task diversity while reducing evaluation cost, and it integrates into the MTEB ecosystem for unified evaluation across text, image, and audio modalities. We release MAEB and all 98 tasks along with code and a leaderboard at https://github.com/embeddings-benchmark/mteb.

翻译：我们提出了大规模音频嵌入基准测试（MAEB），这是一个涵盖语音、音乐、环境声音以及跨模态音频-文本推理等30项任务的大规模基准测试，支持100多种语言。我们评估了50多个模型，发现没有单一模型能在所有任务中占据主导地位：对比式音频-文本模型在环境声音分类（例如ESC50）上表现出色，但在多语言语音任务（例如SIB-FLEURS）上得分接近随机水平，而语音预训练模型则呈现相反的模式。聚类任务对所有模型而言仍然具有挑战性，即使表现最佳的模型也仅取得中等结果。我们观察到，在声学理解方面表现优异的模型通常在语言任务上表现不佳，反之亦然。我们还发现，音频编码器在MAEB上的性能与其在音频大语言模型中的使用性能高度相关。MAEB源自包含98项任务的MAEB+集合。MAEB旨在保持任务多样性的同时降低评估成本，并已集成到MTEB生态系统中，以实现跨文本、图像和音频模态的统一评估。我们在https://github.com/embeddings-benchmark/mteb 发布了MAEB、全部98项任务以及相关代码和排行榜。

0

相关内容

大语言模型基准综述

大语言模型基准综述

专知会员服务

27+阅读 · 2025年8月22日

MME-Survey：多模态大型语言模型评估的综合性调查

MME-Survey：多模态大型语言模型评估的综合性调查

专知会员服务

43+阅读 · 2024年12月1日

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

专知会员服务

50+阅读 · 2024年6月30日

【CVPR2024】MA-LMM: 内存增强的大型多模态模型，用于长期视频理解

【CVPR2024】MA-LMM: 内存增强的大型多模态模型，用于长期视频理解

专知会员服务

21+阅读 · 2024年4月9日

《多模态大型语言模型》最新进展，详述26种现有MM-LLMs

《多模态大型语言模型》最新进展，详述26种现有MM-LLMs

专知会员服务

65+阅读 · 2024年1月25日

语音大模型怎么做？台大李宏毅老师ASRU2023《语音基础模型的发展历程》，74页ppt

语音大模型怎么做？台大李宏毅老师ASRU2023《语音基础模型的发展历程》，74页ppt

专知会员服务

65+阅读 · 2023年12月20日

【CMU博士论文】鲁棒大规模音频/视觉学习，309页pdf

【CMU博士论文】鲁棒大规模音频/视觉学习，309页pdf

专知会员服务

26+阅读 · 2023年8月14日

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

专知会员服务

88+阅读 · 2023年7月13日

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

专知会员服务

14+阅读 · 2020年3月27日

【AAAI2020接受论文】Emu:使用语义专门化增强多语言句子嵌入，Emu: Enhancing Multilingual Sentence Embeddings with Semantic Specialization

【AAAI2020接受论文】Emu:使用语义专门化增强多语言句子嵌入，Emu: Enhancing Multilingual Sentence Embeddings with Semantic Specialization

专知会员服务

26+阅读 · 2019年11月11日

语音信号处理：基本方法与前沿技术

语音信号处理：基本方法与前沿技术

AINLP

10+阅读 · 2020年10月14日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

雷锋网

10+阅读 · 2019年6月27日

学界 | 超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

学界 | 超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

AI科技评论

18+阅读 · 2019年6月25日

刷新中文阅读理解水平，哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

刷新中文阅读理解水平，哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

AI100

14+阅读 · 2019年6月21日

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

云头条

18+阅读 · 2019年4月23日

近期声学领域前沿论文(No. 3)

近期声学领域前沿论文(No. 3)

深度学习每日摘要

24+阅读 · 2019年3月31日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

全球人工智能

15+阅读 · 2018年2月8日

基于概率计算的大规模MIMO检测方法

国家自然科学基金

1+阅读 · 2015年12月31日

听力损失系统双耳声源定位模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

声学风洞传声器阵列测试的射流剪切层修正技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于波内频率调制的音色模型研究以及在单通道音源分离中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向5G的大规模MIMO可靠传输技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

Massive MIMO 系统中接收端低复杂度检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

大规模MIMO检测的理论性能分析和算法设计

国家自然科学基金

0+阅读 · 2015年12月31日

宽带大规模MIMO参数化信道估计与联合信号检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

短波认知ALE系统中基于深度学习-GP混合模型的多维谱预测方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

SemBench: A Benchmark for Semantic Query Processing Engines

Arxiv

0+阅读 · 3月16日

JALMBench: Benchmarking Jailbreak Vulnerabilities in Audio Language Models

Arxiv

0+阅读 · 2月28日

PTEB: Towards Robust Text Embedding Evaluation via Stochastic Paraphrasing at Evaluation Time with LLMs

Arxiv

0+阅读 · 2月27日

WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM

Arxiv

0+阅读 · 2月23日

MUKA: Multi Kernel Audio Adaptation Of Audio-Language Models

Arxiv

0+阅读 · 2月15日

AudioRAG: A Challenging Benchmark for Audio Reasoning and Information Retrieval

Arxiv

0+阅读 · 2月11日

VCB Bench: An Evaluation Benchmark for Audio-Grounded Large Language Model Conversational Agents

Arxiv

0+阅读 · 2月9日

Massive Sound Embedding Benchmark (MSEB)

Arxiv

0+阅读 · 2月6日

BASS: Benchmarking Audio LMs for Musical Structure and Semantic Reasoning

Arxiv

0+阅读 · 2月3日

Investigating Modality Contribution in Audio LLMs for Music

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

2025年大语言模型进展报告

2025年大语言模型进展报告

专知会员服务

1+阅读 · 今天13:30

多智能体协作机制

多智能体协作机制

专知会员服务

1+阅读 · 今天13:26

非对称优势：美海军开发低成本反无人机技术

非对称优势：美海军开发低成本反无人机技术

专知会员服务

4+阅读 · 今天4:39

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

专知会员服务

14+阅读 · 今天2:52

《美战争部小企业创新研究（SBIR）计划》

《美战争部小企业创新研究（SBIR）计划》

专知会员服务

6+阅读 · 今天2:48

《军事模拟：将军事条令与目标融入AI智能体》

《军事模拟：将军事条令与目标融入AI智能体》

专知会员服务

9+阅读 · 今天2:43

【NTU博士论文】3D人体动作生成

【NTU博士论文】3D人体动作生成

专知会员服务

7+阅读 · 4月24日

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

专知会员服务

8+阅读 · 4月24日

以色列军事技术对美国军力发展的持续性赋能

以色列军事技术对美国军力发展的持续性赋能

专知会员服务

8+阅读 · 4月24日

战场之外的较量：美伊冲突中的认知战与心理博弈

战场之外的较量：美伊冲突中的认知战与心理博弈

专知会员服务

6+阅读 · 4月24日

俄乌战争中乌克兰防空能力演变与见解（中文版）

俄乌战争中乌克兰防空能力演变与见解（中文版）

专知会员服务

7+阅读 · 4月24日

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

10+阅读 · 4月24日

《深度强化学习在兵棋推演中的应用》40页报告

《深度强化学习在兵棋推演中的应用》40页报告

专知会员服务

14+阅读 · 4月24日

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

10+阅读 · 4月24日

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

5+阅读 · 4月24日

相关VIP内容

大语言模型基准综述

大语言模型基准综述

专知会员服务

27+阅读 · 2025年8月22日

MME-Survey：多模态大型语言模型评估的综合性调查

MME-Survey：多模态大型语言模型评估的综合性调查

专知会员服务

43+阅读 · 2024年12月1日

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

专知会员服务

50+阅读 · 2024年6月30日

【CVPR2024】MA-LMM: 内存增强的大型多模态模型，用于长期视频理解

【CVPR2024】MA-LMM: 内存增强的大型多模态模型，用于长期视频理解

专知会员服务

21+阅读 · 2024年4月9日

《多模态大型语言模型》最新进展，详述26种现有MM-LLMs

《多模态大型语言模型》最新进展，详述26种现有MM-LLMs

专知会员服务

65+阅读 · 2024年1月25日

语音大模型怎么做？台大李宏毅老师ASRU2023《语音基础模型的发展历程》，74页ppt

语音大模型怎么做？台大李宏毅老师ASRU2023《语音基础模型的发展历程》，74页ppt

专知会员服务

65+阅读 · 2023年12月20日

【CMU博士论文】鲁棒大规模音频/视觉学习，309页pdf

【CMU博士论文】鲁棒大规模音频/视觉学习，309页pdf

专知会员服务

26+阅读 · 2023年8月14日

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

专知会员服务

88+阅读 · 2023年7月13日

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

专知会员服务

14+阅读 · 2020年3月27日

【AAAI2020接受论文】Emu:使用语义专门化增强多语言句子嵌入，Emu: Enhancing Multilingual Sentence Embeddings with Semantic Specialization

【AAAI2020接受论文】Emu:使用语义专门化增强多语言句子嵌入，Emu: Enhancing Multilingual Sentence Embeddings with Semantic Specialization

专知会员服务

26+阅读 · 2019年11月11日

热门VIP内容

开通专知VIP会员享更多权益服务

多智能体协作机制

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

2025年大语言模型进展报告

非对称优势：美海军开发低成本反无人机技术

相关资讯

语音信号处理：基本方法与前沿技术

语音信号处理：基本方法与前沿技术

AINLP

10+阅读 · 2020年10月14日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

雷锋网

10+阅读 · 2019年6月27日

学界 | 超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

学界 | 超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

AI科技评论

18+阅读 · 2019年6月25日

刷新中文阅读理解水平，哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

刷新中文阅读理解水平，哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

AI100

14+阅读 · 2019年6月21日

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

云头条

18+阅读 · 2019年4月23日

近期声学领域前沿论文(No. 3)

近期声学领域前沿论文(No. 3)

深度学习每日摘要

24+阅读 · 2019年3月31日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

全球人工智能

15+阅读 · 2018年2月8日

相关论文

SemBench: A Benchmark for Semantic Query Processing Engines

Arxiv

0+阅读 · 3月16日

JALMBench: Benchmarking Jailbreak Vulnerabilities in Audio Language Models

Arxiv

0+阅读 · 2月28日

PTEB: Towards Robust Text Embedding Evaluation via Stochastic Paraphrasing at Evaluation Time with LLMs

Arxiv

0+阅读 · 2月27日

WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM

Arxiv

0+阅读 · 2月23日

MUKA: Multi Kernel Audio Adaptation Of Audio-Language Models

Arxiv

0+阅读 · 2月15日

AudioRAG: A Challenging Benchmark for Audio Reasoning and Information Retrieval

Arxiv

0+阅读 · 2月11日

VCB Bench: An Evaluation Benchmark for Audio-Grounded Large Language Model Conversational Agents

Arxiv

0+阅读 · 2月9日

Massive Sound Embedding Benchmark (MSEB)

Arxiv

0+阅读 · 2月6日

BASS: Benchmarking Audio LMs for Musical Structure and Semantic Reasoning

Arxiv

0+阅读 · 2月3日

Investigating Modality Contribution in Audio LLMs for Music

Arxiv

0+阅读 · 2月2日

相关基金

基于概率计算的大规模MIMO检测方法

国家自然科学基金

1+阅读 · 2015年12月31日

听力损失系统双耳声源定位模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

声学风洞传声器阵列测试的射流剪切层修正技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于波内频率调制的音色模型研究以及在单通道音源分离中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向5G的大规模MIMO可靠传输技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

Massive MIMO 系统中接收端低复杂度检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

大规模MIMO检测的理论性能分析和算法设计

国家自然科学基金

0+阅读 · 2015年12月31日

宽带大规模MIMO参数化信道估计与联合信号检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

短波认知ALE系统中基于深度学习-GP混合模型的多维谱预测方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员