The ability to reason from audio, including speech, environmental sounds, and music, is essential for AI agents to interact effectively in real-world scenarios. Existing benchmarks mainly focus on static or single-scene settings and English audio data and do not fully capture scenarios where multiple speakers, unfolding events, and heterogeneous audio sources interact. To address these challenges, we introduce CMDAR, a Chinese benchmark for evaluating models on complex, multi-scene, and dynamically evolving audio reasoning tasks. CMDAR comprises 3,000 carefully curated question-answer pairs linked to diverse audio clips, covering five categories of complex reasoning and spanning three question types. We benchmark 26 state-of-the-art audio language models on CMDAR and observe that they exhibit limitations in complex reasoning tasks. In CMDAR-main, Qwen2.5-Omni achieves 76.67% accuracy, whereas GPT-4o Audio reaches 68.47%. However, GPT-4o Audio substantially outperforms Qwen2.5-Omni on the more challenging multiple-choice with multiple audios and open-ended tasks. And we provide detail analysis corresponding suggestions for the future development of large audio language models.


翻译:从音频(包括语音、环境声音和音乐)进行推理的能力,对于AI智能体在现实场景中有效交互至关重要。现有基准主要集中于静态或单场景设置以及英语音频数据,未能充分捕捉多个说话者、动态展开事件以及异构音频源交互的场景。为应对这些挑战,我们提出了CMDAR,一个用于评估模型在复杂、多场景且动态演化的音频推理任务上的中文基准。CMDAR包含3000个精心构建的与多样化音频片段相关联的问答对,涵盖五类复杂推理任务,并横跨三种问题类型。我们在CMDAR上对26个最先进的音频语言模型进行了基准测试,发现它们在复杂推理任务中存在局限性。在CMDAR-main部分,Qwen2.5-Omni达到了76.67%的准确率,而GPT-4o Audio则为68.47%。然而,在更具挑战性的多音频多选题和开放式任务上,GPT-4o Audio显著优于Qwen2.5-Omni。我们提供了详细分析,并对大型音频语言模型的未来发展提出了相应建议。

0
下载
关闭预览

相关内容

多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
中国AI语音识别市场研究报告(附PDF下载)
专知会员服务
78+阅读 · 2020年12月30日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关VIP内容
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
中国AI语音识别市场研究报告(附PDF下载)
专知会员服务
78+阅读 · 2020年12月30日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员