We present Task 5 of the DCASE 2025 Challenge: an Audio Question Answering (AQA) benchmark spanning multiple domains of sound understanding. This task defines three QA subsets (Bioacoustics, Temporal Soundscapes, and Complex QA) to test audio-language models on interactive question-answering over diverse acoustic scenes. We describe the dataset composition (from marine mammal calls to soundscapes and complex real-world clips), the evaluation protocol (top-1 accuracy with answer-shuffling robustness), and baseline systems (Qwen2-Audio-7B, AudioFlamingo 2, Gemini-2-Flash). Preliminary results on the development set are compared, showing strong variation across models and subsets. This challenge aims to advance the audio understanding and reasoning capabilities of audio-language models toward human-level acuity, which are crucial for enabling AI agents to perceive and interact about the world effectively.


翻译:我们提出DCASE 2025挑战赛的任务5:一个涵盖多领域声音理解的音频问答基准。该任务定义了三个问答子集(生物声学、时序声景和复杂问答),用于测试音频-语言模型在不同声学场景下的交互式问答能力。我们描述了数据集的构成(从海洋哺乳动物叫声到声景及复杂真实世界片段)、评估协议(采用答案随机排序鲁棒性的top-1准确率)以及基线系统(Qwen2-Audio-7B、AudioFlamingo 2、Gemini-2-Flash)。通过对开发集的初步结果进行比较,发现不同模型和子集间存在显著差异。本挑战旨在推动音频-语言模型的音频理解与推理能力向人类水平发展,这对于使智能体能够有效感知世界并与之交互至关重要。

0
下载
关闭预览

相关内容

多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
知识驱动的视觉知识学习,以VQA视觉问答为例,31页ppt
专知会员服务
36+阅读 · 2020年9月25日
论文浅尝 | 一种用于多关系问答的可解释推理网络
开放知识图谱
18+阅读 · 2019年5月21日
近期声学领域前沿论文(No. 3)
深度学习每日摘要
24+阅读 · 2019年3月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
内省扩散语言模型
专知会员服务
3+阅读 · 4月14日
国外反无人机系统与技术动态
专知会员服务
3+阅读 · 4月14日
大规模作战行动中的战术作战评估(研究论文)
未来的海战无人自主系统
专知会员服务
3+阅读 · 4月14日
美军多域作战现状分析:战略、概念还是幻想?
无人机与反无人机系统(书籍)
专知会员服务
19+阅读 · 4月14日
美陆军2026条令:安全与机动支援
专知会员服务
9+阅读 · 4月14日
相关VIP内容
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
知识驱动的视觉知识学习,以VQA视觉问答为例,31页ppt
专知会员服务
36+阅读 · 2020年9月25日
相关资讯
论文浅尝 | 一种用于多关系问答的可解释推理网络
开放知识图谱
18+阅读 · 2019年5月21日
近期声学领域前沿论文(No. 3)
深度学习每日摘要
24+阅读 · 2019年3月31日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员