Although Audio Large Language Models (ALLMs) have witnessed substantial advancements, their long audio understanding capabilities remain unexplored. A plethora of benchmarks have been proposed for general audio tasks, they predominantly focus on short-form clips, leaving without a consensus on evaluating ALLMs over extended durations. This paper proposes ChronosAudio, the first multi-task benchmark tailored for long-audio understanding in ALLMs. It encompasses six major task categories and comprises 36,000 test instances totaling over 200 hours audio, stratified into short, middle, and long-form categories to comprehensively evaluate length generalization. Extensive experiments on 16 state-of-the-art models using ChronosAudio yield three critical findings: 1.Precipitous Long-Context Collapse: ALLMs exhibit a severe inability to sustain performance, with the transition from short to long contexts triggering a staggering performance degradation of over 90% in specific tasks. 2.Structural Attention Dilution: Performance degradation stems from a fundamental failure in maintaining temporal locality; attention mechanisms suffer from significant diffusion in later sequences. 3.Restorative Ceiling of Mitigation: Current strategies only offer 50% recovery. These findings reveal significant challenges in long-audio, underscoring the urgent need for approaches to achieve robust, document-level audio reasoning.


翻译:尽管音频大语言模型(ALLMs)已取得显著进展,但其长音频理解能力仍未被充分探索。虽然已有大量针对通用音频任务的基准被提出,但它们主要集中于短时音频片段,导致在评估ALLMs处理长时音频方面缺乏共识。本文提出了ChronosAudio,这是首个专为ALLMs长音频理解定制的多任务基准。它涵盖六大任务类别,包含总计超过200小时音频的36,000个测试实例,并分为短、中、长三种时长类别,以全面评估模型的长度泛化能力。基于ChronosAudio对16个前沿模型进行的广泛实验得出三个关键发现:1. 急剧的长上下文崩溃:ALLMs表现出严重的性能维持能力不足,从短上下文过渡到长上下文时,在特定任务中引发超过90%的性能骤降。2. 结构性注意力稀释:性能下降源于维持时间局部性的根本性失效;注意力机制在后续序列中出现显著扩散。3. 缓解策略的恢复上限:现有策略仅能实现50%的性能恢复。这些发现揭示了长音频处理中的重大挑战,凸显了迫切需要新方法以实现鲁棒的文件级音频推理。

0
下载
关闭预览

相关内容

《语音大语言模型》最新进展综述
专知会员服务
57+阅读 · 2024年10月8日
【CVPR2024】Koala: 关键帧条件化长视频语言模型
专知会员服务
13+阅读 · 2024年4月21日
《大型语言模型视频理解》综述
专知会员服务
59+阅读 · 2024年1月2日
天大最新《大型语言模型评估》全面综述,111页pdf
专知会员服务
88+阅读 · 2023年10月31日
语音信号处理:基本方法与前沿技术
AINLP
10+阅读 · 2020年10月14日
书单 | 语音研究进阶指南
微软研究院AI头条
12+阅读 · 2019年3月22日
近期语音类前沿论文
深度学习每日摘要
14+阅读 · 2019年3月17日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
《系统簇式多域作战规划范畴论框架》
专知会员服务
2+阅读 · 4月20日
高效视频扩散模型:进展与挑战
专知会员服务
0+阅读 · 4月20日
乌克兰前线的五项创新
专知会员服务
6+阅读 · 4月20日
 军事通信系统与设备的技术演进综述
专知会员服务
4+阅读 · 4月20日
《北约标准:医疗评估手册》174页
专知会员服务
4+阅读 · 4月20日
《提升生成模型的安全性与保障》博士论文
专知会员服务
4+阅读 · 4月20日
美国当前高超音速导弹发展概述
专知会员服务
4+阅读 · 4月19日
无人机蜂群建模与仿真方法
专知会员服务
14+阅读 · 4月19日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员