Large audio-language models (LALMs) increasingly use explicit reasoning traces for complex audio understanding, yet the evaluation of reasoning quality remains underexplored. Although process-level benchmarks for process reward models (PRMs) have advanced reasoning evaluation in text and multi-modal domains, comparable evaluation for audio reasoning remains limited. In this paper, we present AudioProcessBench, a comprehensive benchmark for step-level process error identification in audio reasoning. AudioProcessBench contains diverse reasoning traces generated by 6 audio and omni language models. Each trace is segmented into discrete reasoning steps and annotated with binary step correctness and fine-grained error types. Our benchmark evaluates models under three complementary paradigms: (1) step correctness identification, (2) error-type-conditioned detection for diagnosing audio-specific verifier capacities, and (3) chain-level aggregation, where verifiers select or aggregate among multiple reasoning traces for the same question. This design enables a systematic analysis of whether current models can detect process errors, whether their weaknesses differ across audio-specific error types, and whether process verification translates into improved answer selection. AudioProcessBench provides a testbed for future research on audio reasoning verifiers, process reward models, and reliable omni-modal reasoning.


翻译:大型音频语言模型(LALMs)日益依赖显式推理轨迹进行复杂音频理解,然而推理质量的评估仍鲜有探索。尽管针对过程奖励模型(PRMs)的过程级基准已推动文本和多模态领域的推理评估,但音频领域的可比评估仍十分有限。本文提出AudioProcessBench,一个面向音频推理中步骤级过程错误识别的综合性基准。该基准包含由6种音频及全模态语言模型生成的多样化推理轨迹,每条轨迹被分割为离散推理步骤,并标注了二值步骤正确性及细粒度错误类型。我们的基准在三种互补范式下评估模型:(1)步骤正确性识别;(2)基于错误类型的条件检测,用于诊断音频专用验证器能力;(3)链级聚合,即验证器对同一问题的多条推理轨迹进行选择或聚合。该设计支持系统分析:当前模型能否检测过程错误?其弱点在不同音频专用错误类型间是否存在差异?过程验证能否转化为更优答案选择?AudioProcessBench为未来音频推理验证器、过程奖励模型及可靠全模态推理研究提供了测试平台。

0
下载
关闭预览

相关内容

【阿里千问】在数学推理中开发过程奖励模型的经验教训
通过集成 XNNPACK 实现推理速度飞跃
TensorFlow
26+阅读 · 2020年7月30日
近期语音类前沿论文
深度学习每日摘要
14+阅读 · 2019年3月17日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
1+阅读 · 54分钟前
定向能反无人机系统最新发展动态
专知会员服务
3+阅读 · 今天13:50
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
2+阅读 · 今天13:33
相关VIP内容
【阿里千问】在数学推理中开发过程奖励模型的经验教训
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员