Large Audio Language Models (LALMs) excel at perception but struggle with complex reasoning requiring precise acoustic measurements. While external tools can extract fine-grained features like exact tempo or pitch, effective integration remains challenging: naively using all tools causes information overload, while prompt-based selection fails to assess context-dependent utility. To address this, we propose AuTAgent (Audio Tool Agent), a reinforcement learning framework that learns when and which tools to invoke. By employing a sparse-feedback training strategy with a novel Differential Reward mechanism, the agent learns to filter out irrelevant tools and invokes external assistance only when it yields a net performance gain over the base model. Experimental results confirm that AuTAgent complements the representation bottleneck of LALMs by providing verifiable acoustic evidence. It improves accuracy by 4.20% / 6.20% and 9.80% / 8.00% for open-source and closed-source backbones on the MMAU Test-mini and the MMAR benchmarks, respectively. In addition, further experiments demonstrate exceptional transferability. We highlight the complementary role of external tools in augmenting audio model reasoning.


翻译:大型音频语言模型在感知任务上表现出色,但在需要精确声学测量的复杂推理任务上仍存在困难。虽然外部工具可以提取诸如精确节奏或音高等细粒度特征,但如何有效整合这些工具仍具挑战性:简单地使用所有工具会导致信息过载,而基于提示的选择方法又难以评估工具在特定上下文中的效用。为解决这一问题,我们提出了AuTAgent(音频工具智能体),这是一个学习何时调用以及调用何种工具的强化学习框架。通过采用一种结合了新颖差分奖励机制的稀疏反馈训练策略,该智能体学会过滤掉不相关的工具,并且仅在调用外部工具能为基础模型带来净性能增益时才进行调用。实验结果证实,AuTAgent通过提供可验证的声学证据,弥补了大型音频语言模型的表征瓶颈。在MMAU Test-mini和MMAR基准测试上,它分别将开源和闭源骨干模型的准确率提高了4.20%/6.20%和9.80%/8.00%。此外,进一步的实验展示了其卓越的迁移能力。我们强调了外部工具在增强音频模型推理能力方面的补充作用。

0
下载
关闭预览

相关内容

【NeurIPS2023】大型语言模型是视觉推理协调器
专知会员服务
30+阅读 · 2023年10月24日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关VIP内容
【NeurIPS2023】大型语言模型是视觉推理协调器
专知会员服务
30+阅读 · 2023年10月24日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员