Automatic mean opinion score (MOS) prediction serves as a principled alternative to both subjective listening tests and objective metrics, providing scalable and consistent audio evaluation. Inspired by the LLM-as-Judge paradigm, recent multimodal large language models offer strong perceptual modeling and reasoning capabilities, enabling audio quality assessment. In this work, we address the challenging problem of audio editing evaluation and propose the first natural language-based automated evaluation framework built upon Qwen2-Audio. Two caption-based fine-tuning tasks are introduced to enhance multi-audio understanding, together with a designed Chain-of-Thought prompting strategy to encourage structured, step-by-step reasoning. Experiments show that our framework produces interpretable and logically consistent text-based evaluations, aligning closely with human judgments while outperforming existing baselines. The code and demo are available at https://github.com/NKU-HLT/Eval_Reasoning.


翻译:自动平均意见分预测是主观听力测试和客观指标的原理性替代方案,可提供可扩展且一致的音频评估。受大语言模型即评判者范式的启发,近期的多模态大语言模型展现出强大的感知建模与推理能力,可支持音频质量评估。本研究针对音频编辑评估这一挑战性问题,提出首个基于自然语言的自动化评估框架,该框架建立在Qwen2-Audio之上。我们引入了两项基于描述的微调任务以增强多音频理解能力,同时设计了一种链式思维提示策略以鼓励结构化、逐步推理。实验表明,本框架能生成可解释且逻辑连贯的基于文本的评估结果,其与人类判断高度一致,同时优于现有基线模型。相关代码与演示可在https://github.com/NKU-HLT/Eval_Reasoning获取。

0
下载
关闭预览

相关内容

多模态大语言模型的自我改进:综述
专知会员服务
28+阅读 · 2025年10月8日
大语言模型基准综述
专知会员服务
27+阅读 · 2025年8月22日
大语言模型在多模态推荐系统中的应用综述
专知会员服务
17+阅读 · 2025年5月17日
【斯坦福博士论文】大语言模型的AI辅助评估
专知会员服务
31+阅读 · 2025年3月30日
《多模态大语言模型评估综述》
专知会员服务
41+阅读 · 2024年8月29日
大语言模型评估技术研究进展
专知会员服务
49+阅读 · 2024年7月9日
天大最新《大型语言模型评估》全面综述,111页pdf
专知会员服务
88+阅读 · 2023年10月31日
近期语音类前沿论文
深度学习每日摘要
14+阅读 · 2019年3月17日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
深度学习在CTR预估中的应用 | CTR深度模型大盘点
PaperWeekly
15+阅读 · 2018年4月11日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关VIP内容
多模态大语言模型的自我改进:综述
专知会员服务
28+阅读 · 2025年10月8日
大语言模型基准综述
专知会员服务
27+阅读 · 2025年8月22日
大语言模型在多模态推荐系统中的应用综述
专知会员服务
17+阅读 · 2025年5月17日
【斯坦福博士论文】大语言模型的AI辅助评估
专知会员服务
31+阅读 · 2025年3月30日
《多模态大语言模型评估综述》
专知会员服务
41+阅读 · 2024年8月29日
大语言模型评估技术研究进展
专知会员服务
49+阅读 · 2024年7月9日
天大最新《大型语言模型评估》全面综述,111页pdf
专知会员服务
88+阅读 · 2023年10月31日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员