Automatic speech quality assessment has become increasingly important as modern speech generation systems continue to advance, while human listening tests remain costly, time-consuming, and difficult to scale. Most existing learning-based assessment models rely primarily on scarce human-annotated mean opinion score (MOS) data, which limits robustness and generalization, especially when training across heterogeneous datasets. In this work, we propose UrgentMOS, a unified speech quality assessment framework that jointly learns from diverse objective and perceptual quality metrics, while explicitly tolerating the absence of arbitrary subsets of metrics during training. By leveraging complementary quality facets under heterogeneous supervision, UrgentMOS enables effective utilization of partially annotated data and improves robustness when trained on large-scale, multi-source datasets. Beyond absolute score prediction, UrgentMOS explicitly models pairwise quality preferences by directly predicting comparative MOS (CMOS), making it well suited for preference-based evaluation scenarios commonly adopted in system benchmarking. Extensive experiments across a wide range of speech quality datasets, including simulated distortions, speech enhancement, and speech synthesis, demonstrate that UrgentMOS consistently achieves state-of-the-art performance in both absolute and comparative evaluation settings.


翻译:随着现代语音生成系统的不断进步,自动语音质量评估变得日益重要,而人工听力测试仍然成本高昂、耗时且难以扩展。现有的大多数基于学习的评估模型主要依赖于稀缺的人工标注平均意见得分(MOS)数据,这限制了模型的鲁棒性和泛化能力,尤其是在跨异构数据集训练时。本研究提出UrgentMOS,一个统一的语音质量评估框架,该框架联合学习多种客观与感知质量度量,同时在训练过程中显式容忍任意度量子集的缺失。通过利用异构监督下的互补质量维度,UrgentMOS能够有效利用部分标注数据,并在大规模、多源数据集上训练时提升鲁棒性。除了绝对分数预测,UrgentMOS通过直接预测比较MOS(CMOS)显式建模成对质量偏好,使其特别适用于系统基准测试中常用的基于偏好的评估场景。在涵盖模拟失真、语音增强和语音合成等多种语音质量数据集上的大量实验表明,UrgentMOS在绝对评估和比较评估设置中均能持续取得最先进的性能。

0
下载
关闭预览

相关内容

【NTU博士论文】端到端鲁棒自动语音识别的最新进展
专知会员服务
12+阅读 · 2025年10月15日
文本、视觉与语音生成的自动化评估方法综述
专知会员服务
20+阅读 · 2025年6月15日
大型语言模型对齐技术综述:RLHF、RLAIF、PPO、DPO 等
专知会员服务
55+阅读 · 2024年7月24日
基于深度学习的自然语言处理鲁棒性研究
专知会员服务
30+阅读 · 2024年1月15日
通过对比学习提高基于知识对话的鲁棒性
专知会员服务
23+阅读 · 2024年1月10日
书单 | 语音研究进阶指南
微软研究院AI头条
12+阅读 · 2019年3月22日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
语音识别之--韩语语音识别
微信AI
16+阅读 · 2017年8月2日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
乌克兰前线的五项创新
专知会员服务
1+阅读 · 今天6:14
 军事通信系统与设备的技术演进综述
专知会员服务
1+阅读 · 今天5:59
《北约标准:医疗评估手册》174页
专知会员服务
1+阅读 · 今天5:51
《提升生成模型的安全性与保障》博士论文
专知会员服务
0+阅读 · 今天5:47
美国当前高超音速导弹发展概述
专知会员服务
4+阅读 · 4月19日
无人机蜂群建模与仿真方法
专知会员服务
9+阅读 · 4月19日
澳大利亚发布《国防战略(2026年)》
专知会员服务
4+阅读 · 4月19日
全球高超音速武器最新发展趋势
专知会员服务
3+阅读 · 4月19日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员