Non-verbal vocalizations (NVs), such as laughter, sighs, and coughs, are important acoustic cues for emotion and intent. Existing speech quality assessment methods typically focus on overall naturalness, while non-verbal TTS evaluations mainly examine whether a target NV appears with the correct type and position. However, the perceptual quality of NV events themselves remains underexplored. To address this gap, we construct an NV-MOS dataset containing outputs from multiple NV-TTS systems and naturally occurring NV samples, with ratings collected from three acoustic experts on a perceptual quality scale. We further analyze audio-capable multimodal large language models such as Gemini and find clear inconsistencies between their scores and expert ratings. These results suggest that general-purpose multimodal models cannot reliably replace human judgments for NV quality assessment. We then propose NVMOS, to our knowledge the first model that can reliably predict the perceptual quality of NV events in speech. Experimental results show that, with a local NV-event focusing module, NVMOS reaches expert-level or stronger agreement with human MOS.


翻译:非语言发声(NV),如笑声、叹息和咳嗽,是表达情感与意图的重要声学线索。现有语音质量评估方法通常聚焦于整体自然度,而非语言TTS评估主要检验目标NV是否以正确的类型和位置出现。然而,NV事件本身的感知质量仍未被充分探索。为填补这一空白,我们构建了NV-MOS数据集,包含来自多个NV-TTS系统的输出及自然发生的NV样本,并由三位声学专家基于感知质量量表进行评分。进一步分析Gemini等具备音频处理能力的多模态大语言模型后,我们发现其评分与专家评分存在明显不一致。这些结果表明,通用多模态模型无法可靠替代人工判断进行NV质量评估。据此,我们提出NVMOS——据我们所知,这是首个能可靠预测语音中NV事件感知质量的模型。实验结果显示,通过局部NV事件聚焦模块,NVMOS与人类MOS评分达到了专家级或更强的一致性。

0
下载
关闭预览

相关内容

专知会员服务
19+阅读 · 2021年7月18日
【EMNLP2020最佳论文】无声语音的数字化发声
专知会员服务
12+阅读 · 2020年11月20日
语音情绪识别|声源增强|基频可视化
深度学习每日摘要
15+阅读 · 2019年5月5日
书单 | 语音研究进阶指南
微软研究院AI头条
12+阅读 · 2019年3月22日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
自然语言处理顶会EMNLP2018接受论文列表!
专知
87+阅读 · 2018年8月26日
清华发布《2018自然语言处理研究报告》
智能交通技术
17+阅读 · 2018年8月4日
从语言学到深度学习NLP,一文概述自然语言处理
人工智能学家
13+阅读 · 2018年1月28日
NLP(自然语言处理)扫盲
大数据和云计算技术
20+阅读 · 2017年7月9日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
0+阅读 · 21分钟前
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
相关VIP内容
专知会员服务
19+阅读 · 2021年7月18日
【EMNLP2020最佳论文】无声语音的数字化发声
专知会员服务
12+阅读 · 2020年11月20日
相关资讯
语音情绪识别|声源增强|基频可视化
深度学习每日摘要
15+阅读 · 2019年5月5日
书单 | 语音研究进阶指南
微软研究院AI头条
12+阅读 · 2019年3月22日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
自然语言处理顶会EMNLP2018接受论文列表!
专知
87+阅读 · 2018年8月26日
清华发布《2018自然语言处理研究报告》
智能交通技术
17+阅读 · 2018年8月4日
从语言学到深度学习NLP,一文概述自然语言处理
人工智能学家
13+阅读 · 2018年1月28日
NLP(自然语言处理)扫盲
大数据和云计算技术
20+阅读 · 2017年7月9日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员