Large-scale audio language models (ALMs), such as Qwen2-Audio, are capable of comprehending diverse audio signal, performing audio analysis and generating textual responses. However, in speech emotion recognition (SER), ALMs often suffer from hallucinations, resulting in misclassifications or irrelevant outputs. To address these challenges, we propose C$^2$SER, a novel ALM designed to enhance the stability and accuracy of SER through Contextual perception and Chain of Thought (CoT). C$^2$SER integrates the Whisper encoder for semantic perception and Emotion2Vec-S for acoustic perception, where Emotion2Vec-S extends Emotion2Vec with semi-supervised learning to enhance emotional discrimination. Additionally, C$^2$SER employs a CoT approach, processing SER in a step-by-step manner while leveraging speech content and speaking styles to improve recognition. To further enhance stability, C$^2$SER introduces self-distillation from explicit CoT to implicit CoT, mitigating error accumulation and boosting recognition accuracy. Extensive experiments show that C$^2$SER outperforms existing popular ALMs, such as Qwen2-Audio and SECap, delivering more stable and precise emotion recognition. We release the training code, checkpoints, and test sets to facilitate further research.


翻译:大规模音频语言模型(如Qwen2-Audio)能够理解多样化的音频信号,执行音频分析并生成文本响应。然而在语音情感识别任务中,此类模型常出现幻觉现象,导致错误分类或无关输出。为应对这些挑战,我们提出C$^2$SER——一种通过上下文感知与思维链机制增强语音情感识别稳定性与准确性的新型音频语言模型。C$^2$SER集成Whisper编码器实现语义感知,并采用经半监督学习扩展的Emotion2Vec-S进行声学感知以提升情感区分能力。该模型运用思维链方法,在逐步处理语音情感识别任务时同步利用语音内容与说话风格特征来优化识别效果。为进一步增强稳定性,C$^2$SER引入从显式思维链到隐式思维链的自蒸馏机制,有效抑制误差累积并提升识别精度。大量实验表明,C$^2$SER在稳定性与情感识别精确度方面均优于Qwen2-Audio、SECap等现有主流音频语言模型。我们已公开训练代码、模型检查点及测试集以促进后续研究。

0
下载
关闭预览

相关内容

【KDD2020】图神经网络生成式预训练
专知
23+阅读 · 2020年7月3日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
使用RNN-Transducer进行语音识别建模【附PPT与视频资料】
人工智能前沿讲习班
74+阅读 · 2019年1月29日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员