Lack of large, well-annotated emotional speech corpora continues to limit the performance and robustness of speech emotion recognition (SER), particularly as models grow more complex and the demand for multimodal systems increases. While generative data augmentation offers a promising solution, existing approaches often produce emotionally inconsistent samples due to oversimplified conditioning on categorical labels. This paper introduces a novel mutual-information-regularised generative framework that combines cross-modal alignment with feature-level synthesis. Building on an InfoGAN-style architecture, our method first learns a semantically aligned audio-text representation space using pre-trained transformers and contrastive objectives. A feature generator is then trained to produce emotion-aware audio features while employing mutual information as a quantitative regulariser to ensure strong dependency between generated features and their conditioning variables. We extend this approach to multimodal settings, enabling the generation of novel, paired (audio, text) features. Comprehensive evaluation on three benchmark datasets (IEMOCAP, MSP-IMPROV, MSP-Podcast) demonstrates that our framework consistently outperforms existing augmentation methods, achieving state-of-the-art performance with improvements of up to 2.6% in unimodal SER and 3.2% in multimodal emotion recognition. Most importantly, we demonstrate that mutual information functions as both a regulariser and a measurable metric for generative quality, offering a systematic approach to data augmentation in affective computing.


翻译:缺乏大规模、标注完善的语音情感语料库持续制约着语音情感识别(SER)的性能与鲁棒性,尤其是在模型日益复杂且对多模态系统需求增长的背景下。尽管生成式数据增强提供了一种颇具前景的解决方案,但现有方法常因对类别标签的条件化过程过于简化,导致生成的情感样本不一致。本文提出了一种新颖的互信息正则化生成框架,该框架将跨模态对齐与特征级合成相结合。基于InfoGAN风格的架构,我们的方法首先利用预训练的Transformer模型和对比学习目标,学习一个语义对齐的音频-文本表示空间。随后训练一个特征生成器以产生情感感知的音频特征,同时采用互信息作为量化正则化器,以确保生成特征与其条件变量之间存在强依赖性。我们将此方法扩展至多模态场景,能够生成新颖的配对(音频,文本)特征。在三个基准数据集(IEMOCAP, MSP-IMPROV, MSP-Podcast)上的综合评估表明,我们的框架始终优于现有增强方法,在单模态SER中实现了高达2.6%的性能提升,在多模态情感识别中实现了高达3.2%的提升,达到了最先进的性能水平。最重要的是,我们证明了互信息不仅可作为正则化器,还可作为生成质量的可量化度量指标,为情感计算中的数据增强提供了一种系统化方法。

0
下载
关闭预览

相关内容

互信息(Mutual Information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性.
情感推荐系统综述:面向个性化的态度、情绪与情境建模
多模态对话情感识别:方法、趋势、挑战与前景综述
专知会员服务
20+阅读 · 2025年5月28日
大规模语言模型在生物信息学中的应用
专知会员服务
18+阅读 · 2025年1月16日
《语音大语言模型》最新进展综述
专知会员服务
57+阅读 · 2024年10月8日
《大型语言模型情感认知》最新进展
专知会员服务
43+阅读 · 2024年10月3日
揭秘ChatGPT情感对话能力
专知会员服务
59+阅读 · 2023年4月9日
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
【ACM MM2020】跨模态分布匹配的半监督多模态情感识别
专知会员服务
43+阅读 · 2020年9月8日
揭秘ChatGPT情感对话能力
专知
16+阅读 · 2023年4月9日
多模态情绪识别研究综述
专知
25+阅读 · 2020年12月21日
搜索query意图识别的演进
DataFunTalk
13+阅读 · 2020年11月15日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
SFFAI 31 报名通知 | 情感语音识别与合成
人工智能前沿讲习班
17+阅读 · 2019年5月30日
语音情绪识别|声源增强|基频可视化
深度学习每日摘要
15+阅读 · 2019年5月5日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
【团队新作】连续情感识别,精准捕捉你的小情绪!
中国科学院自动化研究所
16+阅读 · 2018年4月17日
情感分析的新方法,使用word2vec对微博文本进行情感分析和分类
数据挖掘入门与实战
22+阅读 · 2018年1月6日
语音识别之--韩语语音识别
微信AI
16+阅读 · 2017年8月2日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关资讯
揭秘ChatGPT情感对话能力
专知
16+阅读 · 2023年4月9日
多模态情绪识别研究综述
专知
25+阅读 · 2020年12月21日
搜索query意图识别的演进
DataFunTalk
13+阅读 · 2020年11月15日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
SFFAI 31 报名通知 | 情感语音识别与合成
人工智能前沿讲习班
17+阅读 · 2019年5月30日
语音情绪识别|声源增强|基频可视化
深度学习每日摘要
15+阅读 · 2019年5月5日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
【团队新作】连续情感识别,精准捕捉你的小情绪!
中国科学院自动化研究所
16+阅读 · 2018年4月17日
情感分析的新方法,使用word2vec对微博文本进行情感分析和分类
数据挖掘入门与实战
22+阅读 · 2018年1月6日
语音识别之--韩语语音识别
微信AI
16+阅读 · 2017年8月2日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员