The practical utility of Speech Emotion Recognition (SER) systems is undermined by their fragility to domain shifts, such as speaker variability, the distinction between acted and naturalistic emotions, and cross-corpus variations. While domain adaptation and fine-tuning are widely studied, they require either source data or labelled target data, which are often unavailable or raise privacy concerns in SER. Test-time adaptation (TTA) bridges this gap by adapting models at inference using only unlabeled target data. Yet, having been predominantly designed for image classification and speech recognition, the efficacy of TTA for mitigating the unique domain shifts in SER has not been investigated. In this paper, we present the first systematic evaluation and comparison covering 11 TTA methods across three representative SER tasks. The results indicate that backpropagation-free TTA methods are the most promising. Conversely, entropy minimization and pseudo-labeling generally fail, as their core assumption of a single, confident ground-truth label is incompatible with the inherent ambiguity of emotional expression. Further, no single method universally excels, and its effectiveness is highly dependent on the distributional shifts and tasks.


翻译:语音情感识别(SER)系统的实际应用价值因其对领域偏移的脆弱性而受到削弱,例如说话人变异性、表演情感与自然情感的区分以及跨语料库的差异。尽管领域自适应和微调已被广泛研究,但它们通常需要源数据或带标签的目标数据,而这些数据在SER中往往难以获取或引发隐私担忧。测试时自适应(TTA)通过仅使用未标记的目标数据在推理阶段调整模型,从而弥补了这一差距。然而,TTA主要针对图像分类和语音识别任务设计,其在缓解SER中特有领域偏移方面的有效性尚未得到探究。本文首次对涵盖三个代表性SER任务的11种TTA方法进行了系统评估与比较。结果表明,无需反向传播的TTA方法最具前景。相反,熵最小化和伪标记方法通常效果不佳,因为其核心假设——存在单一、确定性的真实标签——与情感表达固有的模糊性不相容。此外,没有一种方法能在所有情况下表现优异,其有效性高度依赖于分布偏移和具体任务。

0
下载
关闭预览

相关内容

情感推荐系统综述:面向个性化的态度、情绪与情境建模
【ICML2024】理解视觉语言模型的检索增强任务自适应
专知会员服务
23+阅读 · 2024年5月8日
揭秘ChatGPT情感对话能力
专知会员服务
59+阅读 · 2023年4月9日
【ACM MM2020】跨模态分布匹配的半监督多模态情感识别
专知会员服务
43+阅读 · 2020年9月8日
揭秘ChatGPT情感对话能力
专知
16+阅读 · 2023年4月9日
【资源】领域自适应相关论文、代码分享
专知
32+阅读 · 2019年10月12日
语音情绪识别|声源增强|基频可视化
深度学习每日摘要
15+阅读 · 2019年5月5日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
【团队新作】连续情感识别,精准捕捉你的小情绪!
中国科学院自动化研究所
16+阅读 · 2018年4月17日
独家 | 为什么要利用NLP做情感分析?
数盟
13+阅读 · 2017年12月20日
深度学习在情感分析中的应用
CSDN大数据
14+阅读 · 2017年8月22日
语音识别之--韩语语音识别
微信AI
16+阅读 · 2017年8月2日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关资讯
揭秘ChatGPT情感对话能力
专知
16+阅读 · 2023年4月9日
【资源】领域自适应相关论文、代码分享
专知
32+阅读 · 2019年10月12日
语音情绪识别|声源增强|基频可视化
深度学习每日摘要
15+阅读 · 2019年5月5日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
【团队新作】连续情感识别,精准捕捉你的小情绪!
中国科学院自动化研究所
16+阅读 · 2018年4月17日
独家 | 为什么要利用NLP做情感分析?
数盟
13+阅读 · 2017年12月20日
深度学习在情感分析中的应用
CSDN大数据
14+阅读 · 2017年8月22日
语音识别之--韩语语音识别
微信AI
16+阅读 · 2017年8月2日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员