A Mixture-of-Experts Model for Multimodal Emotion Recognition in Conversations - 专知论文

会员服务 ·

0

模态 · 多模 · 识别 · 混合 · 情感识别 ·

A Mixture-of-Experts Model for Multimodal Emotion Recognition in Conversations

翻译：面向多模态对话情感识别的专家混合模型

Soumya Dutta,Smruthi Balaji,Sriram Ganapathy

from arxiv, Accepted to Elsevier Computer Speech and Language. 30 pages, 9 figures, 5 tables

Emotion Recognition in Conversations (ERC) presents unique challenges, requiring models to capture the temporal flow of multi-turn dialogues and to effectively integrate cues from multiple modalities. We propose Mixture of Speech-Text Experts for Recognition of Emotions (MiSTER-E), a modular Mixture-of-Experts (MoE) framework designed to decouple two core challenges in ERC: modality-specific context modeling and multimodal information fusion. MiSTER-E leverages large language models (LLMs) fine-tuned for both speech and text to provide rich utterance-level embeddings, which are then enhanced through a convolutional-recurrent context modeling layer. The system integrates predictions from three experts-speech-only, text-only, and cross-modal-using a learned gating mechanism that dynamically weighs their outputs. To further encourage consistency and alignment across modalities, we introduce a supervised contrastive loss between paired speech-text representations and a KL-divergence-based regulariza-tion across expert predictions. Importantly, MiSTER-E does not rely on speaker identity at any stage. Experiments on three benchmark datasets-IEMOCAP, MELD, and MOSI-show that our proposal achieves 70.9%, 69.5%, and 87.9% weighted F1-scores respectively, outperforming several baseline speech-text ERC systems. We also provide various ablations to highlight the contributions made in the proposed approach.

翻译：对话情感识别（ERC）面临独特挑战，需要模型能够捕捉多轮对话的时间动态，并有效整合来自多模态的线索。我们提出用于情感识别的语音-文本专家混合模型（MiSTER-E），这是一种模块化的专家混合（MoE）框架，旨在解耦ERC中的两个核心挑战：模态特定上下文建模与多模态信息融合。MiSTER-E利用针对语音和文本分别微调的大语言模型（LLMs）来提供丰富的语句级嵌入表示，这些表示通过卷积-循环上下文建模层进一步强化。该系统通过可学习的门控机制动态加权三个专家——纯语音、纯文本与跨模态专家——的预测输出。为促进跨模态表征的一致性与对齐，我们引入了配对语音-文本表征间的监督对比损失，以及基于KL散度的专家预测正则化方法。值得注意的是，MiSTER-E在任何阶段均不依赖说话人身份信息。在三个基准数据集——IEMOCAP、MELD与MOSI——上的实验表明，我们的方法分别取得了70.9%、69.5%与87.9%的加权F1分数，优于多个语音-文本ERC基线系统。我们还通过多项消融实验验证了所提方法中各组件的贡献。

0

相关内容

稀疏混合专家模型 (SMoE) 的崛起：从算法基础、去中心化架构到垂直领域应用的综述

稀疏混合专家模型 (SMoE) 的崛起：从算法基础、去中心化架构到垂直领域应用的综述

专知会员服务

17+阅读 · 2月12日

多模态大语言模型遇见多模态情绪识别与推理：综述

多模态大语言模型遇见多模态情绪识别与推理：综述

专知会员服务

22+阅读 · 2025年10月3日

混合专家模型简述

混合专家模型简述

专知会员服务

18+阅读 · 2025年5月30日

多模态对话情感识别：方法、趋势、挑战与前景综述

多模态对话情感识别：方法、趋势、挑战与前景综述

专知会员服务

20+阅读 · 2025年5月28日

《混合专家模型推理优化技术综述》

《混合专家模型推理优化技术综述》

专知会员服务

46+阅读 · 2024年12月21日

混合专家模型在大模型微调领域进展

混合专家模型在大模型微调领域进展

专知会员服务

48+阅读 · 2024年9月23日

大型语言模型遇上文本中心的多模态情感分析：综述

大型语言模型遇上文本中心的多模态情感分析：综述

专知会员服务

25+阅读 · 2024年6月13日

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

专知会员服务

35+阅读 · 2024年5月26日

【AAAI2022】混合课程学习对话情绪识别

【AAAI2022】混合课程学习对话情绪识别

专知会员服务

28+阅读 · 2021年12月24日

多模态情绪识别研究综述

多模态情绪识别研究综述

专知会员服务

170+阅读 · 2020年12月21日

揭秘ChatGPT情感对话能力

揭秘ChatGPT情感对话能力

专知

16+阅读 · 2023年4月9日

多模态情绪识别研究综述

多模态情绪识别研究综述

专知

25+阅读 · 2020年12月21日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

专家报告|深度学习+图像多模态融合

专家报告|深度学习+图像多模态融合

中国图象图形学报

12+阅读 · 2019年10月23日

SFFAI 31 报名通知 | 情感语音识别与合成

SFFAI 31 报名通知 | 情感语音识别与合成

人工智能前沿讲习班

17+阅读 · 2019年5月30日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

【论文推荐】最新八篇情感分析相关论文—Pair-wise判别器、多模态情感分析、上下文语境、Gated 卷积网络

【论文推荐】最新八篇情感分析相关论文—Pair-wise判别器、多模态情感分析、上下文语境、Gated 卷积网络

专知

20+阅读 · 2018年6月29日

【论文推荐】最新八篇情感分析相关论文—注意力网络、多模态情感分析、情感分析局限性、跨语言情感分类、多语言情感分析

【论文推荐】最新八篇情感分析相关论文—注意力网络、多模态情感分析、情感分析局限性、跨语言情感分类、多语言情感分析

专知

52+阅读 · 2018年6月28日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

【论文推荐】最新六篇情感分析相关论文—深度上下文、支持向量机、两级LSTM、多模态情感分析、软件工程、代码混合

【论文推荐】最新六篇情感分析相关论文—深度上下文、支持向量机、两级LSTM、多模态情感分析、软件工程、代码混合

专知

24+阅读 · 2018年3月31日

基于时空模式的复杂行为识别方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

基于多源语义表示学习的社交媒体文本属性情感分类研究

国家自然科学基金

4+阅读 · 2017年12月31日

图文混合跨媒体知识单元的模糊分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于因子分析的会话语音说话人识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

面向非接触式、非稳定和长时间尺度生理信号的情感状态自动识别研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

读者视角的跨领域隐式情感分析理论及关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

Mixed Effects Mixture of Experts: Modeling Double Heterogeneous Trajectories

Arxiv

0+阅读 · 3月8日

MoDES: Accelerating Mixture-of-Experts Multimodal Large Language Models via Dynamic Expert Skipping

Arxiv

0+阅读 · 2月22日

Multilingual Routing in Mixture-of-Experts

Arxiv

0+阅读 · 2月17日

Mixture-of-Experts under Finite-Rate Gating: Communication--Generalization Trade-offs

Arxiv

0+阅读 · 2月16日

Improving Speech Emotion Recognition with Mutual Information Regularized Generative Model

Arxiv

0+阅读 · 2月12日

Orthogonal Disentanglement with Projected Feature Alignment for Multimodal Emotion Recognition in Conversation

Arxiv

0+阅读 · 2月11日

LIBMoE: A Library for comprehensive benchmarking Mixture of Experts in Large Language Models

Arxiv

0+阅读 · 2月10日

Dynamic Expert Quantization for Scalable Mixture-of-Experts Inference

Arxiv

0+阅读 · 2月6日

Decoupled Hierarchical Distillation for Multimodal Emotion Recognition

Arxiv

0+阅读 · 2月4日

SAME: Stabilized Mixture-of-Experts for Multimodal Continual Instruction Tuning

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

专知会员服务

9+阅读 · 今天6:39

《人工智能在全球军事与武器工业中的应用、方法论与影响》

《人工智能在全球军事与武器工业中的应用、方法论与影响》

专知会员服务

3+阅读 · 今天6:36

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

专知会员服务

7+阅读 · 今天6:28

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

专知会员服务

4+阅读 · 今天0:51

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

4+阅读 · 4月29日

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

专知会员服务

7+阅读 · 4月29日

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

专知会员服务

6+阅读 · 4月29日

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

专知会员服务

6+阅读 · 4月29日

《化繁为简：军事模拟器配置的对话式方法》报告

《化繁为简：军事模拟器配置的对话式方法》报告

专知会员服务

10+阅读 · 4月29日

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

专知会员服务

12+阅读 · 4月29日

《新兴技术武器化及其对全球风险的影响》

《新兴技术武器化及其对全球风险的影响》

专知会员服务

8+阅读 · 4月29日

《帕兰泰尔平台介绍：信息分析平台》

《帕兰泰尔平台介绍：信息分析平台》

专知会员服务

19+阅读 · 4月29日

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

专知会员服务

11+阅读 · 4月29日

【伯克利博士论文】深度解析 AI 智能体的失配问题

【伯克利博士论文】深度解析 AI 智能体的失配问题

专知会员服务

8+阅读 · 4月28日

智能体化世界建模：基础、能力、规律及展望

智能体化世界建模：基础、能力、规律及展望

专知会员服务

11+阅读 · 4月28日

相关VIP内容

稀疏混合专家模型 (SMoE) 的崛起：从算法基础、去中心化架构到垂直领域应用的综述

稀疏混合专家模型 (SMoE) 的崛起：从算法基础、去中心化架构到垂直领域应用的综述

专知会员服务

17+阅读 · 2月12日

多模态大语言模型遇见多模态情绪识别与推理：综述

多模态大语言模型遇见多模态情绪识别与推理：综述

专知会员服务

22+阅读 · 2025年10月3日

混合专家模型简述

混合专家模型简述

专知会员服务

18+阅读 · 2025年5月30日

多模态对话情感识别：方法、趋势、挑战与前景综述

多模态对话情感识别：方法、趋势、挑战与前景综述

专知会员服务

20+阅读 · 2025年5月28日

《混合专家模型推理优化技术综述》

《混合专家模型推理优化技术综述》

专知会员服务

46+阅读 · 2024年12月21日

混合专家模型在大模型微调领域进展

混合专家模型在大模型微调领域进展

专知会员服务

48+阅读 · 2024年9月23日

大型语言模型遇上文本中心的多模态情感分析：综述

大型语言模型遇上文本中心的多模态情感分析：综述

专知会员服务

25+阅读 · 2024年6月13日

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

专知会员服务

35+阅读 · 2024年5月26日

【AAAI2022】混合课程学习对话情绪识别

【AAAI2022】混合课程学习对话情绪识别

专知会员服务

28+阅读 · 2021年12月24日

多模态情绪识别研究综述

多模态情绪识别研究综述

专知会员服务

170+阅读 · 2020年12月21日

热门VIP内容

开通专知VIP会员享更多权益服务

《人工智能在全球军事与武器工业中的应用、方法论与影响》

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

相关资讯

揭秘ChatGPT情感对话能力

揭秘ChatGPT情感对话能力

专知

16+阅读 · 2023年4月9日

多模态情绪识别研究综述

多模态情绪识别研究综述

专知

25+阅读 · 2020年12月21日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

专家报告|深度学习+图像多模态融合

专家报告|深度学习+图像多模态融合

中国图象图形学报

12+阅读 · 2019年10月23日

SFFAI 31 报名通知 | 情感语音识别与合成

SFFAI 31 报名通知 | 情感语音识别与合成

人工智能前沿讲习班

17+阅读 · 2019年5月30日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

【论文推荐】最新八篇情感分析相关论文—Pair-wise判别器、多模态情感分析、上下文语境、Gated 卷积网络

【论文推荐】最新八篇情感分析相关论文—Pair-wise判别器、多模态情感分析、上下文语境、Gated 卷积网络

专知

20+阅读 · 2018年6月29日

【论文推荐】最新八篇情感分析相关论文—注意力网络、多模态情感分析、情感分析局限性、跨语言情感分类、多语言情感分析

【论文推荐】最新八篇情感分析相关论文—注意力网络、多模态情感分析、情感分析局限性、跨语言情感分类、多语言情感分析

专知

52+阅读 · 2018年6月28日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

【论文推荐】最新六篇情感分析相关论文—深度上下文、支持向量机、两级LSTM、多模态情感分析、软件工程、代码混合

【论文推荐】最新六篇情感分析相关论文—深度上下文、支持向量机、两级LSTM、多模态情感分析、软件工程、代码混合

专知

24+阅读 · 2018年3月31日

相关论文

Mixed Effects Mixture of Experts: Modeling Double Heterogeneous Trajectories

Arxiv

0+阅读 · 3月8日

MoDES: Accelerating Mixture-of-Experts Multimodal Large Language Models via Dynamic Expert Skipping

Arxiv

0+阅读 · 2月22日

Multilingual Routing in Mixture-of-Experts

Arxiv

0+阅读 · 2月17日

Mixture-of-Experts under Finite-Rate Gating: Communication--Generalization Trade-offs

Arxiv

0+阅读 · 2月16日

Improving Speech Emotion Recognition with Mutual Information Regularized Generative Model

Arxiv

0+阅读 · 2月12日

Orthogonal Disentanglement with Projected Feature Alignment for Multimodal Emotion Recognition in Conversation

Arxiv

0+阅读 · 2月11日

LIBMoE: A Library for comprehensive benchmarking Mixture of Experts in Large Language Models

Arxiv

0+阅读 · 2月10日

Dynamic Expert Quantization for Scalable Mixture-of-Experts Inference

Arxiv

0+阅读 · 2月6日

Decoupled Hierarchical Distillation for Multimodal Emotion Recognition

Arxiv

0+阅读 · 2月4日

SAME: Stabilized Mixture-of-Experts for Multimodal Continual Instruction Tuning

Arxiv

0+阅读 · 2月2日

相关基金

基于时空模式的复杂行为识别方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

基于多源语义表示学习的社交媒体文本属性情感分类研究

国家自然科学基金

4+阅读 · 2017年12月31日

图文混合跨媒体知识单元的模糊分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于因子分析的会话语音说话人识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

面向非接触式、非稳定和长时间尺度生理信号的情感状态自动识别研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

读者视角的跨领域隐式情感分析理论及关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

微信扫码咨询专知VIP会员